Analiza danych tekstowych w projektowaniu wybranego systemu informacyjnego na przykładzie dokumentacji ze zdarzeń krajowego systemu ratowniczo-gaśniczego

Niżej przedstawiam streszczenie referatu jaki zostanie odczytany na seminarium Wydziału Informatyki Politechniki Białostockiej.  Zachęcam do lektury. Ewentualnie streszczenie można odnaleźć na stronie Wydziału Informatyki Politechniki Białostockiej.

Czytaj dalej

Konferencja BDAS’11

Zakończyła się kolejna edycja konferencji BDAS’11. Wspaniała impreza oraz niepowtarzalna atmosfera. Zachęcam do uczestniczenia w następnych edycjach ludzi którzy jeszcze nie są pewni – naprawdę warto. Niezbędne informacje na temat konferencji jak i materiały prezentowane na sesjach plakatowych jak i planarnych można odnaleźć na stronie konferencji http://zti.aei.polsl.pl/bdas.

Korpusy, korpusiki czyli języka polska i nie tylko

Jako, że zajmuje się w głównej mierze ostatnio analizą i przetwarzaniem tekstów także chciałbym podać jak zawsze kilka ciekawych miejsc które warto odwiedzić i na których odnaleźć będzie można dalsze szczegółowe informacje na niniejszy temat.  Jednym z takich miejsc jest strona o korpusach polskich i nie tylko. Dowiecie się na niej czym one są i do czego służą, więcej informacji na http://www.korpusy.net/. Jak już dokonamy zapoznania się z informacjami o korpusach warto też do swego przybornika dorzucić takie narzędzia jak lematyzer. Jest to nieocenione narzędzie w analizie tekstów polskich. Na szczęście takie narzędzie jest dostępne na rynku, więcej szczegółów na blogu Dawida Weissa. Odnajdziecie na nim zagadnienia związane z analizą korpusów języka polskiego. Jeśli dalej nasza analiza ma dotyczyć płytkiego przetwarzania i analizy tekstu to polecam darmowe pakiety do eksploracyjnej analizy danych: Weka oraz i rapidminer.  Pakiety te są dobrze opisane istnieje do nich bogata literatura oraz poradników wszelkiej maści wraz z rozbudowaną platforma użytkowników która doradza na forach. Zachęcam do zapoznania się z zagadnieniami analizy tekstów.

Małe podsumowanie

Ankieta ruszyła, dane powoli się zbierają…. Aktualnie wykonuje zlecenia dla Netsolution i projekt Motogarage… Artykuł do SIMIS został przyjęty należy go trochę poprawić zgodnie z uwagami recenzenta, jestem bardzo zadowolony z tego faktu. Jeszcze byłbym bardziej zadowolony gdybym mógł całkowicie poświęcić się nauce i pisaniom opracowań. Niestety nie jest różowo. Dobrze, że są zlecenia i należy się z tego cieszyć. Aktualnie pisanie nowych opracowań i artykułów trochę przystopowało, permanentny brak czasu. Będzie trzeba się mocno zorganizować i znowu napisać o tym co w głowie siedzi i przeprowadzić eksperyment który już całkiem dojrzał do tego aby go zrealizować. Na co więc czekać, do dzieła…

Weka

Zacząłem kompletować w końcu oprogramowanie do badań. Po przeglądzie rynku oprogramowania do badań dokumentów tekstowych wychodzi na to że postawię na Wekę. Jeśli ktoś jest zainteresowany to oprogramowanie można ciągnąc ze strony http://www.cs.waikato.ac.nz/~ml/index.html. W grę wchodziły jeszcze takie pakiety jak SAS Text Miner i Statistica Text Miner niestety aktualnie uczelnia nie posiada do nich licencji więc postawiłem na open sorce. Weka to projekt to przeprowadzania projektów z zakresu eksploracji danych napisana w ramach grantu na jednej z uczelni w Australii (po więcej szczegółów odsyłam na wyżej podaną stronę).  Wokół niej zgromadzone jest dość duże community oraz sam program posiada dobrą dokumentację nie wspominając już o książkach na jego temat. Nic tylko korzystać w szczególności, że całość napisana jest w Javie i można tworzyć własne pluginy. Niestety polski rynek programów do analizy tekstów rodzimego języka nie wygląda jeszcze różowo chodź istnieje możliwość, że jeszcze za mało go przeszukałem. W następnych notatkach umieszczę parę ciekawych linków do stron osób i projektów z zakresu analizy tekstów a zebrało się tego trochę i w Blogrollu raczej wszystko się nie pomieści.

Dzień następny…

Z rana poświęciłem trochę czasu na porządkowanie bloga, po tagowałem wpisy, uporządkowałem kategorie oraz dodałem treści do kilku działów. Trochę już tego jest, powoli będzie trzeba więc wypełniać blog treściami merytorycznymi. Aktualnie dynamicznie rozwija się część związana z Dziennikiem badań. Wszystko jednak po kolei, dzisiaj zajmę się opisem potencjału komercyjnego realizowanego projektu. Postanowiłem podjąć próbę ubiegania się o stypendium z programu VENTURES organizowanego przez Fundację na rzecz Nauki Polskiej FNP. Jeśli ktoś jest zainteresowany stypendiami naukowymi to dalsze szczegóły może odnaleźć na stronie http://www.fnp.org.pl/

Od hipotezt do tezy

Dzień spędzony przeze mnie na dopinaniu formalności. Nie o tym jednak w tym krótkim i lakonicznym wpisie ma być.  Chciałbym zachować na nim, rozważania na temat czym jest hipoteza. Temat ten chciałbym nakreślić nie w sposób czysto akademicki lecz praktyczny dający się łatwo uchwycić.

A więc pisząc ogólnie, hipoteza jest to wstęp do sformułowania na jej podstawie twierdzenia na które składa się teza oraz jej dowód.  Hipoteza poprzez dokonanie przekształcenia za pomocą dowodu staje się tezą a wszystko to staje się twierdzeniem. Na początku każdego badania:

1. Stawiamy hipotezy, stanowiące pytania na temat zjawiska lub odpowiedzi jakie oczekujemy uzyskać

2. Dokonujemy dowodu, przekształcającego hipotezę w tezę. Na tym etapie może nastąpić także odrzucenie, niesprawdzenie się przyjętej hipotezy i jej falsyfikacja

3. Formułujemy twierdzenie składającego się z tezy i dowodu (twierdzenie = teza + dowód)

Podejście wydaje się być proste i zdroworozsądkowe,  niosące zarazem kilka ciekawych implikacji których poszukiwanie i opisywanie pozostawiam na inne wieczory.