Analiza danych tekstowych w projektowaniu wybranego systemu informacyjnego na przykładzie analizy dokumentacji zdarzeń krajowego systemu ratowniczo-gaśniczego (ang. Design the chosen information system based on text mining analysis of national fire service documentation)

Dnia 25 września 2013 r. o godzinie 12.15 w sali numer WA-130 w budynku Rektoratu Politechniki Białostockiej przy ul. Wiejskiej 45A odbyła się moja obrona rozprawy doktorskiej pt. „Analiza danych tekstowych w projektowaniu wybranego systemu informacyjnego na przykładzie analizy dokumentacji zdarzeń krajowego systemu ratowniczo-gaśniczego”. Autoreferat zawierający opis poszczególnych elementów proponowanej metody można odnaleźć w sekcji Publikacje – Seminaria lub można go pobrać bezpośrednio tutaj. Poniżej przedstawiam skrócony opis badań. Czytaj dalej

Wydane artykuły na temat segmentacji tekstu i przeglądu metod jego przetwarzania

Po dłuższej przerwie i oczekiwaniu ukazały się nowe artykuły. Ostatnio ukazał się artykuł – Marcin Mirończuk, Tadeusz Maciak Proces i metody eksploracji danych tekstowych do przetwarzania raportów z akcji ratowniczo-gaśniczych. Metody Informatyki Stosowanej, 4/2011 oraz artykuł tych samych autorów pt.  System informacyjny na temat sieci hydrantów dla krajowego systemu ratowniczo-gaśniczego: metoda segmentacji tekstu i jej ocena także w czasopiśmie Metody Informatyki Stosowanej, 4/2011. Zainteresowanych tematyką zapraszam do działu Abstrakty lub Publikacje, gdzie znajdują się streszczenia oraz linki do wersji elektronicznych ww. artykułów.

Artykuły

Ostatnio większość czasu spędzam nad szlifowaniem rozprawy i opisem rezultatów badań. Uzbierało się trochę tego. W między czasie widzę, że spływają recenzje wysłanych artykułów do wydawnictw. Ostatnio ukazał się artykuł – Marcin Mirończuk, Tadeusz Maciak Wykorzystanie komponentów platformy ERP do budowy drugiej generacji hybrydowego systemu wspomagania decyzji dla PSP. Metody Informatyki Stosowanej, 3/2011. Zainteresowanych tematyką zapraszam do działu Abstrakty lub Publikacje, gdzie znajdują się streszczenia oraz linki do wersji elektronicznych ww. artykułów.

Artykuły

Na koniec roku spłynęły recenzje artykułów oddanych do czasopism. Trochę się tego nazbierało a sam rok był bardzo owocny w badania i eksperymenty, przynoszące dość zaskakujące rezultaty.

Zainteresowane osoby tematyką eksploracji danych a dokładniej eksploracją danych tekstowych miło mi jest poinformować, że na ten temat będą mogły poczytać w czasopiśmie Metod Informatyki Stosowanej (http://www.pan.wi.zut.edu.pl/). Artykuł opisujący dziedzinę eksploracji danych tekstowych wraz z jej zastosowaniem w Państwowej Straży Pożarnej PSP nosi tytuł Proces i metody eksploracji danych tekstowych do przetwarzania raportów z akcji ratowniczo-gaśniczych i ukarze się w numerze 4/2011 ww. czasopisma. Z tematyką tą związany jest też następny artykuł pt. System informacyjny na temat sieci hydrantów dla krajowego systemu ratowniczo-gaśniczego: metoda segmentacji tekstu i jej ocena, który także zostanie wydany w tym czasopiśmie i ukaże się w numerze 1/2012. W artykule tym opisano szczegółową realizację eksperymentu opisującą podział tekstu na segmenty. Zajawka tego jak i poprzedniego artykułu w postaci abstraktów dostępne są w dziale Abstrakty, życzę miłej lektury.

Ostatnim nadesłanym do ww. czasopisma artykuł stanowił opis projektu związanego z rozwijaną koncepcją Systemu Wspomagania Decyzji dla PSP z wykorzystaniem komponentów platformy do planowania zasobów przedsiębiorstwa ERP. Artykuł ten ukaże się pod tytułem Wykorzystanie komponentów platformy ERP do budowy drugiej generacji hybrydowego systemu wspomagania decyzji dla PSP, w numerze 3/2011. Również jego zajawkę można zobaczyć w dziale Abstrakty.

Aktualnie cały czas oczekuje na decyzje z wydawnictwa CNBOP „Bezpieczeństwo i Technika Pożarnicza” w którym umieściłem dość interesujące przemyślenia i badania z zakresu inżynierii oprogramowania jak i eksploracji i segmentacji raportów. Niestety na ich ukazanie jak i recenzje jeszcze widać trochę będzie trzeba poczekać.

Korpusy, korpusiki czyli języka polska i nie tylko

Jako, że zajmuje się w głównej mierze ostatnio analizą i przetwarzaniem tekstów także chciałbym podać jak zawsze kilka ciekawych miejsc które warto odwiedzić i na których odnaleźć będzie można dalsze szczegółowe informacje na niniejszy temat.  Jednym z takich miejsc jest strona o korpusach polskich i nie tylko. Dowiecie się na niej czym one są i do czego służą, więcej informacji na http://www.korpusy.net/. Jak już dokonamy zapoznania się z informacjami o korpusach warto też do swego przybornika dorzucić takie narzędzia jak lematyzer. Jest to nieocenione narzędzie w analizie tekstów polskich. Na szczęście takie narzędzie jest dostępne na rynku, więcej szczegółów na blogu Dawida Weissa. Odnajdziecie na nim zagadnienia związane z analizą korpusów języka polskiego. Jeśli dalej nasza analiza ma dotyczyć płytkiego przetwarzania i analizy tekstu to polecam darmowe pakiety do eksploracyjnej analizy danych: Weka oraz i rapidminer.  Pakiety te są dobrze opisane istnieje do nich bogata literatura oraz poradników wszelkiej maści wraz z rozbudowaną platforma użytkowników która doradza na forach. Zachęcam do zapoznania się z zagadnieniami analizy tekstów.

Weka

Zacząłem kompletować w końcu oprogramowanie do badań. Po przeglądzie rynku oprogramowania do badań dokumentów tekstowych wychodzi na to że postawię na Wekę. Jeśli ktoś jest zainteresowany to oprogramowanie można ciągnąc ze strony http://www.cs.waikato.ac.nz/~ml/index.html. W grę wchodziły jeszcze takie pakiety jak SAS Text Miner i Statistica Text Miner niestety aktualnie uczelnia nie posiada do nich licencji więc postawiłem na open sorce. Weka to projekt to przeprowadzania projektów z zakresu eksploracji danych napisana w ramach grantu na jednej z uczelni w Australii (po więcej szczegółów odsyłam na wyżej podaną stronę).  Wokół niej zgromadzone jest dość duże community oraz sam program posiada dobrą dokumentację nie wspominając już o książkach na jego temat. Nic tylko korzystać w szczególności, że całość napisana jest w Javie i można tworzyć własne pluginy. Niestety polski rynek programów do analizy tekstów rodzimego języka nie wygląda jeszcze różowo chodź istnieje możliwość, że jeszcze za mało go przeszukałem. W następnych notatkach umieszczę parę ciekawych linków do stron osób i projektów z zakresu analizy tekstów a zebrało się tego trochę i w Blogrollu raczej wszystko się nie pomieści.