Analiza danych tekstowych w projektowaniu wybranego systemu informacyjnego na przykładzie analizy dokumentacji zdarzeń krajowego systemu ratowniczo-gaśniczego (ang. Design the chosen information system based on text mining analysis of national fire service documentation)

Dnia 25 września 2013 r. o godzinie 12.15 w sali numer WA-130 w budynku Rektoratu Politechniki Białostockiej przy ul. Wiejskiej 45A odbyła się moja obrona rozprawy doktorskiej pt. „Analiza danych tekstowych w projektowaniu wybranego systemu informacyjnego na przykładzie analizy dokumentacji zdarzeń krajowego systemu ratowniczo-gaśniczego”. Autoreferat zawierający opis poszczególnych elementów proponowanej metody można odnaleźć w sekcji Publikacje – Seminaria lub można go pobrać bezpośrednio tutaj. Poniżej przedstawiam skrócony opis badań.

Po każdej interwencji służb ratowniczych Państwowej Straży Pożarnej PSP Kierujący Działaniami Ratowniczymi KDR sporządza papierową dokumentację opisującą przebieg interwencji. Forma tej dokumentacji w postaci formularza Informacje ze zdarzenia regulowana jest przez Rozporządzenie ministra spraw wewnętrznych i administracji. Formularz ten zawiera m.in. sekcję pt. Dane opisowe do informacji ze zdarzenia. W sekcji tej KDR opisuje różne aspekty podjętych działań ratowniczo-gaśniczych za pomocą języka naturalnego. Po wypełnieniu formularza papierowego tekst jest wprowadzany w formie elektronicznej do systemu ewidencji zdarzeń EWID. Omawiana sekcja dokumentacji papierowej, podzielona jest na sześć podpunktów: opis przebiegu działań ratowniczych (zagrożenia i utrudnienia, zużyty i uszkodzony sprzęt), opis jednostek przybyłych na miejsce zdarzenia, opis tego co uległo zniszczeniu lub spaleniu, warunki atmosferyczne, wnioski i uwagi wynikające z przebiegu działań ratowniczych oraz inne uwagi dotyczące danych wypełnianych w formularzu odnośnie zdarzenia. W systemie EWID brak jest podziału na takie podpunkty i zapisywany jest jednolity raport tekstowy wyrażony za pomocą języka naturalnego. Pod pojęciem tekst należy rozumieć opisy wyrażone językiem naturalnym znajdujące się w elektronicznej sekcji Dane opisowe do informacji ze zdarzenia systemu ewidencji. W tekstach tych znajdują się ważne informacje oraz wiedza dziedzinowa na temat np. sposobu neutralizacji powstałych zagrożeń czy też rodzaju użytego sprzętu do ich likwidacji.

Autor podczas swoich badań wykazał brak możliwości zastosowania omawianych tekstów bezpośrednio do analizy. Wynika to m.in. z faktu, że w rezultacie przeszukiwania sekcji elektronicznej KDR może dostać nieoczekiwane rezultaty np. kierując zapytanie o hydranty przy ulicy Mickiewicza system może zwrócić informacje nie tylko o hydrantach ale także o wszystkich akcjach ratowniczo-gaśniczych przy tej ulicy. Rozwiązanie tych problemów miała stanowić eksploracyjna analiza danych tekstowych (ang. text mining – TM) będąca specjalną odmianą (działającą na tekście) procesu odkrywania wiedzy w bazach danych (ang. knowledge discovery in databases – KDD). Aktualnie istnieją aplikacje do eksploracyjnej analizy danych tekstowych, które najczęściej współpracują z komponentami z zakresu przetwarzania języka naturalnego (ang. natural language processing – NLP). Zazwyczaj działanie tych pierwszych ogranicza się do analizy dokumentów tekstowych jako całości. Eksploracyjna analiza danych tekstowych pomija badanie zależności gramatycznych i morfologicznych na poziomie pojedynczych wyrażeń, które są domeną dziedziny przetwarzania języka naturalnego. Ewentualnie NLP stanowi uzupełnienie procesu wstępnego przetwarzania dokumentów tekstowych poprzez dostarczanie rozwiązań z zakresu np. lematyzacji czy też stemmingu. Zarówno jednak pierwsze jak i drugie podejście jest niewystarczające z tego względu, że pomija badanie segmentu, części obszerniejszego tekstu jako samodzielnego obiektu, który może nieść sam w sobie informacje. Segment w kontekście badań stanowi element tekstu w postaci zdania, które ma określony początek oraz koniec. Zazwyczaj początek zdania rozpoczyna się od dużej litery i kończy się znakiem interpunkcyjnym w postaci „.”, „!”, „?” etc. Badanie w takim kontekście segmentu, jak i nawet próba jego wyekstrahowania z dostępnych tekstów dziedzinowych, okazało się nietrywialne i znaczące w prowadzonych przez autora eksperymentach nad tekstem i jego strukturalizacją w celu zaprojektowania wybranego systemu informacyjnego.

Celem opisanego w pracy badania było opracowanie zintegrowanej metody do projektowania systemu informacyjnego SI stanowiącego narzędzie do realizacji procesów informacyjnych w oparciu o proces odkrywania wiedzy z baz danych tekstowych. W pracy zaproponowano nazwę dla takiego procesu w postaci – projektowanie SI sterowane danymi tekstowymi (ang. text driven software design). Nazwa ta ma odróżniać i podkreślać specyficzny charakter przedsięwzięcia od tradycyjnego procesu eksploracji danych tekstowych i odkrywania wiedzy z baz danych, które uwydatniają aspekt związany z tym, iż wiedza jest końcowym produktem odkrywania sterowanego danymi (ang. data-driven discovery).

W pracy dokonano przedstawienia problematyki związanej z proponowaną przez autora ogólną metodą projektowania SI realizowaną za pomocą ww. procesu. Całościowo wykazano możliwość dostosowania tego procesu, opartego o eksploracyjną analizę danych, do strukturalizacji dokumentacji tekstowej, wyrażonej za pomocą języka naturalnego i projektowania za jego pomocą SI. Studium przypadku (ang. case study) realizacji skonstruowanej metody stanowiła analiza dokumentacji zdarzeń krajowego systemu ratowniczo-gaśniczego.

Jedna odpowiedź do tego wpisu.

  1. Autor: intelligence analyst dnia 12.10.13 o godz. 14:24

    I blog quite often and I truly thank you for your content.
    Your article has truly peaked my interest. I will take a note
    of your website and keep checking for new details about once per week.
    I opted in for your Feed too.

Skomentuj ten wpis