Archiwum kategorii: Dziennik badań

Zapiski pojawiające się w czasie realizowanych badań. Dotyczą one badań ilościowo-jakościowych.

Analiza danych tekstowych w projektowaniu wybranego systemu informacyjnego na przykładzie dokumentacji ze zdarzeń krajowego systemu ratowniczo-gaśniczego

Niżej przedstawiam streszczenie referatu jaki zostanie odczytany na seminarium Wydziału Informatyki Politechniki Białostockiej.  Zachęcam do lektury. Ewentualnie streszczenie można odnaleźć na stronie Wydziału Informatyki Politechniki Białostockiej.

Czytaj dalej

Konferencja BDAS’11

Zakończyła się kolejna edycja konferencji BDAS’11. Wspaniała impreza oraz niepowtarzalna atmosfera. Zachęcam do uczestniczenia w następnych edycjach ludzi którzy jeszcze nie są pewni – naprawdę warto. Niezbędne informacje na temat konferencji jak i materiały prezentowane na sesjach plakatowych jak i planarnych można odnaleźć na stronie konferencji http://zti.aei.polsl.pl/bdas.

Zaproszenie na seminarium

Zapraszam na seminaria odbywające się w zakładzie Informatyki i Łączności  Szkoły Głównej Służby Pożarniczej (SGSP). Planowane są co tydzień w poniedziałek o godzinie 14.00, przedstawiana będzie na nich różnego rodzaju problematyka związana z analizą danych tekstowych i nie tylko. Szczegóły dotyczące prezentacji i ich terminarz umieszczony jest na stronie zakładu (seminaria).

Osobiście zaprezentuje 14 marca 2011 roku temat poświęcony jakościowej analizie danych tekstowych z systemu EWID-99, tytuł prezentacji brzmi „System informacyjny na temat sieci hydrantów dla krajowego systemu ratowniczo-gaśniczego: metoda analizy systemu EWID-99”. W wystąpieniu zostanie zaprezentowana opracowana, przez autora i zastosowana w podjętych przez niego badaniach, zmodyfikowana analiza przyczyn i skutków błędów (ang. failure modes and effects analysis – FMEA) zawierająca drzewo analizy błędów oprogramowania (ang. software failure tree analysis – SFTA). Analiza ta została wykorzystana do sfalsyfikowania możliwości zastosowania, w aktualnej tekstowej – wyrażonej za pomocą języka naturalnego – postaci, elektronicznej sekcji Dane opisowe do informacji ze zdarzenia systemu EWID99 jako operacyjnej bazy danych na temat sieci hydrantów. W wystąpieniu zostanie także przedstawiona alternatywna struktura danych do zapisywania i przeszukiwania informacji na temat hydrantów. Omówiony zostanie, zaprojektowany, przykładowy system wyszukiwania informacji na temat hydrantów zawarty w nierelacyjnym katalogowym rejestrze (ang. Not Only SQL – noSQL). Jego propozycja wynika z przeprowadzonej analizy i stanowi alternatywę dla aktualnego systemu wyszukiwania informacji w systemie EID99.

Praca badawcza…

Cały czas podnoszę się na duchu, dość dobrze obrazującym aktualny stan badań, cytatem Albert Einsteina: „Gdybym wiedział co robię, to przecież nie była by praca badawcza.” Tak więc aby do przodu.

Notka z badań

Ostatnio cały czas spędzam nad składaniem rozprawy i szlifowaniem tez w celu ich prezentacji. Szczerze jest to niebanalne wyzwanie. W czasie tych 3 lat, sporo się działo, powstało parę ciekawych opracowań i artykułów. Większość jest jeszcze w recenzjach. W końcu znalazłem problem badawczy, aktualnie jestem w dalszym ciągu na etapie implementacji oprogramowania do jego zbadania. Wszystko jest na papierze, teraz należy to sprawdzić w praktyce. Co z tego wyjdzie, kto wie. Chyba właśnie na tym polega nauka i badania, że do końca nie wiadomo co z tego wszystkiego wyniknie. Na początku jest mgliste pojęcie o pewnych sprawach i zjawiskach, na szczęście wraz z zawężaniem problemu, mgła niewiadomej się trochę rozwiewa. Najważniejsze jest teraz zebranie wszystkich materiałów oraz otrzymanych wyników ze wstępnych analiz w jedną całość. Nie ma co zwlekać, trzeba ruszać z powrotem do badań nad raportami.

Małe podsumowanie

Ankieta ruszyła, dane powoli się zbierają…. Aktualnie wykonuje zlecenia dla Netsolution i projekt Motogarage… Artykuł do SIMIS został przyjęty należy go trochę poprawić zgodnie z uwagami recenzenta, jestem bardzo zadowolony z tego faktu. Jeszcze byłbym bardziej zadowolony gdybym mógł całkowicie poświęcić się nauce i pisaniom opracowań. Niestety nie jest różowo. Dobrze, że są zlecenia i należy się z tego cieszyć. Aktualnie pisanie nowych opracowań i artykułów trochę przystopowało, permanentny brak czasu. Będzie trzeba się mocno zorganizować i znowu napisać o tym co w głowie siedzi i przeprowadzić eksperyment który już całkiem dojrzał do tego aby go zrealizować. Na co więc czekać, do dzieła…

Weka

Zacząłem kompletować w końcu oprogramowanie do badań. Po przeglądzie rynku oprogramowania do badań dokumentów tekstowych wychodzi na to że postawię na Wekę. Jeśli ktoś jest zainteresowany to oprogramowanie można ciągnąc ze strony http://www.cs.waikato.ac.nz/~ml/index.html. W grę wchodziły jeszcze takie pakiety jak SAS Text Miner i Statistica Text Miner niestety aktualnie uczelnia nie posiada do nich licencji więc postawiłem na open sorce. Weka to projekt to przeprowadzania projektów z zakresu eksploracji danych napisana w ramach grantu na jednej z uczelni w Australii (po więcej szczegółów odsyłam na wyżej podaną stronę).  Wokół niej zgromadzone jest dość duże community oraz sam program posiada dobrą dokumentację nie wspominając już o książkach na jego temat. Nic tylko korzystać w szczególności, że całość napisana jest w Javie i można tworzyć własne pluginy. Niestety polski rynek programów do analizy tekstów rodzimego języka nie wygląda jeszcze różowo chodź istnieje możliwość, że jeszcze za mało go przeszukałem. W następnych notatkach umieszczę parę ciekawych linków do stron osób i projektów z zakresu analizy tekstów a zebrało się tego trochę i w Blogrollu raczej wszystko się nie pomieści.

Po świętach parę przemyśleń

Składanie papierów na program Ventures osobiście mnie przerosło. Jak dla jednej osoby ilość papierów i załatwiania podpisów w tak krótkim terminie było a wykonalne. Jednak we wszystkim można odnaleźć trochę rzeczy optymistycznych np. sprecyzowałem temat badań, napisałem plan badań, zakres i jego cel ponadto utworzyłem w końcu życiorys naukowy tak więc nie jest źle.

Co do ankiety, niestety ze szkoły nie ma póki co odzewu dlatego  postanowiłem umieścić ją na głównym forum strażaków http://www.strazak.pl/forum/index.php/board,7.0.html i aktualnie oczekuję odzewu. Osobiście mam nadzieję, że znajdą się osoby zainteresowane i mające doświadczenie z systemem EWID które będą skore do jej wypełnienia.

Ostatnio zająłem się także bliżej matematyką dyskretną w szczególności teorią grafów i relacji. Ich zastosowanie rozpatruje w analizie tekstu. Książki do polecenia na początek z tego zakresu to Robin J. Wilson  „Wprowadzenie do teorii grafów” oraz Kennweth A. Ross i Charles R.B. Wright „Matematyka dyskretna”. Po ich lekturze nasunęło mi się parę ciekawych pomysłów np. na temat projektowania drug ewakuacyjnych. Głównym celem pozostaje jednak analiza tekstu nie mogę się rozpraszać póki co na innych tematach. Grafy w analizie tekstu są tematem dość nowym i atrakcyjnym jednak w opracowywaniu metody do analizy dokumentów tekstowych i reprezentacji wiedzy skupię się na reprezentacji przestrzenno- wektorowej.

Dzień następny…

Z rana poświęciłem trochę czasu na porządkowanie bloga, po tagowałem wpisy, uporządkowałem kategorie oraz dodałem treści do kilku działów. Trochę już tego jest, powoli będzie trzeba więc wypełniać blog treściami merytorycznymi. Aktualnie dynamicznie rozwija się część związana z Dziennikiem badań. Wszystko jednak po kolei, dzisiaj zajmę się opisem potencjału komercyjnego realizowanego projektu. Postanowiłem podjąć próbę ubiegania się o stypendium z programu VENTURES organizowanego przez Fundację na rzecz Nauki Polskiej FNP. Jeśli ktoś jest zainteresowany stypendiami naukowymi to dalsze szczegóły może odnaleźć na stronie http://www.fnp.org.pl/

Cel badań

Podstawowy problem to określenie celu badań. Wstępnym celem jest analiza źle ustrukturyzowanych danych tekstowych pochodzących z systemu ewidencji zdarzeń i przekształcenie ich w problem dobrze ustrutyryzowany.  Na początku należy przeprowadzić badania jakościowe dotyczące analizy tekstu, metodą opisaną w Silverman. Na podstawie wstępnych wniosków, można zastosować eksploracyjną analizę tekstu do pozyskiwania potrzebnych atrybutów. Tak więc mamy interakcję badań jakościowych i ilościowych. Zastosowanie takiego podejścia ma kilka płaszczyzn zastosowań:

1. Daje dla inżyniera wiedzy albo oprogramowania metodę do opracowywania danych niestrukturyzowanych i przekształcania ich w wybraną reprezentację wiedzy o badanej, modelowanej dziedzinie

2.  Dla powyższych jednostek daje możliwość lepszego zapoznania się z analizowaną dziedziną nie tylko przez kontakt z ludzmi ale także z materiałami przez nich wywarzanymi i składowanymi w różny sposób

3.  Możliwe staje się uzyskanie opisu w postaci ontologi dla danej dziedziny (obraz statyczny dziedziny)

4. Poprzez wprowadzenie zależności między elementami ontologii i ich odpowiednie powiązanie ze sobą można uzyskać wiedzę (obraz dynamiczny dziedziny)

5. Metoda i skonstruowany proces mają dawać ontologie statyczne i dynamiczne

6. Pojęcia mają być formalnie opisane za pomocą formalnej analizy pojęć.

W następnych krokach należy ustalić:

1. Metodę jakościową do badania meldunków i przedstawić wyniki

2. Metodę ilościową do ekstrakcji uzupełniania szkieletu modelu wydobytego za pomocą metody jakościowej

3. Opisać całościową metodę: zakres jej stosowania, wyniki, przyjęte założenia.

Sformułowanie tezy: Problem analizy nieustrukturyzowanych meldunków tekstowych z systemu ewidencji zdarzeń Państwowej Straży Pożarnej za pomocą eksploracyjnej analizy tekstów

Jako, że eksploracyjna analiza tekstu stanowi odłam dziedziny z zakresu eksploracji danych może być postrzegana jako proces. Do tego procesu dokładam analizę jakościową danych w celu skonstruowania wstępnego modelu wiedzy wyrażonej w postaci ontologii dziedziny. Chce zbudować hierarchię pojęć i połączeń między nimi.