21
wrz
Autor: Marcin kategoria: Ogólne zapiski kusownika it-yka | 1 komentarz
Ostatnio większość czasu poświęcam na prace zawodową, niemniej iż wiąże się ona również z pracą naukową to po małej przerwie udało mi się opublikować artykuł pt. The Cascading Knowledge Discovery in Databases process in the Information System development. Zaprezentowałem go również na konferencji The Second International Conference on Computer Science, Computer Engineering, and Social Media (CSCESM2015). Cytując za abstraktem: „This article describes a proposal of information system project method. This method based on author’s cascading knowledge discovery in databases process. In this article, the author also to presented use case of this process. All analysis presented in this article based on text reports from the rescue fire service.”
21
sie
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka | Tagi :formalna analiza pojęć, podział tekstu na zdania, segmentacja tekstu | Brak komentarzy
W artykule zaprezentowano rozwiązania problemu segmentacji tekstu dziedzinowego. Badany tekst pochodził z raportów (formularza „Informacji ze zdarzenia”, pola „Dane opisowe do informacji ze zdarzenia”) sporządzanych po akcjach ratowniczo-gaśniczych przez jednostki Państwowej Straży Pożarnej.
W celu realizacji zadania autor zaproponował metodę projektowania bazy wiedzy oraz reguł segmentatora regułowego. Zaproponowana w artykule metoda opiera się na formalnej analizie pojęć. Zaprojektowana według proponowanej metody baza wiedzy oraz reguł umożliwiła przeprowadzenie procesu segmentacji dostępnej dokumentacji. Poprawność i skuteczność proponowanej metody zweryfikowano poprzez porównanie jej wyników z dwoma innymi rozwiązaniami wykorzystywanymi do segmentacji tekstu.
W ramach badań i analiz opisano oraz pogrupowano reguły i skróty występujące w badanych raportach. Dzięki zastosowaniu formalnej analizy pojęć utworzono hierarchię wykrytych reguł oraz skrótów. Wydobyta hierarchia stanowiła zarazem bazę wiedzy oraz reguł segmentatora regułowego. Przeprowadzone eksperymenty numeryczne i porównawcze autorskiego rozwiązania z dwoma innymi rozwiązaniami wykazały znacznie lepsze działanie tego pierwszego. Przykładowo otrzymane wyniki F-miary otrzymane w wyniku zastosowania proponowanej metody wynoszą 95,5% i są lepsze o 7-8% od pozostałych dwóch rozwiązań.
Zaproponowana metoda projektowania bazy wiedzy oraz reguł segmentatora regułowego umożliwia projektowanie i implementację oprogramowania do segmentacji tekstu z małym błędem podziału tekstu na segmenty. Podstawowa reguła dotycząca wykrywania końca zdania poprzez interpretację kropki i dodatkowych znaków jako końca segmentu w rzeczywistości, zwłaszcza dla tekstów specjalistycznych, musi być opakowana dodatkowymi regułami. Działania te znacznie podnoszą jakość segmentacji i zmniejszają jej błąd. Do budowy i reprezentacji takich reguł nadaje się przedstawiona w artykule formalna analiza pojęć. Wiedza inżyniera oraz dodatkowe eksperymenty mogą wzbogacać utworzoną sieć o nowe reguły. Nowo wprowadzana wiedza może zostać w łatwy sposób naniesiona na aktualnie utworzoną sieć semantyczną, tym samym przyczyniając się do polepszenia segmentacji tekstu. Ponadto w ramach eksperymentu numerycznego wytworzono unikalny: zbiór reguł oraz skrótów stosowanych w raportach, jak również zbiór prawidłowo wydzielonych i oznakowanych segmentów.
Z artykułem można zapoznać się w dziale Publikacje i jak zawsze życzę miłej lektury.
12
paź
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka | Tagi :ekstrakcja informacji, seminarium, systemy ekstrakcji informacji | Brak komentarzy
Dnia 18 kwietnia 2013 odbyło się Seminarium Zespołu Podstaw Sztucznej Inteligencji IPI PAN na którym zaprezentowałem Niezależny językowo system ekstrakcji informacji z pół-ustrukturalizowanych danych tekstowych (SEI BigGramy). W niniejszym streszczeniu referatu można się zaznajomić z przedstawionym przeze mnie pomysłem na ekstrakcję informacji z dokumentów internetowych.
12
paź
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka | Tagi :analiza danych, analiza danych tekstowych, classification, data mining, eksploracyjna analiza danych tekstowych, ekstrakcja informacji, information extraction, information system, klasyfikacja, projektowanie systemów informacyjnych, systemy informacyjne, text mining | 1 komentarz
Dnia 25 września 2013 r. o godzinie 12.15 w sali numer WA-130 w budynku Rektoratu Politechniki Białostockiej przy ul. Wiejskiej 45A odbyła się moja obrona rozprawy doktorskiej pt. „Analiza danych tekstowych w projektowaniu wybranego systemu informacyjnego na przykładzie analizy dokumentacji zdarzeń krajowego systemu ratowniczo-gaśniczego”. Autoreferat zawierający opis poszczególnych elementów proponowanej metody można odnaleźć w sekcji Publikacje – Seminaria lub można go pobrać bezpośrednio tutaj. Poniżej przedstawiam skrócony opis badań. Czytaj dalej
12
paź
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka | Tagi :ekstrakcja informacji, Formal Concept Analysis, formalna analiza pojęć, system ekstrakcji informacji | Brak komentarzy
This paper proposes application of Formal Concept Analysis (FCA) in creating character-level information extraction patterns and presents BigGrams: a prototype of a languageindependent information extraction system. The main goal of the system is to recognise and to extract of named entities belonging to some semantic classes (e.g. cars, actors, pop-stars, etc.) from semi structured text (web page documents).
12
paź
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka | Tagi :eksploracyjna analiza danych tekstowych, metody analizy danych tekstowych, Słowa kluczowe: eksploracja danych tekstowych | Brak komentarzy
W artykule opisano autorską klasyfikację metod i technik eksploracji danych tekstowych. Opisano aktualnie dostępne oraz stosowane metody reprezentacji danych tekstowych oraz techniki ich przetwarzania. Przeprowadzono także dyskusję na temat przetwarzania dokumentów za pomocą prezentowanych metod. Omówiono możliwości jak i ograniczenia poszczególnych prezentowanych metod do przetwarzania dokumentów tekstowych. Zapraszam do działu Publikacje i jak zawsze życzę miłej lektury.
12
paź
Autor: Marcin kategoria: Ogólne zapiski kusownika it-yka | Brak komentarzy
Ostatnio sporo się działo i na blogu był mały ruch. Aktualnie trochę znalazłem czasu na małe blogowe porządki i uaktualnienia. Tak więc życzę miłej lektury.
3
mar
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka | Tagi :eksploracja tekstu, klasyfikator Bayesa, naiwny klasyfikator Bayesa, ontologia służb ratowniczych, reprezentacja meldunków, reprezentacja przypadków zdarzeń, reprezentacja tekstu, wnioskowanie na podstawie przypadków | Brak komentarzy
W kolejnym wydaniu czasopisma CNBOP „Bezpieczeństwo i Technika Pożarnicza” (1/2013) ukarze się artykuł pt. „Propozycja mieszanego przetwarzania pół-strukturalnego modelu opisu zdarzeń z akcji ratowniczo-gaśniczych Państwowej Straży Pożarnej PSP”. W artykule tym dokonałem przedstawienia aktualnie rozwijanych reprezentacje wiedzy i sposoby opisów zdarzeń, dla systemu wnioskowania na podstawie przypadków zdarzeń służb ratowniczych Państwowej Straży Pożarnej PSP. W artykule zaproponowałem sposób ich przetwarzania, bazujący na klasyfikacji i wyszukiwaniu opisów zdarzeń. Zapraszam do działu Publikacje i jak zawsze życzę miłej lektury.
24
lip
Autor: Marcin kategoria: Ogólne zapiski kusownika it-yka, Zapiski JAVove kofeinove | Tagi :grupowanie, Hadoop, Hadoop Mahout, klasyfikacja, Mahout, sztuczna inteligencja algorytmy | Brak komentarzy
Poniżej umieszczam linki do stron związanych z pakietem Mahout do obliczeń z zakresu sztucznej inteligencji tj. klasyfikacje, grupowanie etc. Rozwiązanie to może stanowić alternatywę dla osób piszących w Javie a nie R. Istnieje również możliwość połączenia technologii. Poniżej prezentuję parę przydatnych linków:
– http://mahout.apache.org/
– http://www.ibm.com/developerworks/java/library/j-mahout/
– http://manning.com/owen/
Życzę jak zawsze miłej lektury.