8
wrz
Autor: Marcin kategoria: Dziennik badań, Scientific research diary | Tagi :20 newsgroups bydate, Feature learning, Hebbian learning, Representation learning, Spike-based representation, Spiking neural network, STDP, Text classification, Text processing, text representation, Unsupervised learning | Brak komentarzy
This study proposes a novel biologically plausible mechanism for generating low-dimensional spike-based text representation. First, we demonstrate how to transform documents into series of spikes (spike trains) which are subsequently used as input in the training process of a spiking neural network (SNN). The network is composed of biologically plausible elements, and trained according to the unsupervised Hebbian learning rule, Spike-Timing-Dependent Plasticity (STDP). After training, the SNN can be used to generate low-dimensional spike-based text representation suitable for text/document classification. Empirical results demonstrate that the generated text representation may be effectively used in text classification leading to an accuracy of 80.19% on the bydate version of the 20 newsgroups data set, which is a leading result amongst approaches that rely on low-dimensional text representations.
12
sty
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka | Tagi :design for trustworthy software, DFTS, HSWD, Hybrydowy System Wspomagania Decyzji, model procesu rozwoju solidnego oprogramowania, SWD, System Ekspertowy, System Wspomagania Decyzji | Brak komentarzy
Pomimo, że już mamy 2016 r. to ukazał się już mój, długo zalegający nowy artykuł pt. „Wybrane problemy projektowe hybrydowego systemu wspomagania decyzji dla służb ratowniczych PSP” w SIMIS z 2014 r. W artykule przedstawiono problematykę projektowania modelu hybrydowego systemu wspomagania decyzji dla Państwowej Straży Pożarnej. Do realizacji systemu wybrano metodę projektowania oprogramowania godnego zaufania (ang. design for trustworthy software – DFTS). W artykule w szczególności położono nacisk na omówienie etapu planowania wymagań i projektowania całości proponowanej platformy.
Z artykułem można zapoznać się w dziale Publikacje i jak zawsze życzę miłej lektury.
21
sie
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka | Tagi :formalna analiza pojęć, podział tekstu na zdania, segmentacja tekstu | Brak komentarzy
W artykule zaprezentowano rozwiązania problemu segmentacji tekstu dziedzinowego. Badany tekst pochodził z raportów (formularza „Informacji ze zdarzenia”, pola „Dane opisowe do informacji ze zdarzenia”) sporządzanych po akcjach ratowniczo-gaśniczych przez jednostki Państwowej Straży Pożarnej.
W celu realizacji zadania autor zaproponował metodę projektowania bazy wiedzy oraz reguł segmentatora regułowego. Zaproponowana w artykule metoda opiera się na formalnej analizie pojęć. Zaprojektowana według proponowanej metody baza wiedzy oraz reguł umożliwiła przeprowadzenie procesu segmentacji dostępnej dokumentacji. Poprawność i skuteczność proponowanej metody zweryfikowano poprzez porównanie jej wyników z dwoma innymi rozwiązaniami wykorzystywanymi do segmentacji tekstu.
W ramach badań i analiz opisano oraz pogrupowano reguły i skróty występujące w badanych raportach. Dzięki zastosowaniu formalnej analizy pojęć utworzono hierarchię wykrytych reguł oraz skrótów. Wydobyta hierarchia stanowiła zarazem bazę wiedzy oraz reguł segmentatora regułowego. Przeprowadzone eksperymenty numeryczne i porównawcze autorskiego rozwiązania z dwoma innymi rozwiązaniami wykazały znacznie lepsze działanie tego pierwszego. Przykładowo otrzymane wyniki F-miary otrzymane w wyniku zastosowania proponowanej metody wynoszą 95,5% i są lepsze o 7-8% od pozostałych dwóch rozwiązań.
Zaproponowana metoda projektowania bazy wiedzy oraz reguł segmentatora regułowego umożliwia projektowanie i implementację oprogramowania do segmentacji tekstu z małym błędem podziału tekstu na segmenty. Podstawowa reguła dotycząca wykrywania końca zdania poprzez interpretację kropki i dodatkowych znaków jako końca segmentu w rzeczywistości, zwłaszcza dla tekstów specjalistycznych, musi być opakowana dodatkowymi regułami. Działania te znacznie podnoszą jakość segmentacji i zmniejszają jej błąd. Do budowy i reprezentacji takich reguł nadaje się przedstawiona w artykule formalna analiza pojęć. Wiedza inżyniera oraz dodatkowe eksperymenty mogą wzbogacać utworzoną sieć o nowe reguły. Nowo wprowadzana wiedza może zostać w łatwy sposób naniesiona na aktualnie utworzoną sieć semantyczną, tym samym przyczyniając się do polepszenia segmentacji tekstu. Ponadto w ramach eksperymentu numerycznego wytworzono unikalny: zbiór reguł oraz skrótów stosowanych w raportach, jak również zbiór prawidłowo wydzielonych i oznakowanych segmentów.
Z artykułem można zapoznać się w dziale Publikacje i jak zawsze życzę miłej lektury.
12
paź
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka | Tagi :ekstrakcja informacji, seminarium, systemy ekstrakcji informacji | Brak komentarzy
Dnia 18 kwietnia 2013 odbyło się Seminarium Zespołu Podstaw Sztucznej Inteligencji IPI PAN na którym zaprezentowałem Niezależny językowo system ekstrakcji informacji z pół-ustrukturalizowanych danych tekstowych (SEI BigGramy). W niniejszym streszczeniu referatu można się zaznajomić z przedstawionym przeze mnie pomysłem na ekstrakcję informacji z dokumentów internetowych.
12
paź
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka | Tagi :analiza danych, analiza danych tekstowych, classification, data mining, eksploracyjna analiza danych tekstowych, ekstrakcja informacji, information extraction, information system, klasyfikacja, projektowanie systemów informacyjnych, systemy informacyjne, text mining | 1 komentarz
Dnia 25 września 2013 r. o godzinie 12.15 w sali numer WA-130 w budynku Rektoratu Politechniki Białostockiej przy ul. Wiejskiej 45A odbyła się moja obrona rozprawy doktorskiej pt. „Analiza danych tekstowych w projektowaniu wybranego systemu informacyjnego na przykładzie analizy dokumentacji zdarzeń krajowego systemu ratowniczo-gaśniczego”. Autoreferat zawierający opis poszczególnych elementów proponowanej metody można odnaleźć w sekcji Publikacje – Seminaria lub można go pobrać bezpośrednio tutaj. Poniżej przedstawiam skrócony opis badań. Czytaj dalej
12
paź
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka | Tagi :ekstrakcja informacji, Formal Concept Analysis, formalna analiza pojęć, system ekstrakcji informacji | Brak komentarzy
This paper proposes application of Formal Concept Analysis (FCA) in creating character-level information extraction patterns and presents BigGrams: a prototype of a languageindependent information extraction system. The main goal of the system is to recognise and to extract of named entities belonging to some semantic classes (e.g. cars, actors, pop-stars, etc.) from semi structured text (web page documents).
12
paź
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka | Tagi :eksploracyjna analiza danych tekstowych, metody analizy danych tekstowych, Słowa kluczowe: eksploracja danych tekstowych | Brak komentarzy
W artykule opisano autorską klasyfikację metod i technik eksploracji danych tekstowych. Opisano aktualnie dostępne oraz stosowane metody reprezentacji danych tekstowych oraz techniki ich przetwarzania. Przeprowadzono także dyskusję na temat przetwarzania dokumentów za pomocą prezentowanych metod. Omówiono możliwości jak i ograniczenia poszczególnych prezentowanych metod do przetwarzania dokumentów tekstowych. Zapraszam do działu Publikacje i jak zawsze życzę miłej lektury.
3
mar
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka | Tagi :eksploracja tekstu, klasyfikator Bayesa, naiwny klasyfikator Bayesa, ontologia służb ratowniczych, reprezentacja meldunków, reprezentacja przypadków zdarzeń, reprezentacja tekstu, wnioskowanie na podstawie przypadków | Brak komentarzy
W kolejnym wydaniu czasopisma CNBOP „Bezpieczeństwo i Technika Pożarnicza” (1/2013) ukarze się artykuł pt. „Propozycja mieszanego przetwarzania pół-strukturalnego modelu opisu zdarzeń z akcji ratowniczo-gaśniczych Państwowej Straży Pożarnej PSP”. W artykule tym dokonałem przedstawienia aktualnie rozwijanych reprezentacje wiedzy i sposoby opisów zdarzeń, dla systemu wnioskowania na podstawie przypadków zdarzeń służb ratowniczych Państwowej Straży Pożarnej PSP. W artykule zaproponowałem sposób ich przetwarzania, bazujący na klasyfikacji i wyszukiwaniu opisów zdarzeń. Zapraszam do działu Publikacje i jak zawsze życzę miłej lektury.
12
sty
Autor: Marcin kategoria: Dziennik badań, Zapiski naUKowe rozważeniowe | Tagi :crowdsourcing, crowdsourcing i projektowanie systemów informacyjnych, eksploracja danych tekstowych, eksploracyjna analiza danych tekstowych i projektowanie systemów informacyjnych, ekstrakcja informacji, projektowanie systemów informacyjnych, SI, systemy informacyjne | Brak komentarzy
Po dłuższym czasie wydany został artykuł pt. Crowdsourcing in rescue fire service – proposed application (Crowdsourcing w państwowej straży pożarnej PSP – propozycja zastosowania). Opisałem w nim autorską propozycję zastosowania crowdsourcingu w Państwowej Straży Pożarnej PSP. W publikacji przedstawiłem podstawowe założenia platformy informacyjnej realizującej crowdsourcing w PSP jak i schemat jej realizacji. Zaprezentowałem także genezę tej propozycji związaną z oceną prowadzonych przeze mnie badań nad zastosowaniem eksploracyjnej analizy danych tekstowych i ekstrakcji informacji w projektowaniu systemów informacyjnych SI. Zapraszam do działu Publikacje i jak zawsze życzę miłej lektury.
5
paź
Autor: Marcin kategoria: Dziennik badań, Sprawy co-dzienne poza IT-yczne, Zapiski naUKowe rozważeniowe | Tagi :analiza danych tekstowych, ekstrakcja informacji, FCA, formalna analiza pojęć, projektowanie ekstraktorów informacji | Brak komentarzy
Ostatnio ukazał się w biuletynie WAT nowy artykuł mojego autorstwa pt. Wykorzystanie formalnej analizy pojęć do analizy dziedzinowych danych tekstowych. W artykule tym opisałem proces projektowania systemu ekstrakcji informacji SEI. Projektowanie tego systemu oparłem na regułach oraz zastosowaniu formalnej analizy pojęć do ich odpowiedniego ułożenia w bazie wiedzy opisywanego systemu. Zapraszam do działu Publikacje i jak zawsze życzę miłej lektury.