Artykuł – Categorization of Multilingual Scientific Documents by a Compound Classification System

Niedługo rusza konferencja The 16th International Conference on Artificial Intelligence and Soft Computing ICAISC 2017, Zakopane, Poland, June 11-15, 2017. Na ww. konferencję został zgłoszony i zaakceptowany artykuł dotyczący klasyfikacji dokumentów wielojęzycznych. Podążając za abstraktem – The aim of this study was to propose a classification method for documents that include simultaneously text parts in various languages. For this purpose, we constructed a three-leveled classification system. On its first level, a data processing module prepares a suitable vector space model. Next, in the middle tier, a set of monolingual or multilingual classifiers assigns the probabilities of belonging each document or its parts to all possible categories. The models are trained by using Multinomial Naive Bayes and Long Short-Term Memory algorithms. Finally, in the last component, a multilingual decision module assigns a target class to each document. The module is built on a logistic regression classifier, which as the inputs receives probabilities produced by the classifiers. The system has been verified experimentally. According to the reported results, it can be assumed that the proposed system can deal with textual documents which content is composed of many languages at the same time. Therefore, the system can be useful in the automatic organizing of multilingual publications or other documents.

Z artykułem można zapoznać się w dziale Publikacje i jak zawsze życzę miłej lektury.

Artykuł – Detection of the Innovative Logotypes on the Web Pages

Niedługo rusza konferencja The 16th International Conference on Artificial Intelligence and Soft Computing ICAISC 2017, Zakopane, Poland, June 11-15, 2017. Na ww. konferencję został zgłoszony i zaakceptowany artykuł dotyczący klasyfikacji logotypów. Podążając za abstraktem – The aim of this study was to describe a found method for detection of logotypes that indicate innovativeness of companies, where the images originate from their Internet domains. For this purpose, we elaborated a system that covers a supervised and heuristic approach to construct a reference dataset for each logotype category that is utilized by the logistic regression classifiers to recognize a logotype category. We proposed the approach that uses one-versus-the-rest learning strategy to learn the logistic regression classification models to recognize the classes of the innovative logotypes. Thanks to this we can detect whether a given company’s Internet domain contains an innovative logotype or not. More- over, we find a way to construct a simple and small dimension of feature space that is utilized by the image recognition process. The proposed feature space of logotype classification models is based on the weights of images similarity and the textual data of the images that are received from HTMLs ALT tags.

Z artykułem można zapoznać się w dziale Publikacje i jak zawsze życzę miłej lektury.

Artykuł – A Diversified Classification Committee for Recognition of Innovative Internet Domains

Niedługo rusza następna edycja 12th International Conference, BDAS 2016, Ustroń, Poland, May 31 – June 3, 2016. Na ww. konferencję został zgłoszony artykuł dotyczący klasyfikacji domen Internetowych. Podążając za abstraktem – The objective of this paper was to propose a classification method of innovative domains on the Internet. The proposed approach helped to estimate whether companies are innovative or not through analyzing their web pages. A Naïve Bayes classification committee was used as the classification system of the domains. The classifiers in the committee were based concurrently on Bernoulli and Multinomial feature distribution models, which were selected depending on the diversity of input data. Moreover, the information retrieval procedures were applied to find such documents in domains that most likely indicate innovativeness. The proposed methods have been verified experimentally. The results have shown that the diversified classification committee combined with the information retrieval approach in the preprocessing phase boosts the classification quality of domains that may represent innovative companies. This approach may be applied to other classification tasks.

Z artykułem można zapoznać się w dziale Publikacje i jak zawsze życzę miłej lektury.

Artykuł – Wybrane problemy projektowe hybrydowego systemu wspomagania decyzji dla służb ratowniczych PSP

Pomimo, że już mamy 2016 r. to ukazał się już mój, długo zalegający nowy artykuł pt. „Wybrane problemy projektowe hybrydowego systemu wspomagania decyzji dla służb ratowniczych PSP” w SIMIS z 2014 r. W artykule przedstawiono problematykę projektowania modelu hybrydowego systemu wspomagania decyzji dla Państwowej Straży Pożarnej. Do realizacji systemu wybrano metodę projektowania oprogramowania godnego zaufania (ang. design for trustworthy software – DFTS). W artykule w szczególności położono nacisk na omówienie etapu planowania wymagań i projektowania całości proponowanej platformy.

Z artykułem można zapoznać się w dziale Publikacje i jak zawsze życzę miłej lektury.

Artykuł – The Cascading Knowledge Discovery in Databases process in the Information System development

Ostatnio większość czasu poświęcam na prace zawodową, niemniej iż wiąże się ona również z pracą naukową to po małej przerwie udało mi się opublikować artykuł pt.  The Cascading Knowledge Discovery in Databases process in the Information System development. Zaprezentowałem go również na konferencji The Second International Conference on Computer Science, Computer Engineering, and Social Media (CSCESM2015). Cytując za abstraktem: „This article describes a proposal of information system project method. This method based on author’s cascading knowledge discovery in databases process. In this article, the author also to presented use case of this process. All analysis presented in this article based on text reports from the rescue fire service.”

Artykuł – Metoda projektowania bazy wiedzy oraz reguł segmentatora regułowego oparta o formalną analizę pojęć

W artykule zaprezentowano rozwiązania problemu segmentacji tekstu dziedzinowego. Badany tekst pochodził z raportów (formularza „Informacji ze zdarzenia”, pola „Dane opisowe do informacji ze zdarzenia”) sporządzanych po akcjach ratowniczo-gaśniczych przez jednostki Państwowej Straży Pożarnej.

W celu realizacji zadania autor zaproponował metodę projektowania bazy wiedzy oraz reguł segmentatora regułowego. Zaproponowana w artykule metoda opiera się na formalnej analizie pojęć. Zaprojektowana według proponowanej metody baza wiedzy oraz reguł umożliwiła przeprowadzenie procesu segmentacji dostępnej dokumentacji. Poprawność i skuteczność proponowanej metody zweryfikowano poprzez porównanie jej wyników z dwoma innymi rozwiązaniami wykorzystywanymi do segmentacji tekstu.

W ramach badań i analiz opisano oraz pogrupowano reguły i skróty występujące w badanych raportach. Dzięki zastosowaniu formalnej analizy pojęć utworzono hierarchię wykrytych reguł oraz skrótów. Wydobyta hierarchia stanowiła zarazem bazę wiedzy oraz reguł segmentatora regułowego. Przeprowadzone eksperymenty numeryczne i porównawcze autorskiego rozwiązania z dwoma innymi rozwiązaniami wykazały znacznie lepsze działanie tego pierwszego. Przykładowo otrzymane wyniki F-miary otrzymane w wyniku zastosowania proponowanej metody wynoszą 95,5% i są lepsze o 7-8% od pozostałych dwóch rozwiązań.

Zaproponowana metoda projektowania bazy wiedzy oraz reguł segmentatora regułowego umożliwia projektowanie i implementację oprogramowania do segmentacji tekstu z małym błędem podziału tekstu na segmenty. Podstawowa reguła dotycząca wykrywania końca zdania poprzez interpretację kropki i dodatkowych znaków jako końca segmentu w rzeczywistości, zwłaszcza dla tekstów specjalistycznych, musi być opakowana dodatkowymi regułami. Działania te znacznie podnoszą jakość segmentacji i zmniejszają jej błąd. Do budowy i reprezentacji takich reguł nadaje się przedstawiona w artykule formalna analiza pojęć. Wiedza inżyniera oraz dodatkowe eksperymenty mogą wzbogacać utworzoną sieć o nowe reguły. Nowo wprowadzana wiedza może zostać w łatwy sposób naniesiona na aktualnie utworzoną sieć semantyczną, tym samym przyczyniając się do polepszenia segmentacji tekstu. Ponadto w ramach eksperymentu numerycznego wytworzono unikalny: zbiór reguł oraz skrótów stosowanych w raportach, jak również zbiór prawidłowo wydzielonych i oznakowanych segmentów.

Z artykułem można zapoznać się w dziale Publikacje i jak zawsze życzę miłej lektury.

Niezależny językowo system ekstrakcji informacji z pół-ustrukturalizowanych danych tekstowych (SEI BigGramy)

Dnia 18 kwietnia 2013 odbyło się Seminarium Zespołu Podstaw Sztucznej Inteligencji IPI PAN na którym zaprezentowałem Niezależny językowo system ekstrakcji informacji z pół-ustrukturalizowanych danych tekstowych (SEI BigGramy). W niniejszym streszczeniu referatu można się zaznajomić z przedstawionym przeze mnie pomysłem na ekstrakcję informacji z dokumentów internetowych.

Analiza danych tekstowych w projektowaniu wybranego systemu informacyjnego na przykładzie analizy dokumentacji zdarzeń krajowego systemu ratowniczo-gaśniczego (ang. Design the chosen information system based on text mining analysis of national fire service documentation)

Dnia 25 września 2013 r. o godzinie 12.15 w sali numer WA-130 w budynku Rektoratu Politechniki Białostockiej przy ul. Wiejskiej 45A odbyła się moja obrona rozprawy doktorskiej pt. „Analiza danych tekstowych w projektowaniu wybranego systemu informacyjnego na przykładzie analizy dokumentacji zdarzeń krajowego systemu ratowniczo-gaśniczego”. Autoreferat zawierający opis poszczególnych elementów proponowanej metody można odnaleźć w sekcji Publikacje – Seminaria lub można go pobrać bezpośrednio tutaj. Poniżej przedstawiam skrócony opis badań. Czytaj dalej

Artykuł – Language-Independent Information Extraction Based on Formal Concept Analysis

This paper proposes application of Formal Concept Analysis (FCA) in creating character-level information extraction patterns and presents BigGrams: a prototype of a languageindependent information extraction system. The main goal of the system is to recognise and to extract of named entities belonging to some semantic classes (e.g. cars, actors, pop-stars, etc.) from semi structured text (web page documents).

Artykuł – Przegląd metod i technik eksploracji danych tekstowych

W artykule opisano autorską klasyfikację metod i technik eksploracji danych tekstowych. Opisano aktualnie dostępne oraz stosowane metody reprezentacji danych tekstowych oraz techniki ich przetwarzania. Przeprowadzono także dyskusję na temat przetwarzania dokumentów za pomocą prezentowanych metod. Omówiono możliwości jak i ograniczenia poszczególnych prezentowanych metod do przetwarzania dokumentów tekstowych. Zapraszam do działu Publikacje i jak zawsze życzę miłej lektury.