Od Informacji do Wiedzy

5 lut

Abstrakty

Autor: Marcin

Abstrakty prac

Information Extraction System for Transforming Unstructured Text Data in Fire Reports into Structured Forms: A Polish Case Study

In this paper, the author presents a novel information extraction system that analyses fire service reports. Although the reports contain valuable information concerning fire and rescue incidents, the narrative information in these reports has received little attention as a source of data. This is because of the challenges associated with processing these data and making sense of the contents through the use of machines. Therefore, a new issue has emerged: How can we bring to light valuable information from the narrative portions of reports that currently escape the attention of analysts? The idea of information extraction and the relevant system for analysing data that lies outside existing hierarchical coding schemes can be challenging for researchers and practitioners. Furthermore, comprehensive discussion and propositions of such systems in rescue service areas are insufficient. Therefore, the author comprehensively and systematically describes the ways in which information extraction systems transform unstructured text data from fire reports into structured forms. Each step of the process has been verified and evaluated on real cases, including data collected from the Polish Fire Service. The realisation of the system has illustrated that we must analyse not only text data from the reports but also consider the data acquisition process. Consequently, we can create suitable analytical requirements. Moreover, the quantitative analysis and experimental results verify that we can (1) obtain good results of the text segmentation (F-measure 95.5%) and classification processes (F-measure 90%) and (2) implement the information extraction process and perform useful analysis.

Recognising innovative companies by using a diversified stacked generalisation method for website classification

In this paper, we propose a classification system which is able to decide whether a company is innovative or not, based only on its public website available on the internet. As innovativeness plays a crucial role in the development of myriad branches of the modern economy, an increasing number of entities are expending effort to be innovative. Thus, a new issue has appeared: how can we recognise them? Not only is grasping the idea of innovativeness challenging for humans, but also impossible for any known machine learning algorithm. Therefore, we propose a new indirect technique: a diversified stacked generalisation method, which is based on a combination of a multi-view approach and a genetic algorithm. The proposed approach achieves better performance than all other classification methods which include: (i) models trained on single datasets; or (ii) a simple voting method on these models. Furthermore, in this study, we check if unaligned feature space improves classification results. The proposed solution has been extensively evaluated on real data collected from companies’ websites. The experimental results verify that the proposed method improves the classification quality of websites which might represent innovative companies.

Empirical evaluation of feature projection algorithms for multi-view text classification

This study aims to propose (i) a multi-view text classification method and (ii) a ranking method that allows for selecting the best information fusion layer among many variations. Multi-view document classification is worth a detailed study as it makes it possible to combine different feature sets into yet another view that further improves text classification. For this purpose, we propose a multi-view framework for text classification that is composed of two levels of information fusion. At the first level, classifiers are constructed using different data views, i.e. different vector space models by various machine learning algorithms. At the second level, the information fusion layer uses input information using a features projection method and a meta-classifier modelled by a selected machine learning algorithm. A final decision based on classification results produced by the models positioned at the first layer is reached. Moreover, we propose a ranking method to assess various configurations of the fusion layer. We use heuristics that utilise statistical properties of F-score values calculated for classification results produced at the fusion layer. The information fusion layer of the classification framework and ranking method has been empirically evaluated. For this purpose, we introduce a use case checking whether companies’ domains identify their innovativeness. The results empirically demonstrate that the information fusion layer enhances classification quality. The Friedman’s aligned rank and Wilcoxon signed-rank statistical tests and the effect size support this hypothesis. In addition, the Spearman statistical test carried out for the obtained results demonstrated that the assessment made by the proposed ranking method converges to a well-established method named Hellinger – The Technique for Order Preference by Similarity to Ideal Solution (H-TOPSIS). Thus, the proposed approach may be used for the assessment of classifier performance.

A recent overview of the state-of-the-art elements of text classification

The aim of this study is to provide an overview the state-of-the-art elements of text classification. For this purpose, we first select and investigate the primary and recent studies and objectives in this field. Next, we examine the state-of-the-art elements of text classification. In the following steps, we qualitatively and quantitatively analyse the related works. Herein, we describe six baseline elements of text classification including data collection, data analysis for labelling, feature construction and weighing, feature selection and projection, training of a classification model, and solution evaluation. This study will help readers acquire the necessary information about these elements and their associated techniques. Thus, we believe that this study will assist other researchers and professionals to propose new studies in the field of text classification.

The BigGrams: the semi-supervised information extraction system from HTML: an improvement in the wrapper induction

The aim of this study is to propose an information extraction system, called BigGrams, which is able to retrieve relevant and structural information (relevant phrases, keywords) from semi-structural web pages, i.e. HTML documents. For this purpose, a novel semi-supervised wrappers induction algorithm has been developed and embedded in the BigGrams system. The wrappers induction algorithm utilizes a formal concept analysis to induce information extraction patterns. Also, in this article, the author (1) presents the impact of the configuration of the information extraction system components on information extraction results and (2) tests the boosting mode of this system. Based on empirical research, the author established that the proposed taxonomy of seeds and the HTML tags level analysis, with appropriate pre-processing, improve information extraction results. Also, the boosting mode works well when certain requirements are met, i.e. when well-diversified input data are ensured.

Categorization of Multilingual Scientific Documents by a Compound Classification System

The aim of this study was to propose a classification method for documents that include simultaneously text parts in various languages. For this purpose, we constructed a three-leveled classification system. On its first level, a data processing module prepares a suitable vector space model. Next, in the middle tier, a set of monolingual or multilingual classifiers assigns the probabilities of belonging each document or its parts to all possible categories. The models are trained by using Multinomial Naive Bayes and Long Short-Term Memory algorithms. Finally, in the last component, a multilingual decision module assigns a target class to each document. The module is built on a logistic regression classifier, which as the inputs receives probabilities produced by the classifiers. The system has been verified experimentally. According to the reported results, it can be assumed that the proposed system can deal with textual documents which content is composed of many languages at the same time. Therefore, the system can be useful in the automatic organizing of multilingual publications or other documents.

A Diversified Classification Committee for Recognition of Innovative Internet Domains

The objective of this paper was to propose a classification method of innovative domains on the Internet. The proposed approach helped to estimate whether companies are innovative or not through analyzing their web pages. A Naïve Bayes classification committee was used as the classification system of the domains. The classifiers in the committee were based concurrently on Bernoulli and Multinomial feature distribution models, which were selected depending on the diversity of input data. Moreover, the information retrieval procedures were applied to find such documents in domains that most likely indicate innovativeness. The proposed methods have been verified experimentally. The results have shown that the diversified classification committee combined with the information retrieval approach in the preprocessing phase boosts the classification quality of domains that may represent innovative companies. This approach may be applied to other classification tasks.

The Cascading Knowledge Discovery in Databases process in the Information System development

This article describes a proposal of information system project method. This method based on author’s cascading knowledge discovery in databases process. In this article, the author also to presented use case of this process. All analysis presented in this article based on text reports from the rescue fire service.

Wybrane problemy projektowe hybrydowego systemu wspomagania decyzji dla służb ratowniczych PSP

W artykule przedstawiono problematykę projektowania modelu hybrydowego systemu wspomagania decyzji dla Państwowej Straży Pożarnej. Do realizacji systemu wybrano metodę projektowania oprogramowania godnego zaufania (ang. design for trustworthy software – DFTS). W artykule w szczególności położono nacisk na omówienie etapu planowania wymagań i projektowania całości proponowanej platformy.

Metoda projektowania bazy wiedzy oraz reguł segmentatora regułowego oparta o formalną analizę pojęć

Cel: Zaprezentowanie rozwiązania problemu segmentacji tekstu dziedzinowego. Badany tekst pochodził z raportów (formularza „Informacji ze zdarzenia”, pola „Dane opisowe do informacji ze zdarzenia”) sporządzanych po akcjach ratowniczo-gaśniczych przez jednostki Państwowej Straży Pożarnej.

Metody: W celu realizacji zadania autor zaproponował metodę projektowania bazy wiedzy oraz reguł segmentatora regułowego. Zaproponowana w artykule metoda opiera się na formalnej analizie pojęć. Zaprojektowana według proponowanej metody baza wiedzy oraz reguł umożliwiła przeprowadzenie procesu segmentacji dostępnej dokumentacji. Poprawność i skuteczność proponowanej metody zweryfikowano poprzez porównanie jej wyników z dwoma innymi rozwiązaniami wykorzystywanymi do segmentacji tekstu.

Wyniki: W ramach badań i analiz opisano oraz pogrupowano reguły i skróty występujące w badanych raportach. Dzięki zastosowaniu formalnej analizy pojęć utworzono hierarchię wykrytych reguł oraz skrótów. Wydobyta hierarchia stanowiła zarazem bazę wiedzy oraz reguł segmentatora regułowego. Przeprowadzone eksperymenty numeryczne i porównawcze autorskiego rozwiązania z dwoma innymi rozwiązaniami wykazały znacznie lepsze działanie tego pierwszego. Przykładowo otrzymane wyniki F-miary otrzymane w wyniku zastosowania proponowanej metody wynoszą 95,5% i są lepsze o 7-8% od pozostałych dwóch rozwiązań.

Wnioski: Zaproponowana metoda projektowania bazy wiedzy oraz reguł segmentatora regułowego umożliwia projektowanie i implementację oprogramowania do segmentacji tekstu z małym błędem podziału tekstu na segmenty. Podstawowa reguła dotycząca wykrywania końca zdania poprzez interpretację kropki i dodatkowych znaków jako końca segmentu w rzeczywistości, zwłaszcza dla tekstów specjalistycznych, musi być opakowana dodatkowymi regułami. Działania te znacznie podnoszą jakość segmentacji i zmniejszają jej błąd. Do budowy i reprezentacji takich reguł nadaje się przedstawiona w artykule formalna analiza pojęć. Wiedza inżyniera oraz dodatkowe eksperymenty mogą wzbogacać utworzoną sieć o nowe reguły. Nowo wprowadzana wiedza może zostać w łatwy sposób naniesiona na aktualnie utworzoną sieć semantyczną, tym samym przyczyniając się do polepszenia segmentacji tekstu. Ponadto w ramach eksperymentu numerycznego wytworzono unikalny: zbiór reguł oraz skrótów stosowanych w raportach, jak również zbiór prawidłowo wydzielonych i oznakowanych segmentów.

Detecting and Extracting Semantic Topics from Polish Fire Service Raports

This article presents results of structuring text documents using the classification process. The proposed system based on classification process which used to extract information about the semantics (meaning) segments (sentences) that build text documents. The analysis was made on the reports coming from the National Fire Service (Polish Fire Service) event evidence system. The article describes the results of classification using the proposed classifiers and presents some future directions of research.

Language-Independent Information Extraction Based on Formal Concept Analysis

This paper proposes application of Formal Concept Analysis (FCA) in creating character-level information extraction patterns and presents BigGrams: a prototype of a languageindependent information extraction system. The main goal of the system is to recognise and to extract of named entities belonging to some semantic classes (e.g. cars, actors, pop-stars, etc.) from semi structured text (web page documents).

Propozycja mieszanego przetwarzania pół-strukturalnego modelu opisu zdarzeń z akcji ratowniczo-gaśniczych Państwowej Straży Pożarnej PSP

W opracowaniu przedstawiono aktualnie rozwijane reprezentacje wiedzy i sposoby opisów zdarzeń, dla systemu wnioskowania na podstawie przypadków zdarzeń służb ratowniczych Państwowej Straży Pożarnej PSP. W artykule zaproponowano sposób ich przetwarzania. Przedstawiony sposób bazuje na klasyfikacji
i wyszukiwaniu opisów zdarzeń.

Wykorzystanie formalnej analizy pojęć do analizy dziedzinowych danych tekstowych

W artykule opisano proces projektowania systemu ekstrakcji informacji SEI. Projektowanie tego systemu bazuje na regułach oraz zastosowaniu formalnej analizy pojęć do ich odpowiedniego ułożenia w bazie wiedzy opisywanego systemu.

Propozycja komponentu wyszukiwania systemu CBR dla PSP opartego o ontologię dziedzinową

W artykule przedstawiono propozycję projektową komponentu wyszukiwania systemu wnioskowania na podstawie przypadków zdarzeń (ang. case based reasoning – CBR). Komponent ten bazuje na opracowanej ontologii dziedzinowej wspierającej proces wyszukiwania przypadków zdarzeń. Opracowana ontologia jest wynikiem m.in. przeprowadzonych przez autora analizy dokumentacji opisujących akcje ratowniczo-gaśnicze.

Przegląd metod i technik eksploracji danych tekstowych

W artykule opisano autorską klasyfikację metod i technik eksploracji danych tekstowych. Opisano aktualnie dostępne oraz stosowane metody reprezentacji danych tekstowych oraz techniki ich przetwarzania. Przeprowadzono także dyskusję na temat przetwarzania dokumentów za pomocą prezentowanych metod. Omówiono możliwości jak i ograniczenia poszczególnych prezentowanych metod do przetwarzania dokumentów tekstowych.

Crowdsourcing w państwowej straży pożarnej PSP – propozycja zastosowania

W artykule opisano autorską propozycję zastosowania crowdsourcingu w Państwowej Straży Pożarnej PSP. W publikacji przedstawiono podstawowe założenia do platformy informacyjnej realizującej crowdsourcing w PSP jak i schemat jej realizacji. Przedstawiono także genezę tej propozycji związaną z oceną prowadzonych przez autora badań nad zastosowaniem eksploracyjnej analizy danych tekstowych i ekstrakcji informacji w projektowaniu systemów informacyjnych SI.

System informacyjny na temat sieci hydrantów dla krajowego systemu ratowniczo-gaśniczego: metoda segmentacji tekstu i jej ocena

W artykule opisano proces projektowania segmentatora regułowego, referencyjnego zbioru segmentów oraz eksperyment numeryczny polegający na zastosowaniu skonstruowanego przez autorów publikacji segmentatora regułowego. Segmentator ten wykorzystano do podziału raportów z akcji ratowniczo-gaśniczych prowadzonych przez Państwową Straż Pożarna PSP. Rezultaty segmentacji zostały ocenione w odniesieniu do wyników pochodzących z innych segmentatorów dostępnych dla badaczy.

Proces i metody eksploracji danych tekstowych do przetwarzania raportów z akcji ratowniczo-gaśniczych

W artykule opisano proces do przetwarzania raportów z akcji ratowniczo-gaśniczych. Do przetwarzania raportów wykorzystano metody i techniki z zakresu eksploracji danych tekstowych. W opracowaniu przedstawiono klasyfikację oraz przekrój tych metod analizy tekstu których potencjalne użycie rozpatrywane jest w proponowanym procesie.

Wykorzystanie komponentów platformy ERP do budowy drugiej generacji hybrydowego systemu wspomagania decyzji dla PSP

W artykule przedstawiono problematykę projektowania modelu hybrydowego systemu wspomagania decyzji w kontekście systemu planowania zasobów przedsiębiorstwa dla Państwowej Straży Pożarnej. Omówiono w nim nowe elementy systemu i jego sposób działania.

Zmodyfikowana analiza FMEA z elementami SFTA w projektowaniu systemu wyszukiwania informacji na temat obiektów hydrotechnicznych w nierelacyjnym katalogowym rejestrze

W opracowaniu przedstawiono zastosowanie zmodyfikowanej analizy przyczyn i skutków błędów (ang. failure modes and effects analysis – FMEA) zawierającej drzewo analizy błędów oprogramowania (ang. software failure tree analysis – SFTA). Analizę tą wykorzystano do zaprojektowania systemu wyszukiwania informacji na temat obiektów hydrotechnicznych zawartej w nierelacyjnym katalogowym rejestrze.

Systemy zarządzania bazą danych i architektura agentowa w służbach ratowniczych Państwowej Straży Pożarnej

W artykule przedstawiono autorską klasyfikację Systemów Zarządzania Bazą Danych (SZBD) oraz opisano możliwość zastosowania architektury agentowej w służbach ratowniczych Państwowej Straży Pożarnej PSP. W pierwszej części artykułu dokonano autorskiej klasyfikacji, przeglądu i opisu SZBD już od pewnego czasu dobrze znanych i opisanych np. rozwiązania katalogowe, relacyjne jak i aktualnie rozwijających się np. rozwiązania obiektowe, koncepcyjne czy też oparte o rozszerzony język znaczników (ang. extensible markup language – XML). Dotychczas zastosowanie samych baz danych i SZBD w służbach ratowniczych PSP jest mocno ograniczone. Zazwyczaj ich użycie sprowadza się do ewidencji i rejestracji zdarzeń z ewentualnym minimalnym ich wsparciem od strony informacyjnej dla Kierującego Działaniami Ratowniczymi KDR. Przedstawienie więc przekrojowej analizy SZBD daje możliwość szerszego spojrzenia na ewentualne zastosowania niektórych rozwiązań w służbach ratowniczych, w szczególności tych mających na celu wspieranie akcji ratowniczo-gaśniczych. W drugiej części artykułu skupiono się na właśnie takim rozwiązaniu. Przedstawiono w nim zarys systemu opartego o architekturę agentową. Opisano podstawowe funkcje oraz sposób działania systemu opartego o taką architekturę. Na końcu dokonano podsumowania z wyszczególnieniem technik i powstających problemów projektowych przy realizacji omawianej platformy.

Przegląd i klasyfikacja zastosowań, metod oraz technik eksploracji danych

Wzrost ilości danych jak i informacji w aktualnych systemach informacyjnych wymusił powstanie nowych procesów oraz technik i metod do ich składowania, przetwarzania oraz analizowania. Do analizy dużych zbiorów danych aktualnie wykorzystuje się osiągnięcia z obszaru analizy statystycznej oraz sztucznej inteligencji (ang. artificial intelligence). Dziedziny te wykorzystane w ramach procesu analizy dużych ilości danych stanowią rdzeń eksploracji danych. Aktualnie eksploracja danych pretenduje do stania się samodzielną metodą naukową wykorzystywaną do rozwiązywania problemów analizy informacji pochodzących m.in. z systemów ich zarządzania. W niniejszym artykule dokonano przeglądu i klasyfikacji zastosowań oraz metod i technik wykorzystywanych podczas procesu eksploracji danych. Dokonano w nim także omówienia aktualnych kierunków rozwoju i elementów składających się na tą młodą stosowaną dziedzinę nauki.

Problematyka projektowania modelu hybrydowego systemu wspomagania decyzji dla Państwowej Straży Pożarnej

W artykule przedstawiono problematykę projektowania modelu hybrydowego systemu wspomagania decyzji dla Państwowej Straży Pożarnej. Do modelowania systemu zastosowano opis obiektowy. W analizie projektu zwrócono uwagę na aspekty wykorzystania i wbudowania w systemie decyzyjnym podsystemu ekspertowego.

Eksploracja danych w kontekście procesu Knowledge Discovery In Databases (KDD) i metodologii Cross-Industry Standard Process For Data Mining (CRISP-DM)

Artykuł ma na celu przybliżyć czytelnikom zagadnienia związane z przeprowadzaniem procesu KDD (ang. Knowledge Discovery in Databases) i modelowaniem projektów Data Mining za pomocą CRISP-DM (ang. Cross-Industry Standard Process for Data Mining). Przedstawiono usystematyzowaną wiedzę, podejścia i pojęcia związane z Data Mining. W pierwszej części artykułu zaprezentowano podejście do Eksploracji Danych jako jednego z cyklu KDD będącego specjalizacją procesu Knowledge Discovery. Następnie omówiona została metoda CRISP-DM. Przytoczono też kontekst użycia metody KDD w zależności od skali i integracji projektu (zagadnień) którego dotyczą – badanie zastosowań eksploracyjnej analizy tekstu w Inteligentnym Systemie Wspomagania Decyzji (ISWD), przeprowadzane przez wydział informatyki Szkoły Głównej Straży Pożarnej (SGSP). Na zakończenie artykułu dokonano podsumowania, w którym wykazano wspólne cechy między obydwoma podejściami do eksploracji i wydobywania wiedzy z baz danych.

Koncepcja systemu ekspertowego do wspomagania decyzji w Państwowej Straży Pożarnej

W artykule została przedstawiona koncepcja budowania i modelowania Systemu Wspomagania Decyzji dla Państwowej Straży Pożarnej. Koncepcja ta opiera się na zastosowaniu opisu obiektowego w postaci UML do modelowania systemu. Ponadto zostały opisane aspekty wykorzystania i budowania w systemie decyzyjnym podsystemu ekspertowego. Warstwa reprezentacji wiedzy dla systemu wykorzystuje opis ontologiczny, jako najbardziej obecnie obiecującą metodę modelowania wiedzy. Na potrzeby systemu omówiono także role, miejsce i zakres stosowania analizy tekstu stanowiącego podstawowy komponent w omawianej platformie decyzyjnej.

The distributed system for collecting and analysing selected medical data

In this paper the structure of a three-tiered distributed system for collecting and analysing medical examination data is presented. The idea of this work is to make an assistant tool for urologists to diagnose the lower urinary track diseases and their symptoms easier. The data (which are processed from the files made in the uroflowmeters – devices for measuring urine flow rate) are presented in web browser. It has been done with the use of PHP scripts which are accessed through Apache web server.

Streszczenia projektów

System gromadzenia i przetwarzania medycznych danych pomiarowych w klinice urologii

Praca prezentuje nowe podejście do przetwarzania i analizy danych pomiarowych w klinice urologii z możliwością skalowania rozwiązania na inne jednostki kliniczne. Do rozwiązania problemu analizy i przetwarzania danych zaproponowano platformę informatyczną mającą stanowić część zintegrowanego systemu informatycznego dla potrzeb klinicznych. Innowacyjność systemu dotyczy ulepszenia i reformy tradycyjnego systemu przetwarzania, składowania i analizy danych, poprzez przeniesienie tych procesów do dziedziny świata i przetwarzania cyfrowego. Architektura systemu (dwuwarstwowa klient / serwer) – jej opis, analiza, koncepcja budowy, implementacji, testowania i wdrożenia – jest opisana i oparta o nowe podejścia i techniki z dziedziny inżynierii oprogramowania. Do opisu koncepcji systemu, na którą składają się m.in. : wymagania użytkownika i funkcjonalne, interfejsy, przypadki użycia, oddziaływania między obiektami, przypadki testowe, zastosowano notacje UML 2.0. Dostarcza ona użyteczne typy diagramów (struktury i zachowań) dzięki którym możliwe jest modelowanie zachowań dynamicznych i statycznych zbudowanej platformy informatycznej. Daje ona również znaczne ułatwienie w zrozumieniu rozpatrywanego zagadnienia, zachodzących procesów w systemie i jego przedstawienie od strony opisowej, użytkowej i implementacyjnej.

W harmonogramie prowadzenia projektu informatycznego założono jego sposób realizacji. Harmonogram ten, zakładający analizy, implementację, testowanie i wdrożenie, został opisany według modelu interaktywnego Crystal. Skupia on cechy z różnych metodologii, jak np. „V”, eksperymentalne XP z grupy programowania zwinnego Agile.

Medium transportującym dane (od maszyny klienta lub lekarza do serwera bazy danych) jest sieć Internetowa z wykorzystaniem protokołu przesyłania dokumentów hipertekstowych (ang. hypertext transfer protocol – http), lub z możliwością wykorzystania protokołu szyfrowanego przesyłania dokumentów hipertekstowych (ang. hypertext transfer protocol secure – https). Dane pomiarowe generowane przez urządzenie przetwarzane są przez aplikację klienta i wysyłane do bazy danych. Do opisu danych zaproponowano rozwiązanie oparte o metajęzyk XML (ang. extensible markup language). Możliwość wytwarzania, wysyłania, odczytywania i modyfikowania danych np. historii choroby i karty pacjenta, posiada także sama aplikacja. Do reprezentacji historii choroby i karty pacjenta zaproponowano wykorzystanie pochodnej XMLa tj. XHTMLa (ang. extensible hypertext markup language). Sposób ten umożliwia standaryzację opisu danych pomiarowych, ich prezentację i modyfikację oraz łatwy przesył między różnymi rodzajami systemów.

Wartości poszczególnych danych pomiarowych wraz z kartą i historią choroby pacjenta odwzorowywane są na relacje w bazie danych i w niej utrwalane. Działaniami na danych, kontrolą ich przepływu i utrwalaniem ich w bazie danych, zajmuje się aplikacja internetowa. Aplikacja w postaci frameworka, tzw. szkieletu aplikacji, została wykonana w technice obiektowej i oparta o ogólny wzorzec projektowy zwany model-widok-kontroler (ang. model-view-controller – MVC). Użycie frameworka jak i obiektowości umożliwia łatwą jego rozbudowę o nową funkcjonalność i nowe komponenty dające się w łatwy sposób testować i refaktoryzować. Do mapowania obiektów, powstających w aplikacji, na relacje zastosowano narzędzie mapowania obiektowo-relacyjnego (ang. object-relational mapping – ORM) oparte o wzorzec architektoniczny – aktywny rekord (ang. active record). Dla zaimplementowanego systemu została także przedstawiona metoda testowania oraz przykładowe wdrożenie na poziomie jednego laboratorium.

Zazwyczaj barierą do wprowadzenia nowych rozwiązań z dziedziny technologii informacyjnych (ang. information technology – IT) są koszta. W tym przypadku są one minimalizowane dzięki wykorzystaniu darmowej platformie (ang. open source) składającej się z relacyjnej bazy danych MySQL i języka programowania PHP5 posiadającego w większości darmowe środowiska programistyczne.

Utworzony system informatyczny posiada możliwość skalowania (od szpitalnych jednostek klinicznych do ogółu jednostek) oraz działania w środowisku rozproszonym w różnych konfiguracjach. Pierwotnym jednak jego przeznaczeniem jest działanie w środowisku rozproszonych klientów podłączonych do scentralizowanej transakcyjnej relacyjnej bazy danych w obrębie jednej jednostki klinicznej.

Analiza pomiarów i wnioskowanie na jej podstawie jest często ograniczona czasowo czynnikiem ludzkim. Człowiek nie jest w stanie szybko przebadać często wielowymiarowych zależności w danych zarejestrowanych poprzez utworzony system typu przetwarzania transakcyjnego (ang. online transaction processing – OLTP). Architektura systemu daje więc w łatwy sposób możliwość zbudowania obok niej platformy typu przetwarzania analitycznego (ang. online analytical processing – OLAP) np. w postaci hurtowni danych (ang. data werhause) którą można zasilać odpowiednimi danymi z systemu OLTP. Dzięki temu otrzymana zostaje możliwość przeprowadzenia złożonej wielowymiarowej analizy danych np. przy wykorzystaniu technik i metod z dziedziny eksploracji danych (ang. data mining).

System informatyczny oparty o medium jakim jest Internet daje nowe możliwości co do przesyłania i komunikowania się między pacjentem, laboratorium i lekarzem, co też przyczynia się pośrednio do informatyzacji i budowania społeczeństwa nie tylko zinformatyzowanego ale także i informacyjnego może nawet opartego o wiedzę.

Analiza danych tekstowych w projektowaniu wybranego systemu informacyjnego na przykładzie analizy dokumentacji zdarzeń krajowego systemu ratowniczo-gaśniczego (ang. Design the chosen information system based on text mining analysis of national fire service documentation)

Po każdej interwencji służb ratowniczych Państwowej Straży Pożarnej PSP Kierujący Działaniami Ratowniczymi KDR sporządza papierową dokumentację opisującą przebieg interwencji. Forma tej dokumentacji w postaci formularza Informacje ze zdarzenia regulowana jest przez Rozporządzenie ministra spraw wewnętrznych i administracji. Formularz ten zawiera m.in. sekcję pt. Dane opisowe do informacji ze zdarzenia. W sekcji tej KDR opisuje różne aspekty podjętych działań ratowniczo-gaśniczych za pomocą języka naturalnego. Po wypełnieniu formularza papierowego tekst jest wprowadzany w formie elektronicznej do systemu ewidencji zdarzeń EWID. Omawiana sekcja dokumentacji papierowej, podzielona jest na sześć podpunktów: opis przebiegu działań ratowniczych (zagrożenia i utrudnienia, zużyty i uszkodzony sprzęt), opis jednostek przybyłych na miejsce zdarzenia, opis tego co uległo zniszczeniu lub spaleniu, warunki atmosferyczne, wnioski i uwagi wynikające z przebiegu działań ratowniczych oraz inne uwagi dotyczące danych wypełnianych w formularzu odnośnie zdarzenia. W systemie EWID brak jest podziału na takie podpunkty i zapisywany jest jednolity raport tekstowy wyrażony za pomocą języka naturalnego. Pod pojęciem tekst należy rozumieć opisy wyrażone językiem naturalnym znajdujące się w elektronicznej sekcji Dane opisowe do informacji ze zdarzenia systemu ewidencji. W tekstach tych znajdują się ważne informacje oraz wiedza dziedzinowa na temat np. sposobu neutralizacji powstałych zagrożeń czy też rodzaju użytego sprzętu do ich likwidacji.

Autor podczas swoich badań wykazał brak możliwości zastosowania omawianych tekstów bezpośrednio do analizy. Wynika to m.in. z faktu, że w rezultacie przeszukiwania sekcji elektronicznej KDR może dostać nieoczekiwane rezultaty np. kierując zapytanie o hydranty przy ulicy Mickiewicza system może zwrócić informacje nie tylko o hydrantach ale także o wszystkich akcjach ratowniczo-gaśniczych przy tej ulicy. Rozwiązanie tych problemów miała stanowić eksploracyjna analiza danych tekstowych (ang. text mining – TM) będąca specjalną odmianą (działającą na tekście) procesu odkrywania wiedzy w bazach danych (ang. knowledge discovery in databases – KDD). Aktualnie istnieją aplikacje do eksploracyjnej analizy danych tekstowych, które najczęściej współpracują z komponentami z zakresu przetwarzania języka naturalnego (ang. natural language processing – NLP). Zazwyczaj działanie tych pierwszych ogranicza się do analizy dokumentów tekstowych jako całości. Eksploracyjna analiza danych tekstowych pomija badanie zależności gramatycznych i morfologicznych na poziomie pojedynczych wyrażeń, które są domeną dziedziny przetwarzania języka naturalnego. Ewentualnie NLP stanowi uzupełnienie procesu wstępnego przetwarzania dokumentów tekstowych poprzez dostarczanie rozwiązań z zakresu np. lematyzacji czy też stemmingu. Zarówno jednak pierwsze jak i drugie podejście jest niewystarczające z tego względu, że pomija badanie segmentu, części obszerniejszego tekstu jako samodzielnego obiektu, który może nieść sam w sobie informacje. Segment w kontekście badań stanowi element tekstu w postaci zdania, które ma określony początek oraz koniec. Zazwyczaj początek zdania rozpoczyna się od dużej litery i kończy się znakiem interpunkcyjnym w postaci „.”, „!”, „?” etc. Badanie w takim kontekście segmentu, jak i nawet próba jego wyekstrahowania z dostępnych tekstów dziedzinowych, okazało się nietrywialne i znaczące w prowadzonych przez autora eksperymentach nad tekstem i jego strukturalizacją w celu zaprojektowania wybranego systemu informacyjnego.

Celem opisanego w pracy badania było opracowanie zintegrowanej metody do projektowania systemu informacyjnego SI stanowiącego narzędzie do realizacji procesów informacyjnych w oparciu o proces odkrywania wiedzy z baz danych tekstowych. W pracy zaproponowano nazwę dla takiego procesu w postaci – projektowanie SI sterowane danymi tekstowymi (ang. text driven software design). Nazwa ta ma odróżniać i podkreślać specyficzny charakter przedsięwzięcia od tradycyjnego procesu eksploracji danych tekstowych i odkrywania wiedzy z baz danych, które uwydatniają aspekt związany z tym, iż wiedza jest końcowym produktem odkrywania sterowanego danymi (ang. data-driven discovery).

W pracy dokonano przedstawienia problematyki związanej z proponowaną przez autora ogólną metodą projektowania SI realizowaną za pomocą ww. procesu. Całościowo wykazano możliwość dostosowania tego procesu, opartego o eksploracyjną analizę danych, do strukturalizacji dokumentacji tekstowej, wyrażonej za pomocą języka naturalnego i projektowania za jego pomocą SI. Studium przypadku (ang. case study) realizacji skonstruowanej metody stanowiła analiza dokumentacji zdarzeń krajowego systemu ratowniczo-gaśniczego.

Autoreferat zawierający opis poszczególnych elementów proponowanej metody można odnaleźć w sekcji Publikacje – Seminaria lub można go pobrać bezpośrednio tutaj.

Komentowanie wyłączone.

Od Informacji do Wiedzy

Abstrakty

Menu

Ostatnie wpisy

Kategorie

Blogroll - web IT

Dostępne tłumaczenie