This paper proposes application of Formal Concept Analysis (FCA) in creating character-level information extraction patterns and presents BigGrams: a prototype of a languageindependent information extraction system. The main goal of the system is to recognise and to extract of named entities belonging to some semantic classes (e.g. cars, actors, pop-stars, etc.) from semi structured text (web page documents).
Archiwum kategorii: Ogólne zapiski kusownika it-yka
Artykuł – Przegląd metod i technik eksploracji danych tekstowych
W artykule opisano autorską klasyfikację metod i technik eksploracji danych tekstowych. Opisano aktualnie dostępne oraz stosowane metody reprezentacji danych tekstowych oraz techniki ich przetwarzania. Przeprowadzono także dyskusję na temat przetwarzania dokumentów za pomocą prezentowanych metod. Omówiono możliwości jak i ograniczenia poszczególnych prezentowanych metod do przetwarzania dokumentów tekstowych. Zapraszam do działu Publikacje i jak zawsze życzę miłej lektury.
Aktualności
Ostatnio sporo się działo i na blogu był mały ruch. Aktualnie trochę znalazłem czasu na małe blogowe porządki i uaktualnienia. Tak więc życzę miłej lektury.
Artykuł – Propozycja mieszanego przetwarzania pół-strukturalnego modelu opisu zdarzeń z akcji ratowniczo-gaśniczych Państwowej Straży Pożarnej PSP
W kolejnym wydaniu czasopisma CNBOP „Bezpieczeństwo i Technika Pożarnicza” (1/2013) ukarze się artykuł pt. „Propozycja mieszanego przetwarzania pół-strukturalnego modelu opisu zdarzeń z akcji ratowniczo-gaśniczych Państwowej Straży Pożarnej PSP”. W artykule tym dokonałem przedstawienia aktualnie rozwijanych reprezentacje wiedzy i sposoby opisów zdarzeń, dla systemu wnioskowania na podstawie przypadków zdarzeń służb ratowniczych Państwowej Straży Pożarnej PSP. W artykule zaproponowałem sposób ich przetwarzania, bazujący na klasyfikacji i wyszukiwaniu opisów zdarzeń. Zapraszam do działu Publikacje i jak zawsze życzę miłej lektury.
Hadoop – Mahout
Poniżej umieszczam linki do stron związanych z pakietem Mahout do obliczeń z zakresu sztucznej inteligencji tj. klasyfikacje, grupowanie etc. Rozwiązanie to może stanowić alternatywę dla osób piszących w Javie a nie R. Istnieje również możliwość połączenia technologii. Poniżej prezentuję parę przydatnych linków:
– http://www.ibm.com/developerworks/java/library/j-mahout/
Życzę jak zawsze miłej lektury.
Hadoop – Oozie w akcji
Podsyłam kilka interesujących linków na temat ooziego:
– http://developer.yahoo.com/blogs/ydn/posts/2010/08/workflow_on_hadoop/
– http://rvs.github.com/oozie/installing.html
– https://ccp.cloudera.com/display/CDHDOC/Oozie+Installation
Życzę jak zawsze miłej lektury.
R i Hadoop
Aktualnie podsyłam jeszcze jeden interesujący link do projektu związanego z opisem połączenia rozwiązania w postaci R project i Hadoop. Informacje można znaleźć w prezentacji http://blog.revolutionanalytics.com/2011/11/marriage-hadoop-r.html.
R hadoop
Dzisiaj krótki wpis na temat możliwości zastosowania Hadoopa w swoich programach napisanych w R project. Poniżej podaje kilka ciekawych linków:
– How to program MapReduce jobs in Hadoop with R
– RevolutionAnalytics / RHadoop
Życzę jak zawsze miłej lektury.
Wydane artykuły na temat segmentacji tekstu i przeglądu metod jego przetwarzania
Po dłuższej przerwie i oczekiwaniu ukazały się nowe artykuły. Ostatnio ukazał się artykuł – Marcin Mirończuk, Tadeusz Maciak Proces i metody eksploracji danych tekstowych do przetwarzania raportów z akcji ratowniczo-gaśniczych. Metody Informatyki Stosowanej, 4/2011 oraz artykuł tych samych autorów pt. System informacyjny na temat sieci hydrantów dla krajowego systemu ratowniczo-gaśniczego: metoda segmentacji tekstu i jej ocena także w czasopiśmie Metody Informatyki Stosowanej, 4/2011. Zainteresowanych tematyką zapraszam do działu Abstrakty lub Publikacje, gdzie znajdują się streszczenia oraz linki do wersji elektronicznych ww. artykułów.
Artykuły
Ostatnio większość czasu spędzam nad szlifowaniem rozprawy i opisem rezultatów badań. Uzbierało się trochę tego. W między czasie widzę, że spływają recenzje wysłanych artykułów do wydawnictw. Ostatnio ukazał się artykuł – Marcin Mirończuk, Tadeusz Maciak Wykorzystanie komponentów platformy ERP do budowy drugiej generacji hybrydowego systemu wspomagania decyzji dla PSP. Metody Informatyki Stosowanej, 3/2011. Zainteresowanych tematyką zapraszam do działu Abstrakty lub Publikacje, gdzie znajdują się streszczenia oraz linki do wersji elektronicznych ww. artykułów.