13
maj
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka, R project | Tagi :R hadoop, R map-reduce, r project hadoop, R project map reduce | Brak komentarzy
Aktualnie podsyłam jeszcze jeden interesujący link do projektu związanego z opisem połączenia rozwiązania w postaci R project i Hadoop. Informacje można znaleźć w prezentacji http://blog.revolutionanalytics.com/2011/11/marriage-hadoop-r.html.
18
kwi
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka, R project | Tagi :hadoop r, obliczenia rozproszone w R, r project hadoop, R project obliczenia rozproszone | Brak komentarzy
Dzisiaj krótki wpis na temat możliwości zastosowania Hadoopa w swoich programach napisanych w R project. Poniżej podaje kilka ciekawych linków:
- How to program MapReduce jobs in Hadoop with R
- RevolutionAnalytics / RHadoop
Życzę jak zawsze miłej lektury.
29
mar
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka | Tagi :analiza raportów PSP, eksploracja danych tekstowych, eksploracyjna analiza danych tekstowych, metody i techniki analizy tekstu, podział tekstu na segmenty, podział tekstu na zdania, przegląd metod analizy danych tekstowych, segmentacja tekstu, text mining, text mining review | Brak komentarzy
Po dłuższej przerwie i oczekiwaniu ukazały się nowe artykuły. Ostatnio ukazał się artykuł – Marcin Mirończuk, Tadeusz Maciak Proces i metody eksploracji danych tekstowych do przetwarzania raportów z akcji ratowniczo-gaśniczych. Metody Informatyki Stosowanej, 4/2011 oraz artykuł tych samych autorów pt. System informacyjny na temat sieci hydrantów dla krajowego systemu ratowniczo-gaśniczego: metoda segmentacji tekstu i jej ocena także w czasopiśmie Metody Informatyki Stosowanej, 4/2011. Zainteresowanych tematyką zapraszam do działu Abstrakty lub Publikacje, gdzie znajdują się streszczenia oraz linki do wersji elektronicznych ww. artykułów.
17
lut
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka | Tagi :analiza danych tekstowych, analiza raportów, artykuły, dzielenie tekstu na segmenty, dzielenie tekstu na zdania, eksplroacja danych tekstowych, ekstrakcja informacji, ERP, HSWD, information extraction, segmentacja tekstu, segmentator regułowy, segmentator regułowy tekstu, SWD, systemu planowania zasobów, systemy wspomagania decyzji i ERP, text mining | Brak komentarzy
Ostatnio większość czasu spędzam nad szlifowaniem rozprawy i opisem rezultatów badań. Uzbierało się trochę tego. W między czasie widzę, że spływają recenzje wysłanych artykułów do wydawnictw. Ostatnio ukazał się artykuł – Marcin Mirończuk, Tadeusz Maciak Wykorzystanie komponentów platformy ERP do budowy drugiej generacji hybrydowego systemu wspomagania decyzji dla PSP. Metody Informatyki Stosowanej, 3/2011. Zainteresowanych tematyką zapraszam do działu Abstrakty lub Publikacje, gdzie znajdują się streszczenia oraz linki do wersji elektronicznych ww. artykułów.
12
sty
Autor: Marcin kategoria: C/C++ | Tagi :boost, c++ tamplate, c/c++, inteligentne wskaźniki, programowanie w c, przykładowe programy, smart pointer | Brak komentarzy
Poniżej przedstawiam zrefaktoryzwoany, przedstawiony wcześniej szkielet kodu aplikacji do przetwarzania tekstów (Labolatorium nr 15) . Aktualnie zaprezentowane zostały tematy związane z takimi zagadnieniami jak:
- biblioteka boost i wykorzystanie inteligentnych wskaźników (rozwiązanie problemów z ewentualnymi wyciekami pamięci np. przy wywoływaniu wyjątków),
- biblioteka standardowa STL,
- modyfikator const.
W miarę czasu postaram przedstawić zagadnienia związane z tampletami (ang. tamplates) stosowanymi do programowania ogólnego oraz wykorzystanie wyrażeń regularnych w budowaniu macierzy wyrażeń (ang. term matrix). Dobre wprowadzenie do biblioteki boost i wyrażeń regularnych zawiera Przemoc’s wiki. W dalszej kolejności planowane jest też pokazanie sposobów testowania kodu (ang. test unity) zamiast stosowania testów wewnątrz funkcji main().
Na koniec, a może nawet w następnym poście dotyczącym C/C++, chciałbym przedstawić zagadnienie związane z łączeniem PHP z C++. Maszyna zenda jest dość ciężka do opanowania (wiele pośrednich makr, dokumentacji etc.). Opanowanie jej zajmuje trochę czasu. Powstało jednakże bardziej elastyczne narzędzie w postaci SWIG w którym na pierwszy rzut oka zadanie to wydaje się o wiele elastyczniejsze i łatwiejsze niż poprzez hackowanie bezpośrednio zenda. Z rozwiązaniem tym pierwszy raz spotkałem się w Linux Magazine (artykuł pt. “PHP z C++”) a następnie na blogu IBMa Build PHP extensions with SWIG, gdzie Martin Streicherwyjaśnia w bardzo przystępny sposób jak pisać rozszerzenia używając C/C++ do PHP.
Czytaj dalej
3
sty
Autor: Marcin kategoria: C/C++ | Tagi :c/c++, programowanie w c, przykładowe programy | Brak komentarzy
Projektowanie klas i programowanie obiektowe na przykładzie aplikacji do przetwarzanie tekstu.
Poniżej został zaprezentowany szkielet aplikacji do przetwarzania tekstu, który będzie rozbudowywany i omawiany wraz z nowymi laboratoriami. Przedstawiane zagadnienia będą obejmowały zawansowane aspekty programowania w c++. Czytelnicy nabiorą biegłości w wykorzystaniu biblioteki standardowej STL oraz Boost. Zapoznają się z szablonami oraz metodami projektowania klas. Wszytko zostanie przedstawione na podstawie projektowania i implementacji programu do przetwarzania tekstu.
Poniżej zaprezentowano interfejsy jak i ich implementacja klas które będą omawiane, refaktoryzowane i stosowane podczas omawiania ww. materiału. Podstawowy szkielet aplikacji składa się z następujących plików:
- agencyText.cpp – zawiera kod wykonawczy programu oraz testy zaprojektowanych i zaimplementowanych interfejsów,
- textAgent.h oraz textAgent.cpp – interfejs oraz jego implementacja do rejestrowania i użytkowania modułu do przetwarzania tekstu,
- textTool.h oraz textTool.cpp – interfejs oraz jego implementacja do przetwarzania strumienia tekstowego.
Kod aplikacji wykorzystujący utworzone interfejsy przedstawia listing poniżej:
Czytaj dalej
15
gru
Autor: Marcin kategoria: Ogólne zapiski kusownika it-yka | Brak komentarzy
Osoby zainteresowane opublikowaniem swego kodu utworzonego w R project, zarówno w czystym R jak i w postaci rozszerzeń w innych językach, na pewno zainteresują materiały na stronie http://cran.r-project.org/doc/manuals/R-exts.html. Materiały tam zebrane omawiają szczegółowo i wyczerpująco temat tworzenia własnych dodatków do R. Osobom które początkują w tym temacie polecam nieco bardziej „lżejsze” lektóry w postaci:
- opracowania krok po kroku jak tworzyć paczki w R http://cran.r-project.org/doc/contrib/Leisch-CreatingPackages.pdf
- w googlu albo http://search.carrot2.org/stable/search wstukać frazę Writing R Extensions
Osobiście korzystałem z pierwszego jak i drugiego linku. Natomiast projekt który utworzyłem związany z implementacją softu do kalsyfikacji umieściłem na platformie http://r-forge.r-project.org/.
9
gru
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka | Tagi :analiza danych tekstowych, analiza raportów, artykuły, dzielenie tekstu na segmenty, dzielenie tekstu na zdania, eksplroacja danych tekstowych, ekstrakcja informacji, ERP, HSWD, information extraction, segmentacja tekstu, segmentator regułowy, segmentator regułowy tekstu, SWD, systemu planowania zasobów, systemy wspomagania decyzji i ERP, text mining | Brak komentarzy
Na koniec roku spłynęły recenzje artykułów oddanych do czasopism. Trochę się tego nazbierało a sam rok był bardzo owocny w badania i eksperymenty, przynoszące dość zaskakujące rezultaty.
Zainteresowane osoby tematyką eksploracji danych a dokładniej eksploracją danych tekstowych miło mi jest poinformować, że na ten temat będą mogły poczytać w czasopiśmie Metod Informatyki Stosowanej (http://www.pan.wi.zut.edu.pl/). Artykuł opisujący dziedzinę eksploracji danych tekstowych wraz z jej zastosowaniem w Państwowej Straży Pożarnej PSP nosi tytuł Proces i metody eksploracji danych tekstowych do przetwarzania raportów z akcji ratowniczo-gaśniczych i ukarze się w numerze 4/2011 ww. czasopisma. Z tematyką tą związany jest też następny artykuł pt. System informacyjny na temat sieci hydrantów dla krajowego systemu ratowniczo-gaśniczego: metoda segmentacji tekstu i jej ocena, który także zostanie wydany w tym czasopiśmie i ukaże się w numerze 1/2012. W artykule tym opisano szczegółową realizację eksperymentu opisującą podział tekstu na segmenty. Zajawka tego jak i poprzedniego artykułu w postaci abstraktów dostępne są w dziale Abstrakty, życzę miłej lektury.
Ostatnim nadesłanym do ww. czasopisma artykuł stanowił opis projektu związanego z rozwijaną koncepcją Systemu Wspomagania Decyzji dla PSP z wykorzystaniem komponentów platformy do planowania zasobów przedsiębiorstwa ERP. Artykuł ten ukaże się pod tytułem Wykorzystanie komponentów platformy ERP do budowy drugiej generacji hybrydowego systemu wspomagania decyzji dla PSP, w numerze 3/2011. Również jego zajawkę można zobaczyć w dziale Abstrakty.
Aktualnie cały czas oczekuje na decyzje z wydawnictwa CNBOP „Bezpieczeństwo i Technika Pożarnicza” w którym umieściłem dość interesujące przemyślenia i badania z zakresu inżynierii oprogramowania jak i eksploracji i segmentacji raportów. Niestety na ich ukazanie jak i recenzje jeszcze widać trochę będzie trzeba poczekać.
30
lis
Autor: Marcin kategoria: Ogólne zapiski kusownika it-yka, R project | Tagi :grupowanie danych R project, Pareto chart, profilowanie pamięci, r project, R project grupowanie danych, R project sorotwanie, sortowanie danych R project, wykres Pareto, wykresy Pareto | Brak komentarzy
Poniżej umieszczam kilka przydatnych linków do stron internetowych opisujących pewne zagadnienia które często wymagają rozwiązania lub zastosowania podczas badań wspieranych pakietem R project. Na stronach tych można uzyskać informacje na temat:
- sortowania oraz grupowania danych (http://www.ats.ucla.edu/stat/r/faq/sort.htm, http://stackoverflow.com/questions/1296646/how-to-sort-a-dataframe-by-columns-in-r). Przy czym pierwszy link jest także krótkim kursem wprowadzającym do R,
- profilowania aplikacji napisanych w R, w szczególności tych które wymagają użycia dużych zasobów pamięci. Czasami warto wiedzieć co aktualnie rezyduje na stosie pamięci (http://developer.r-project.org/memory-profiling.html, http://heuristically.wordpress.com/2010/01/04/r-memory-usage-statistics-variable/),
- tworzenia wykresów Pareto informacje można znaleźć na stronie http://www.oga-lab.net/RGM2/func.php?rd_id=qcc:pareto.chart opisującej pakiet i metody które służą do tego celu.
Życzę miłego korzystania z wyżej przedstawionych rozwiązań.
20
lis
Autor: Marcin kategoria: Dziennik badań, Ogólne zapiski kusownika it-yka, R project | Tagi :geotagowanie, geotagowanie r, geotagowanie r project, r geotagowanie, r project geotagowanie | Brak komentarzy
Ostatnio poszukiwałem rozwiązania do geotagowania. Proces ten chciałem wykonać za pomocą nie API google map dla java scriptu lecz web serwisów i r project. Podyktowane to było tym aby utrzymać jednolite rozwiązanie programistyczne tj. jednolitą platformę eksperymentalną do przetwarzania tekstów w postaci raportów zaimplementowaną w jednym języku, bez różnego rodzaju miksów. Na początku rozpatrywałem użycie PHP i Java Scriptu niemniej po przeszperaniu internetu natknąłem się dość ciekawe rozwiązanie dla r project. Poniżej prezentuje listę linków związanych z zastosowaniem API google map w połączeniu z r project:
- http://www.r-chart.com/2010/07/maps-geocoding-and-r-user-conference.html
- http://cran.r-project.org/web/packages/RgoogleMaps/vignettes/RgoogleMaps-intro.pdf
- http://cran.r-project.org/web/packages/RgoogleMaps/RgoogleMaps.pdf
- http://cran.r-project.org/web/packages/RgoogleMaps/index.html
- http://cran.r-project.org/web/packages/gooJSON/gooJSON.pdf
- http://cran.r-project.org/web/packages/googleVis/vignettes/googleVis.pdf
- http://cran.r-project.org/web/packages/plotGoogleMaps/plotGoogleMaps.pdf
Powodzenia w stosowaniu ww. rozwiązań.