7 kw.
Weka
Zacząłem kompletować w końcu oprogramowanie do badań. Po przeglądzie rynku oprogramowania do badań dokumentów tekstowych wychodzi na to że postawię na Wekę. Jeśli ktoś jest zainteresowany to oprogramowanie można ciągnąc ze strony http://www.cs.waikato.ac.nz/~ml/index.html. W grę wchodziły jeszcze takie pakiety jak SAS Text Miner i Statistica Text Miner niestety aktualnie uczelnia nie posiada do nich licencji więc postawiłem na open sorce. Weka to projekt to przeprowadzania projektów z zakresu eksploracji danych napisana w ramach grantu na jednej z uczelni w Australii (po więcej szczegółów odsyłam na wyżej podaną stronę). Wokół niej zgromadzone jest dość duże community oraz sam program posiada dobrą dokumentację nie wspominając już o książkach na jego temat. Nic tylko korzystać w szczególności, że całość napisana jest w Javie i można tworzyć własne pluginy. Niestety polski rynek programów do analizy tekstów rodzimego języka nie wygląda jeszcze różowo chodź istnieje możliwość, że jeszcze za mało go przeszukałem. W następnych notatkach umieszczę parę ciekawych linków do stron osób i projektów z zakresu analizy tekstów a zebrało się tego trochę i w Blogrollu raczej wszystko się nie pomieści.
Autor: Daniel dnia 07.04.10 o godz. 16:49
Czy to narzędzie ma szansę poradzić sobie z plikami w których tekst zawiera słownictwo w kliku językach? (np. cytaty łacińskie, nazewnictwo anglojęzyczne)
Autor: Marcin dnia 07.04.10 o godz. 16:49
Przerzuciłem się na R-project. Z jego poziomu uruchamiam niezbędne analizatory tekstu, ewentualnie uruchamiam je oddzielnie a wyniki zebrane za ich pomocą obrabiam już w R.