Kariera zawodowa i naukowa

  • Obecnie: Senior Researcher / OPI PIB
  • Specjalizacja: sztuczna inteligencja, przetwarzanie języka naturalnego
  • Kompetencje: architektura rozwiązań, analiza wymagań
  • Profil: badacz i inżynier systemów informacyjnych
2002–2010

Studia i początki ścieżki inżynierskiej

Etap obejmujący studia techniczne, pracę nad systemami informacyjnymi, doświadczenie międzynarodowe w ramach Erasmusa oraz pierwsze projekty programistyczne i własną działalność.


Politechnika Białostocka — Elektronika i Telekomunikacja, magister inżynier

Studia zakończone uzyskaniem tytułu magistra inżyniera; praca dyplomowa dotyczyła systemu gromadzenia i przetwarzania medycznych danych pomiarowych.

Projekt obejmował stworzenie systemu do gromadzenia i analizy danych medycznych z uroflowmetrów. W trakcie studiów zrealizowany został również wyjazd w ramach programu Erasmus do VŠB.


ProFind — własna działalność i kontrakty deweloperskie

Rozwój oprogramowania, CMS, e-commerce i projektów opartych na danych z internetu.

Etap obejmował pełny cykl prac wykonawczych: od architektury i implementacji po utrzymanie rozwiązania oraz współpracę z klientem.

2007–2013

Szkoła doktorska, doktorat i analiza tekstu

Etap doktorancki rozpoczęty w 2007 roku na Politechnice Białostockiej, zakończony obroną w 2013 roku na Wydziale Informatyki. Zakres prac obejmował badania nad przetwarzaniem tekstu, reprezentacją wiedzy i systemami informacyjnymi dla administracji oraz służb publicznych.


Praca nad rozprawą doktorską — analiza raportów PSP i projektowanie systemu informacyjnego

Badania dotyczyły przekształcania nieustrukturyzowanych raportów operacyjnych w dane użyteczne systemowo.

Rdzeń pracy obejmował segmentację tekstu, ekstrakcję informacji i projektowanie reguł reprezentacji wiedzy dla dokumentacji zdarzeń PSP.


Obrona doktoratu

Formalne domknięcie etapu badań nad analizą danych tekstowych w systemach informacyjnych.

Rozprawa obejmowała zagadnienia systemów informacyjnych, eksploracji tekstu oraz analizy dokumentów specjalistycznych.

2012–2014 (publikacja 2018)

IPI PAN i web information extraction

Formalna współpraca w latach 2012–2014. Praca obejmowała ekstrakcję informacji z półustrukturyzowanych stron WWW, z naciskiem na problemy o większej skali i bardziej ogólnym zastosowaniu. Główna publikacja z tego okresu — system BigGrams — ukazała się w 2018 roku z afiliacją IPI PAN.


Instytut Podstaw Informatyki PAN — Systems Engineer

Praca nad problemami ekstrakcji informacji z danych webowych i półustrukturyzowanych dokumentów HTML.

Etap obejmował rozszerzenie wcześniejszych analiz domenowych o metody stosowane szerzej w web miningu i information extraction.


BigGrams — language-agnostic information extraction z HTML

Publikacja dotycząca ekstrakcji informacji z półustrukturyzowanych stron internetowych.

Publikacja koncentruje się na połączeniu skali przetwarzania, praktycznego zastosowania oraz względnej niezależności od języka i układu strony.

2014–2023

OPI PIB — rozwój profilu badawczo-wdrożeniowego

Długofalowa praca badawcza i projektowa obejmująca klasyfikację tekstu, analizę dokumentów, web mining, information extraction oraz systemy stosowane w praktyce publicznej i analitycznej.


OPI PIB / AI Lab — Senior Researcher

Główny ośrodek działalności naukowej i projektowej, łączący prace badawcze z wdrożeniami.

Etap pracy w OPI PIB łączy działalność badawczą z projektowaniem i rozwijaniem rozwiązań wykorzystywanych w praktyce organizacyjnej.


Rozpoznawanie firm innowacyjnych na podstawie stron WWW

Automatyczna klasyfikacja firm pod kątem innowacyjności na podstawie treści ich stron internetowych.

Projekt obejmował zastosowanie klasyfikacji tekstu i web miningu do automatycznej analizy dużych zbiorów stron firmowych.


Publikacje: text classification, raporty PSP, SNN

Publikacje dotyczące przeglądu klasyfikacji tekstu, ekstrakcji informacji z raportów PSP oraz biologicznie inspirowanych modeli reprezentacji tekstu.
  • ESWA 2018 — syntetyczny przegląd klasyfikacji tekstu.
  • Fire Technology 2019 — publikacja dotycząca ekstrakcji informacji z raportów pożarowych.
  • PPSN 2020 — publikacja dotycząca neuromorficznych i biologicznie inspirowanych podejść do reprezentacji tekstu.

ANSI / INFOSTRATEG III — wykrywanie podwójnej jakości produktów

System analizujący wielojęzyczne opinie internetowe pod kątem jakości, bezpieczeństwa i zjawiska dual quality.

Projekt obejmował crawling, ekstrakcję danych i analizę recenzji produktowych w kontekście oceny jakości oraz ochrony konsumentów.

2024–2026

Aktualny etap: document AI, LLM i synteza badań

Najnowszy etap łączy rozwój systemów opartych na LLM i RAG z publikacjami syntetyzującymi wiedzę o klasyfikacji dokumentów, multimodalności i standardach badań.


Neural Networks i IEEE Access

Rozwój biologicznie inspirowanych metod NLP oraz prace dotyczące jakości badań w klasyfikacji dokumentów.

Publikacje z tego okresu łączą rozwój nowych metod NLP z analizą standardów raportowania i reprodukowalności badań.


ACL Industry Track — wykrywanie dual quality w recenzjach produktów

Publikacja stanowiąca rezultat projektu ANSI, poświęcona analizie wielojęzycznych recenzji produktowych.

Publikacja łączy rezultat badawczy z zastosowaniem praktycznym w analizie wielojęzycznych recenzji produktowych.


Obecny kierunek: LLM, RAG, analiza dokumentów i transfer wiedzy przez blog

Aktualny kierunek rozwoju obejmuje projektowanie rozwiązań opartych na LLM oraz popularyzację wiedzy eksperckiej wokół nowoczesnych systemów AI.

Obecny kierunek rozwoju rozwija wcześniejsze doświadczenia w analizie dokumentów, strukturze informacji, ewaluacji modeli i systemach wspierających decyzje.


Information Fusion — meta-analityczne podsumowanie klasyfikacji dokumentów

Systematyczny przegląd i ilościowa synteza badań nad fuzją informacji w klasyfikacji dokumentów.

Publikacja syntetyzuje wcześniejsze wątki dotyczące metodologii, reprezentacji danych i uczenia wielowidokowego w formie ilościowego przeglądu literatury.