Document Classification Pattern Recognition via Information Fusion: A systematic review of multimodal and multiview representation approaches

Information fusion is used widely to improve document classification by the integration of multiple data sources (multimodal) or representations (multiview). However, the field lacks a unified framework, a quantitative synthesis of its effectiveness, and clear guidance for practitioners. This systematic review addresses these gaps by analysing 139 primary studies. It introduces a formal framework to structure the field, presents the results of a qualitative analysis to identify key trends, and performs a random-effects meta-analysis (to our knowledge, the first focused on document classification) to quantify performance gains. Our meta-analysis reveals that multimodal fusion improves accuracy (mean gain of +5.28 percentage points, p = .0016) significantly—the F1-score effect is directionally positive but statistically non-significant in our primary model. Multiview fusion provides consistent but modest gains for accuracy (+4.67%), F1-score (+3.08%), and recall (all p < .05). Critically, our qualitative synthesis uncovers challenges in reproducibility in methodological rigour: only 11.8% (multimodal) and 23.3% (multiview) of the studies use statistical tests to validate their findings, which undermines the reliability of many of their results. This review’s primary contributions are a unifying framework, the first quantitative evidence base, and data-driven guidelines. This review concludes that successful information fusion depends not on algorithmic complexity, but on the strategic alignment of the fusion method with the task context and a commitment to more rigorous validation.

Czytelnik może znaleźć więcej informacji w wersji angielskiej wpisu lub bezpośrednio w artykule.

 

Jak maszyna „skleja” informacje? Multimodalne i multiview uczenie w klasyfikacji dokumentów

Co tak naprawdę oznacza „multimodalny model” i dlaczego samo dorzucenie kolejnego źródła danych nie zawsze poprawia wynik? W tym odcinku „Naukowego dziennika” Aleksandra „Alex” Biel i dr Julian Hart rozkładają na czynniki pierwsze fuzję informacji w klasyfikacji dokumentów — od intuicji i metafor, po praktyczne pułapki, które często umykają w popularnych opisach „AI z wielu źródeł”.

O czym jest rozmowa?

Punktem wyjścia jest świeży przegląd badań dotyczący multimodalnego i multiview uczenia. Prowadzący wyjaśniają różnicę między łączeniem różnych typów danych (np. tekst + obraz) a łączeniem różnych reprezentacji tego samego tekstu (np. TF-IDF, embeddingi z BERT-a, struktura dokumentu, sieć cytowań). Po drodze pojawiają się konkretne zastosowania: moderacja treści, wyszukiwanie dokumentów w firmach, wykrywanie fake newsów, analiza dokumentów typu PDF/faktury/raporty.

W tym odcinku usłyszysz m.in.:

  • Multimodalność vs. multiview – czym się różni „tekst+obraz” od „kilku widoków tego samego tekstu”,
  • jak wygląda pipeline: surowy dokument → cechy → reprezentacje → wzorce,
  • trzy strategie łączenia informacji: wczesna fuzja, późna fuzja i hybrydowa,
  • kiedy „więcej kanałów” pomaga, a kiedy dodaje głównie szum (np. słabe OCR, nieprecyzyjne metadane),
  • jakie średnie zyski raportuje literatura (np. ~kilka p.p. w multimodalności) i dlaczego to nie jest gwarancja sukcesu,
  • dlaczego w pracach nadal zbyt rzadko widać testy statystyczne, rzetelne porównania i kwestie replikowalności.

Jeśli chcesz zrozumieć, co kryje się pod modnymi hasłami „multimodalne modele” i „łączenie informacji z wielu źródeł”, ten odcinek dobrze porządkuje temat: jasno pokazuje definicje, strategie fuzji i ograniczenia, o których rzadko mówi się w skrótach.


Posłuchaj odcinka

Odcinek na Jellypod

Odcinek na Spotify

Biologiczne sieci neuronowe w przetwarzaniu języka

Jak to możliwe, że rozumiemy znaczenie słów niemal natychmiast – i co ma z tym wspólnego sztuczna inteligencja? W tym odcinku „Naukowego dziennika” zaglądamy do mózgu (dosłownie: na poziomie pojedynczych neuronów), a potem przenosimy się do świata algorytmów inspirowanych biologią: spiking neural networks.

O czym jest rozmowa?

Aleksandra „Alex” Biel i dr Julian Hart łączą neurobiologię i AI: od badań pokazujących, jak pojedyncze komórki nerwowe kodują kategorie znaczeniowe podczas rozumienia języka, po modele impulsowe uczące się reprezentacji tekstu i odkrywające tematy w dokumentach. To odcinek o tym, jak „biologia spotyka się z obliczeniami” — i co z tego wynika dla przyszłości przetwarzania języka.

W tym odcinku usłyszysz m.in.:

  • jak neurony w korze mózgu mogą reagować selektywnie na kategorie semantyczne (np. jedzenie, natura, czynności),
  • dlaczego kontekst zmienia interpretację słów i jak mózg radzi sobie z niejednoznacznością,
  • czym są spiking neural networks (SNN) i czym różnią się od klasycznych sieci neuronowych,
  • jak zamienia się tekst na „impulsy” (spike trains) i na czym polega uczenie typu STDP,
  • jak działają spiking topic models (STM) i dlaczego mogą dobrze radzić sobie z krótkimi tekstami,
  • jakie są praktyczne wyzwania: skalowanie, ekosystem narzędzi i porównanie z transformerami (np. BERT).

Artykuły źródłowe

  • Jamali, M., Grannan, B., Cai, J. et al. Semantic encoding during language comprehension at single-cell resolution, Nature (2024). DOI
  • Marcin Białas, Marcin Mirończuk, Jacek Mańdziuk. Leveraging spiking neural networks for topic modeling, Neural Networks (2024). DOI
  • Marcin Białas, Marcin Michał Mirończuk, Jacek Mańdziuk. Biologically Plausible Learning of Text Representation with Spiking Neural Networks, PPSN (2020). DOI

Posłuchaj odcinka

Odcinek na Jellypod

Odcinek na Spotify

Wykrywanie podwójnej jakości w recenzjach produktów

Czy zdarzyło Ci się kupić „ten sam” produkt w dwóch krajach i poczuć, że to jednak nie to samo? Ten odcinek poświęcony jest zjawisku podwójnej jakości (dual quality) na rynkach UE oraz temu, jak modele NLP mogą pomagać wykrywać takie rozbieżności na podstawie opinii konsumentów.

O czym jest rozmowa?

Aleksandra „Alex” Biel i dr Julian Hart omawiają kontekst konsumencki i regulacyjny, a następnie przechodzą do strony badawczej: jak buduje się zbiory danych z recenzji, jak wygląda anotacja oraz jak modele językowe „czytają” niuanse, które mogą wskazywać na różnice w składzie lub jakości między rynkami.

W tym odcinku usłyszysz m.in.:

  • co dokładnie oznacza „podwójna jakość” i kiedy może wprowadzać konsumentów w błąd,
  • jak UE podchodzi do tego problemu od strony ochrony konsumentów,
  • jak badacze zbudowali i oznaczyli zestaw ok. 2 tysięcy recenzji, w tym takich związanych z dual quality,
  • dlaczego w praktyce model lokalny (np. dostrojony do języka polskiego) bywa lepszy od modeli wielojęzycznych,
  • jakie błędy najczęściej popełniają modele (m.in. mylenie dual quality z podróbkami lub „zwykłą” reklamacją jakości),
  • dokąd to zmierza: większe, wielojęzyczne dane i łączenie modeli lokalnych z globalnymi.

Artykuł źródłowy

Rafał Poświata, Marcin Michał Mirończuk, Sławomir Dadas, Małgorzata Grębowiec, Michał Perełkiewicz: Unveiling Dual Quality in Product Reviews: An NLP-Based Approach (arXiv). Przejdź do publikacji na arXiv


Posłuchaj odcinka

Odcinek na Jellypod

Odcinek na Spotify

Ewolucja i przyszłość klasyfikacji dokumentów: od 20 Newsgroups po transformery i GNN

W najnowszym odcinku „Naukowego dziennika” Aleksandra „Alex” Biel i dr Julian Hart biorą na warsztat temat, który na pierwszy rzut oka może brzmieć niszowo, ale w praktyce stoi za wieloma rzeczami, z których korzystamy codziennie: automatyczną klasyfikacją dokumentów tekstowych.

O czym jest rozmowa?

Punktem wyjścia jest pytanie: czym właściwie jest klasyfikacja dokumentów i dlaczego to jeden z kluczowych obszarów badań w uczeniu maszynowym. Prowadzący pokazują, jak ta dziedzina zmieniała się na przestrzeni lat (szczególnie w perspektywie 2003–2023), przechodząc od klasycznych metod statystycznych do współczesnych architektur deep learning.

Co usłyszysz w odcinku?

W rozmowie pojawiają się m.in.:

  • Standardowe zbiory danych i benchmarki (np. 20 Newsgroups) – dlaczego są ważne dla porównywania metod i co dają w praktyce.
  • Nowoczesne podejścia: transformery (np. rodzina BERT) oraz Graph Neural Networks (GNN) – co wnoszą do analizy tekstu
    i czemu potrafią „czytać” kontekst lepiej niż starsze podejścia.
  • Metryki jakości (precision/recall/F1, micro vs. macro) – krótko i przystępnie: co te liczby mówią, a czego nie mówią o modelu.
  • Zastosowania z życia: od organizowania literatury naukowej, przez moderację treści w mediach społecznościowych,
    po obszary, gdzie liczy się skala i szybkość decyzji.
  • Największy hamulec postępu: reprodukowalność badań – dlaczego „świetne wyniki” nie wystarczą, jeśli nie da się ich wiarygodnie powtórzyć,
    oraz jak pomagają w tym systematyczne przeglądy literatury i większa transparentność (kody, dane, procedury).

Materiał źródłowy

Odcinek nawiązuje do systematycznego przeglądu literatury obejmującego 102 prace z lat 2003–2023, który porządkuje metody klasyfikacji dokumentów i zwraca uwagę na standardy raportowania oraz problem powtarzalności wyników.


Posłuchaj odcinka

Odcinek na Jellypod

Odcinek na Spotify

Od eksperymentu do teorii: Jak poprawnie mierzyć jakość modeli ML?

W typowym eksperymencie uczenia maszynowego dysponujemy danymi, które (w najprostszym wariancie) dzielimy na trzy rozłączne zbiory: treningowy, walidacyjny i testowy. Zbiór treningowy służy do estymacji parametrów modelu (np. wag sieci neuronowej, współczynników regresji, parametrów rozkładów w Naive Bayes itp.) poprzez minimalizację wybranej funkcji straty lub maksymalizację wiarygodności. Celem uczenia nie jest idealne odwzorowanie danych treningowych samo w sobie, lecz uzyskanie dobrej generalizacji, tzn. niskiego błędu na nowych, niewidzianych przykładach (przy założeniu, że pochodzą z tego samego rozkładu co dane uczące).

W praktyce podczas treningu model może zacząć przeuczać się: błąd na zbiorze treningowym nadal maleje, ale jakość na danych niewidzianych przestaje się poprawiać lub się pogarsza. Dlatego wprowadzamy zbiór walidacyjny, który nie jest używany do dopasowywania parametrów w danym przebiegu treningu, lecz do wyboru wariantu modelu i ustawień procesu uczenia (hiperparametrów), a także do procedur takich jak early stopping (zatrzymanie treningu w momencie, gdy strata/metryka na walidacji przestaje się poprawiać).

Wybór „najlepszego” modelu odbywa się zwykle przez minimalizację straty lub maksymalizację wybranej metryki (accuracy, F1, AUC itd.) na walidacji. Trzeba jednak pamiętać, że intensywne strojenie (wiele prób architektur, hiperparametrów, ziaren losowości, augmentacji, decyzji preprocessingowych) może prowadzić do „przeuczenia do walidacji” i zbyt optymistycznej oceny – jest to forma selection bias w procesie doboru modelu (model selection).

Zbiór testowy powinien być trzymany „na końcu” i użyty dopiero po zakończeniu całego procesu projektowania (wyboru modelu i hiperparametrów). Wynik na teście stanowi estymację błędu generalizacji dla przyjętego protokołu, ale jest to nadal estymacja obarczona niepewnością (zależną m.in. od rozmiaru testu i wariancji problemu).

Gdy danych jest mało lub chcemy stabilniejszej oceny, stosuje się procedury resamplingu. Klasycznie używa się k-fold cross-validation (w tym leave-one-out jako przypadek skrajny) oraz metod bootstrapowych do estymacji błędu predykcji; bootstrap (np. wariant .632+) bywa traktowany jako „wygładzona” alternatywa dla CV, charakteryzująca się innym kompromisem obciążenia i wariancji (bias–variance trade-off). Jeżeli cross-validation służy jednocześnie do strojenia hiperparametrów i do oceny jakości, to dla uniknięcia optymistycznego obciążenia niezbędna jest procedura zagnieżdżona (nested CV), w której pętla wewnętrzna stroi hiperparametry, a pętla zewnętrzna szacuje błąd uogólnienia.

Badania empiryczne polegają na projektowaniu modeli i procedur uczenia oraz ich porównywaniu w kontrolowanym protokole. Nurt teoretyczny jest komplementarny: dostarcza formalnych ram, w których (przy określonych założeniach) można uzyskać gwarancje typu „z wysokim prawdopodobieństwem prawdziwe ryzyko nie przekroczy pewnej wartości”, zależnej od ryzyka empirycznego i miary złożoności rozwiązania. W szczególności teoria PAC-Bayes dostarcza probabilistycznych górnych ograniczeń na błąd uogólnienia (często dla klasyfikatorów stochastycznych) w funkcji błędu empirycznego oraz członu złożoności wyrażanego m.in. przez dywergencję Kullbacka-Leiblera ($D_{KL}$) między rozkładem a posteriori i prior. Nie implikuje to prostej zależności $E_{val} \leq E_{test}$; relacja walidacja–test zależy od protokołu selekcji i może być obciążona przez proces wyboru modelu.

5 zaskakujących prawd o promptach, które zmienią sposób, w jaki rozmawiasz z AI

Interakcja z AI za pomocą promptów – czyli tekstowych poleceń – wydaje się prosta, ale kryje w sobie wiele niespodzianek. W ostatnich latach (2023–2025) badacze intensywnie analizowali, jak forma i styl naszych zapytań wpływają na odpowiedzi dużych modeli językowych (LLM). Okazuje się, że pewne obiegowe przekonania o „sztuce zadawania pytań” wymagają korekty. Poniżej przedstawiam pięć zaskakujących, opartych na najnowszych badaniach prawd o promptach. Te odkrycia nadadzą konwersacjom z AI bardziej naukowy sznyt – i być może zmienią Twój sposób formułowania poleceń.

Czytaj dalej

Ujarzmić długi kontekst w LLM: 3 problemy, 1 spójny zestaw strategii

W praktycznych systemach z LLM (QA, analityka, asystenci, agentowe RAG) trzy zjawiska regularnie psują jakość: (1) Lost in the Middle — spadek trafności, gdy klucz leży w środku długiego promptu; (2) Prompty zaburzające/rozpraszające — kilka „kuszących” zdań psuje rozumowanie; (3) Wielkie konteksty → spadek wydajności — mimo deklarowanych okien 32k+, wyniki i stabilność spadają. Poniżej: skąd to się bierze, co działa „od zaraz”, co warto wdrożyć w modelu/pipeline’ie oraz jak to rzetelnie mierzyć.


TL;DR dla niecierpliwych

  • Zamiast pchać wszystko do promptu: odzysk → reranking krzyżowy → kompresja → ekstremalne ułożenie (najważniejsze na początku i końcu).
  • Rozpraszanie ograniczysz prostą instrukcją + formatem odpowiedzi, few-shotem z „hałasem”, self-consistency, oraz gatingiem/abstencją (NO-RESPONSE) na poziomie pasażu.
  • Długi kontekst stabilizuj: skalowaniem pozycji (LongRoPE/YaRN), reżimem treningowym pod długie sekwencje (ProLong), adaptacją w czasie testu (LIFT), streaming attention z sink-tokenami i/lub pamięcią zewnętrzną.
  • Mierz mądrze: nie tylko „needle-in-haystack”. Używaj RULER/ONERULER (także wielojęzycznie), testów z wieloma igłami oraz zadań realnych z cytowaniem źródeł.

Czytaj dalej

Rewolucja w Probówce: Jak Agenci AI Zmieniają Oblicze Badań Naukowych

Od Analizy Danych do Partnerstwa w Odkryciach: Sztuczna inteligencja w świecie nauki przechodzi fundamentalną transformację. Przez lata była postrzegana głównie jako narzędzie do analizy ogromnych zbiorów danych. Dziś widzimy ewolucję od pasywnego analityka do aktywnego partnera w badaniach — systemy AI potrafią formułować hipotezy, projektować eksperymenty i interpretować wyniki (zawsze pod ludzkim nadzorem). Trend ten dobrze dokumentują przeglądy z 2025 r., m.in. Stanford AI Index 2025 oraz State of AI Report 2025.

Czytaj dalej

5 zaskakujących prawd o rewolucji AI warte poznania

Żyjemy w czasach, w których zmiany technologiczne następują szybciej niż kiedykolwiek. To poczucie przyspieszenia nie jest tylko subiektywnym wrażeniem – to mierzalna rzeczywistość. Już w 1999 roku Vint Cerf, jeden z ojców internetu, zauważył, że rok w branży internetowej przypomina siedem „psich lat”. To porównanie, kiedyś trafnie oddające tempo innowacji, dziś wydaje się niewystarczające w kontekście sztucznej inteligencji. Tempo, w jakim AI przekształca nasz świat, jest bezprecedensowe – szybsze niż w poprzednich falach technologii, w tym w erze internetu. Ilość danych i analiz na ten temat jest przytłaczająca, a narracja medialna często oscyluje między utopijną ekscytacją a dystopijnym lękiem. Jednak pod powierzchnią tych nagłówków kryją się twarde dane, które malują znacznie bardziej złożony i fascynujący obraz.

W tym artykule przedstawię pięć najbardziej zaskakujących i kontrintuicyjnych wniosków płynących z najnowszych analiz. Pomogą one zrozumieć prawdziwą naturę rewolucji AI – jej bezprecedensową prędkość, paradoksalną ekonomię, geopolityczne napięcia, wpływ na świat fizyczny i fundamentalną zmianę na rynku pracy. To prawdy, które warto poznać, aby świadomie nawigować w nadchodzącej erze.

Czytaj dalej