Kompresja Kontekstu | Od Informacji do Wiedzy

W praktycznych systemach z LLM (QA, analityka, asystenci, agentowe RAG) trzy zjawiska regularnie psują jakość: (1) Lost in the Middle — spadek trafności, gdy klucz leży w środku długiego promptu; (2) Prompty zaburzające/rozpraszające — kilka „kuszących” zdań psuje rozumowanie; (3) Wielkie konteksty → spadek wydajności — mimo deklarowanych okien 32k+, wyniki i stabilność spadają. Poniżej: skąd to się bierze, co działa „od zaraz”, co warto wdrożyć w modelu/pipeline’ie oraz jak to rzetelnie mierzyć.

TL;DR dla niecierpliwych

Zamiast pchać wszystko do promptu: odzysk → reranking krzyżowy → kompresja → ekstremalne ułożenie (najważniejsze na początku i końcu).
Rozpraszanie ograniczysz prostą instrukcją + formatem odpowiedzi, few-shotem z „hałasem”, self-consistency, oraz gatingiem/abstencją (NO-RESPONSE) na poziomie pasażu.
Długi kontekst stabilizuj: skalowaniem pozycji (LongRoPE/YaRN), reżimem treningowym pod długie sekwencje (ProLong), adaptacją w czasie testu (LIFT), streaming attention z sink-tokenami i/lub pamięcią zewnętrzną.
Mierz mądrze: nie tylko „needle-in-haystack”. Używaj RULER/ONERULER (także wielojęzycznie), testów z wieloma igłami oraz zadań realnych z cytowaniem źródeł.

Czytaj dalej →

Od Informacji do Wiedzy

Blog o informacjach na temat informacji i wiedzy

Archiwa tagu: Kompresja Kontekstu

Ujarzmić długi kontekst w LLM: 3 problemy, 1 spójny zestaw strategii

TL;DR dla niecierpliwych