Archiwum kategorii: Dziennik badań

Zapiski pojawiające się w czasie realizowanych badań. Dotyczą one badań ilościowo-jakościowych.

Od eksperymentu do teorii: Jak poprawnie mierzyć jakość modeli ML?

W typowym eksperymencie uczenia maszynowego dysponujemy danymi, które (w najprostszym wariancie) dzielimy na trzy rozłączne zbiory: treningowy, walidacyjny i testowy. Zbiór treningowy służy do estymacji parametrów modelu (np. wag sieci neuronowej, współczynników regresji, parametrów rozkładów w Naive Bayes itp.) poprzez minimalizację wybranej funkcji straty lub maksymalizację wiarygodności. Celem uczenia nie jest idealne odwzorowanie danych treningowych samo w sobie, lecz uzyskanie dobrej generalizacji, tzn. niskiego błędu na nowych, niewidzianych przykładach (przy założeniu, że pochodzą z tego samego rozkładu co dane uczące).

W praktyce podczas treningu model może zacząć przeuczać się: błąd na zbiorze treningowym nadal maleje, ale jakość na danych niewidzianych przestaje się poprawiać lub się pogarsza. Dlatego wprowadzamy zbiór walidacyjny, który nie jest używany do dopasowywania parametrów w danym przebiegu treningu, lecz do wyboru wariantu modelu i ustawień procesu uczenia (hiperparametrów), a także do procedur takich jak early stopping (zatrzymanie treningu w momencie, gdy strata/metryka na walidacji przestaje się poprawiać).

Wybór „najlepszego” modelu odbywa się zwykle przez minimalizację straty lub maksymalizację wybranej metryki (accuracy, F1, AUC itd.) na walidacji. Trzeba jednak pamiętać, że intensywne strojenie (wiele prób architektur, hiperparametrów, ziaren losowości, augmentacji, decyzji preprocessingowych) może prowadzić do „przeuczenia do walidacji” i zbyt optymistycznej oceny – jest to forma selection bias w procesie doboru modelu (model selection).

Zbiór testowy powinien być trzymany „na końcu” i użyty dopiero po zakończeniu całego procesu projektowania (wyboru modelu i hiperparametrów). Wynik na teście stanowi estymację błędu generalizacji dla przyjętego protokołu, ale jest to nadal estymacja obarczona niepewnością (zależną m.in. od rozmiaru testu i wariancji problemu).

Gdy danych jest mało lub chcemy stabilniejszej oceny, stosuje się procedury resamplingu. Klasycznie używa się k-fold cross-validation (w tym leave-one-out jako przypadek skrajny) oraz metod bootstrapowych do estymacji błędu predykcji; bootstrap (np. wariant .632+) bywa traktowany jako „wygładzona” alternatywa dla CV, charakteryzująca się innym kompromisem obciążenia i wariancji (bias–variance trade-off). Jeżeli cross-validation służy jednocześnie do strojenia hiperparametrów i do oceny jakości, to dla uniknięcia optymistycznego obciążenia niezbędna jest procedura zagnieżdżona (nested CV), w której pętla wewnętrzna stroi hiperparametry, a pętla zewnętrzna szacuje błąd uogólnienia.

Badania empiryczne polegają na projektowaniu modeli i procedur uczenia oraz ich porównywaniu w kontrolowanym protokole. Nurt teoretyczny jest komplementarny: dostarcza formalnych ram, w których (przy określonych założeniach) można uzyskać gwarancje typu „z wysokim prawdopodobieństwem prawdziwe ryzyko nie przekroczy pewnej wartości”, zależnej od ryzyka empirycznego i miary złożoności rozwiązania. W szczególności teoria PAC-Bayes dostarcza probabilistycznych górnych ograniczeń na błąd uogólnienia (często dla klasyfikatorów stochastycznych) w funkcji błędu empirycznego oraz członu złożoności wyrażanego m.in. przez dywergencję Kullbacka-Leiblera ($D_{KL}$) między rozkładem a posteriori i prior. Nie implikuje to prostej zależności $E_{val} \leq E_{test}$; relacja walidacja–test zależy od protokołu selekcji i może być obciążona przez proces wyboru modelu.

5 zaskakujących prawd o promptach, które zmienią sposób, w jaki rozmawiasz z AI

Interakcja z AI za pomocą promptów – czyli tekstowych poleceń – wydaje się prosta, ale kryje w sobie wiele niespodzianek. W ostatnich latach (2023–2025) badacze intensywnie analizowali, jak forma i styl naszych zapytań wpływają na odpowiedzi dużych modeli językowych (LLM). Okazuje się, że pewne obiegowe przekonania o „sztuce zadawania pytań” wymagają korekty. Poniżej przedstawiam pięć zaskakujących, opartych na najnowszych badaniach prawd o promptach. Te odkrycia nadadzą konwersacjom z AI bardziej naukowy sznyt – i być może zmienią Twój sposób formułowania poleceń.

Czytaj dalej

Ujarzmić długi kontekst w LLM: 3 problemy, 1 spójny zestaw strategii

W praktycznych systemach z LLM (QA, analityka, asystenci, agentowe RAG) trzy zjawiska regularnie psują jakość: (1) Lost in the Middle — spadek trafności, gdy klucz leży w środku długiego promptu; (2) Prompty zaburzające/rozpraszające — kilka „kuszących” zdań psuje rozumowanie; (3) Wielkie konteksty → spadek wydajności — mimo deklarowanych okien 32k+, wyniki i stabilność spadają. Poniżej: skąd to się bierze, co działa „od zaraz”, co warto wdrożyć w modelu/pipeline’ie oraz jak to rzetelnie mierzyć.


TL;DR dla niecierpliwych

  • Zamiast pchać wszystko do promptu: odzysk → reranking krzyżowy → kompresja → ekstremalne ułożenie (najważniejsze na początku i końcu).
  • Rozpraszanie ograniczysz prostą instrukcją + formatem odpowiedzi, few-shotem z „hałasem”, self-consistency, oraz gatingiem/abstencją (NO-RESPONSE) na poziomie pasażu.
  • Długi kontekst stabilizuj: skalowaniem pozycji (LongRoPE/YaRN), reżimem treningowym pod długie sekwencje (ProLong), adaptacją w czasie testu (LIFT), streaming attention z sink-tokenami i/lub pamięcią zewnętrzną.
  • Mierz mądrze: nie tylko „needle-in-haystack”. Używaj RULER/ONERULER (także wielojęzycznie), testów z wieloma igłami oraz zadań realnych z cytowaniem źródeł.

Czytaj dalej

Rewolucja w Probówce: Jak Agenci AI Zmieniają Oblicze Badań Naukowych

Od Analizy Danych do Partnerstwa w Odkryciach: Sztuczna inteligencja w świecie nauki przechodzi fundamentalną transformację. Przez lata była postrzegana głównie jako narzędzie do analizy ogromnych zbiorów danych. Dziś widzimy ewolucję od pasywnego analityka do aktywnego partnera w badaniach — systemy AI potrafią formułować hipotezy, projektować eksperymenty i interpretować wyniki (zawsze pod ludzkim nadzorem). Trend ten dobrze dokumentują przeglądy z 2025 r., m.in. Stanford AI Index 2025 oraz State of AI Report 2025.

Czytaj dalej

5 zaskakujących prawd o rewolucji AI warte poznania

Żyjemy w czasach, w których zmiany technologiczne następują szybciej niż kiedykolwiek. To poczucie przyspieszenia nie jest tylko subiektywnym wrażeniem – to mierzalna rzeczywistość. Już w 1999 roku Vint Cerf, jeden z ojców internetu, zauważył, że rok w branży internetowej przypomina siedem „psich lat”. To porównanie, kiedyś trafnie oddające tempo innowacji, dziś wydaje się niewystarczające w kontekście sztucznej inteligencji. Tempo, w jakim AI przekształca nasz świat, jest bezprecedensowe – szybsze niż w poprzednich falach technologii, w tym w erze internetu. Ilość danych i analiz na ten temat jest przytłaczająca, a narracja medialna często oscyluje między utopijną ekscytacją a dystopijnym lękiem. Jednak pod powierzchnią tych nagłówków kryją się twarde dane, które malują znacznie bardziej złożony i fascynujący obraz.

W tym artykule przedstawię pięć najbardziej zaskakujących i kontrintuicyjnych wniosków płynących z najnowszych analiz. Pomogą one zrozumieć prawdziwą naturę rewolucji AI – jej bezprecedensową prędkość, paradoksalną ekonomię, geopolityczne napięcia, wpływ na świat fizyczny i fundamentalną zmianę na rynku pracy. To prawdy, które warto poznać, aby świadomie nawigować w nadchodzącej erze.

Czytaj dalej

Anatomia Recenzji Naukowej: Jak Przetrwać Sąd Ostateczny w Informatyce i Naukach Medycznych

Wysyłasz manuskrypt i zaczyna się cisza. Miesiące pracy, setki poprawek i jeden klik: „Submit”. A potem czekanie na werdykt od enigmatycznych postaci – Recenzenta 1, Recenzenta 2… To jeden z najbardziej stresujących momentów w życiu naukowca. Ale co tak naprawdę dzieje się po drugiej stronie? Proces recenzji (peer review) to fundament nauki – system kontroli jakości mający zapewnić, że publikowane prace są ważne, oryginalne i rzetelne (Sense about Science).

Czytaj dalej

Anatomia procesu badawczego: Praktyczny framework dla rzetelnej nauki

Po wielu latach spędzonych na badaniach, proces naukowy – od idei po publikację – staje się drugą naturą. Jednak ta intuicja, choć bezcenna, zasługuje na ustrukturyzowanie. Chęć opisania tego warsztatu wynika nie tylko z potrzeby lepszego zrozumienia własnej pracy, ale także z chęci stworzenia mapy, która może pomóc innym nawigować po tym złożonym terenie.

Jedną z inspiracji była humorystyczna, ale trafna lista z książki Jorge Chama i Daniela Whitesona, „Nie mamy pojęcia. Przewodnik po nieznanym wszechświecie”:

  1. Uporządkuj to, co wiesz
  2. Szukaj prawidłowości
  3. Zadawaj pytania
  4. Kup tweedową marynarkę z łatami na łokciach

Praca naukowa to jednak przede wszystkim sztuka zadawania właściwych pytań. Nie chodzi o to, by „pobić baseline”, ale by zrozumieć zjawisko. Pytanie „dlaczego?” jest kompasem badacza. Zrozumienie z kolei często oznacza umiejętność zrekonstruowania mechanizmu (np. poprzez implementację kodu lub formalny dowód), choć w częściach matematyki wystarczy pełna, sprawdzalna argumentacja.

Zauważyłem, że niezależnie od tego, czy piszę pracę empiryczną z zakresu przetwarzania języka naturalnego (NLP), czy systematyczny przegląd z meta‑analizą, pod powierzchnią kryje się wspólny szkielet. Efektem tych obserwacji jest poniższy roboczy framework, który próbuje ten szkielet zwizualizować.

Czytaj dalej

Niezależny językowo system ekstrakcji informacji z pół-ustrukturalizowanych danych tekstowych (SEI BigGramy)

Dnia 18 kwietnia 2013 odbyło się Seminarium Zespołu Podstaw Sztucznej Inteligencji IPI PAN na którym zaprezentowałem Niezależny językowo system ekstrakcji informacji z pół-ustrukturalizowanych danych tekstowych (SEI BigGramy). W niniejszym streszczeniu referatu można się zaznajomić z przedstawionym przeze mnie pomysłem na ekstrakcję informacji z dokumentów internetowych.

Analiza danych tekstowych w projektowaniu wybranego systemu informacyjnego na przykładzie analizy dokumentacji zdarzeń krajowego systemu ratowniczo-gaśniczego (ang. Design the chosen information system based on text mining analysis of national fire service documentation)

Dnia 25 września 2013 r. o godzinie 12.15 w sali numer WA-130 w budynku Rektoratu Politechniki Białostockiej przy ul. Wiejskiej 45A odbyła się moja obrona rozprawy doktorskiej pt. „Analiza danych tekstowych w projektowaniu wybranego systemu informacyjnego na przykładzie analizy dokumentacji zdarzeń krajowego systemu ratowniczo-gaśniczego”. Autoreferat zawierający opis poszczególnych elementów proponowanej metody można odnaleźć w sekcji Publikacje – Seminaria lub można go pobrać bezpośrednio tutaj. Poniżej przedstawiam skrócony opis badań. Czytaj dalej

Seminarium IPI PAN

Mam przyjemność zaprosić na seminarium Zespołu Podstaw Sztucznej Inteligencji, które odbędzie się w Warszawie 31 maja 2012 r. w budynku przy ul. Jana Kazimierza 5. Seminarium ma się odbywać cyklicznie co tydzień. Będą na nich prezentowane sylwetki osób z zespołu oraz ich badania. Informacje o odbytych i nadchodzących prezentacjach można znależć na stronia http://www.ipipan.waw.pl/ssi/. Na zbliżającym się seminarium przedstawię prezentację pt. „Autoreferat oraz elementy projektowania systemów informacyjnych”. W prezentacji zostanie przedstawiona sylwetka referującego, który jest absolwentem Politechniki Białostockiej – wydziału Elektrycznego kierunku Elektronika i Telekomunikacja. Na seminarium zostanie omówiona jego praca dyplomowa oraz tematyka rozprawy doktorskiej. Prace te związane są z inżynierią oprogramowania i projektowaniem systemów informacyjnych SI. Podczas prezentacji przedstawione zostaną także osiągnięcia, zainteresowania oraz aktualne projekty referującego.