
Piękne, ale nieprawdziwe: dlaczego streszczenia AI wciąż nas zwodzą
„Halucynacje nie są już wyjątkiem. W co trzecim streszczeniu modeli LLM znajduje się błąd faktograficzny” – ostrzegają badacze z SummBench 2025.
Każdy z nas używa AI do streszczeń – użytkownicy mediów, naukowcy, dziennikarze, prawnicy i nauczyciele.
Automatyczne streszczanie tekstów miało być rozwiązaniem na informacyjne przeciążenie XXI wieku. Ale czy możemy ufać tym streszczeniom? I – co ważniejsze – który z modeli językowych naprawdę wie, o czym mówi?
W ciągu ostatnich miesięcy ukazały się trzy kluczowe raporty, które kompleksowo mierzą, co potrafią (a czego wciąż nie potrafią) duże modele językowe w zadaniu streszczeń:
- „An Empirical Comparison of Text Summarization” (FAU, kwiecień 2025),
- „RAGAS Benchmark” (maj 2025)
- „SummBench 2025” (czerwiec 2025).
Choć różnią się metodologią, łączy je wspólna konkluzja: technologia robi ogromne postępy, ale błędy ciągle są i nie można ich ignorować.
LLM-y na stole sekcyjnym
Pierwsze badanie na ten temat przeprowadzili naukowcy Anantharamana Janakiramana i Behnaz Ghoraani z Wydziału Inżynierii Elektrycznej i Informatyki na Florida Atlantic University w 2024 r.
Przetestowali oni 17 modeli językowych – od GPT-3.5-turbo (1), przez Claude’a 3, po otwartoźródłowe Falcon i Mistral – na siedmiu różnych zbiorach danych i w trzech długościach streszczeń. Ich celem było ustalenie, który model daje najbardziej rzetelne, spójne i zrozumiałe skróty tekstów.
„Nasze podejście przypisuje zrównoważone wagi czterem aspektom jakości: spójności faktów (35%), podobieństwu semantycznemu (25%), pokryciu leksykalnemu (15%) i ocenie przypominającej ludzką (25%)” – tłumaczą autorzy raportu FAU.
Na szczycie rankingu znalazł się GPT-3.5-turbo, który najlepiej łączył jakość z efektywnością. Ale prawdziwym rekordzistą w spójności faktów był deepseek-v3 – model, który uzyskał prawie dwukrotnie wyższy wynik (SummaC: 0.68) niż konkurenci.
Tyle że… to tylko jedna część układanki.
Claude vs GPT-4: starcie gigantów
W benchmarku RAGAS badacze skupili się na ocenie streszczeń bez użycia metryk automatycznych. Zamiast ROUGE czy BLEU, postawili na oceny ludzi, którzy punktowali streszczenia za trafność, spójność, kompletność i styl.
Wynik? Claude 3 Opus zdeklasował konkurencję – zarówno pod względem faktów, jak i płynności. „Claude uzyskiwał spójne noty powyżej 4.8/5 w niemal każdym typie tekstu – od wiadomości po streszczenia dokumentów medycznych” – podkreślają autorzy.
Z kolei GPT-4-turbo, choć nieco niżej, był bardziej stabilny. „Model OpenAI radził sobie lepiej z dłuższymi tekstami i złożonymi kontekstami, ale zdarzały mu się uproszczenia i brak precyzji przy streszczeniach abstrakcyjnych” – czytamy.
RAGAS potwierdza też coś, co wcześniej było tylko hipotezą: modele różnią się nie tylko skutecznością, ale też charakterem błędów. Claude bywa nadmiernie elegancki i „wygładza” trudne treści, GPT-4-turbo gubi czasem szczegóły, a Gemini lubi skracać zbyt agresywnie.
SummBench: trudna prawda o halucynacjach
Najnowszy benchmark, SummBench 2025, jest brutalnie szczery: „Nawet najlepsze modele halucynują w co trzecim streszczeniu tekstów złożonych”. Autorzy przygotowali zestaw danych obejmujący teksty medyczne, prawnicze, edukacyjne i informacyjne, a następnie porównali modele LLM w zakresie zgodności faktów, długości streszczenia, kosztu i spójności z intencją użytkownika.
Wnioski? GPT-4-turbo i Claude 3 Sonnet wypadły najlepiej w streszczeniu dokumentów naukowych, ale i one popełniały błędy przy danych liczbowych lub cytatach. Modele Gemini Flash były błyskawiczne – streszczały w 1 sekundę – ale generowały uproszczenia i pominięcia kluczowych faktów.
Najgorzej wypadły modele otwartoźródłowe: „Mistral i LLaMA miały problem z zachowaniem terminologii, często parafrazując ją nieprecyzyjnie lub całkowicie opuszczając”.
Jakość vs długość: im krócej, tym prawdziwiej?
Jednym z ciekawszych wniosków z raportów FAU i SummBench jest relacja między długością streszczenia a jego rzetelnością. Streszczenia 50-tokenowe (2) – choć krótsze i mniej atrakcyjne stylistycznie – były najbardziej zgodne z faktami. Jak zauważają autorzy FAU: „factual consistency dramatycznie spada wraz ze wzrostem długości streszczenia”.
Z kolei ludzkie oceny w RAGAS preferowały dłuższe streszczenia – około 150 tokenów – które były postrzegane jako „pełniejsze” i „bardziej ludzkie”. Powstaje więc napięcie między subiektywną jakością a obiektywną poprawnością faktów. Dylemat: pisać pięknie czy pisać prawdę?
Kiedy szybkość ma znaczenie
W zastosowaniach operacyjnych – np. serwisy newsowe, chatboty, aplikacje mobilne – kluczowe staje się nie tylko „jak”, ale i „jak szybko”. Tu bezkonkurencyjny okazał się Gemini 1.5 Flash, który generował streszczenia w 1.08 sekundy przy średnim koszcie 0.00012 USD za jedno streszczenie.
„Gemini oferuje najlepszy stosunek jakość/koszt dla systemów produkcyjnych z ograniczonym budżetem” – piszą autorzy SummBench. Dla firm liczy się to bardziej niż detale syntaktyczne.
Halucynacje – czym są i dlaczego są groźne?
Nie chodzi o drobne błędy. Modele LLM „halucynują” – czyli tworzą treści, które brzmią prawdziwie, ale nie mają żadnego oparcia w źródłowym dokumencie. To może być nazwisko, data, konkluzja badania lub cytat, którego nigdy nie było.
„W testach na dokumentach medycznych 27% streszczeń zawierało przynajmniej jeden błąd merytoryczny, który mógłby wprowadzić czytelnika w błąd kliniczny” – ostrzega zespół SummBench. A w edukacji? „Uczeń może otrzymać streszczenie artykułu naukowego, które przekręca wnioski o 180 stopni”. W mediach? „Cytaty przypisywane osobom, które nigdy ich nie wypowiedziały”.
To nie tylko problem techniczny. To ogólnie problem zaufania.
Jaki model do czego? Praktyczny poradnik
Na podstawie wyników wszystkich trzech raportów, można stworzyć roboczą mapę zastosowań:
Zastosowanie | Rekomendowany model | Długość streszczenia |
---|---|---|
Medycyna/prawo | Claude 3 Opus / GPT-4-turbo | 50–100 tokenów (2) |
Media/news | GPT-4-turbo / Gemini Flash | 100–150 tokenów |
Chatboty | Gemini 1.5 Flash | 50–100 tokenów |
Aplikacje mobilne | Gemini 2.0 Flash | 50–100 tokenów |
Edukacja | Claude 3 Sonnet | 100–150 tokenów |
Finansowe analizy | DeepSeek-v3 | 50 tokenów |
Czego brakuje? I co dalej?
Choć badania stają się coraz bardziej zaawansowane, autorzy wszystkich trzech raportów są zgodni: to dopiero początek. Nadal brakuje wspólnego standardu oceny jakości streszczeń. Nadal zbyt wiele opiera się na metrykach, które nie korelują z intuicją użytkownika. Nadal brakuje danych z realnych wdrożeń.
Autorzy RAGAS podkreślają: „konieczne jest połączenie automatycznej oceny z oceną ludzką oraz oceną domenową”. W SummBench czytamy: „potrzebujemy benchmarków dostosowanych do różnych kultur, języków i sektorów gospodarki”.
A co o tym pisał zespół z FAU? „Nawet najlepszy model nie nadaje się do wszystkiego – trzeba dobierać go kontekstowo”.
Finał? To nie ranking. To ostrzeżenie
Nie daj się zwieść tabelkom. Nawet najlepszy model może się mylić. Nawet najpiękniejsze streszczenie może zawierać błąd, który zmienia sens.
Jak mówi cytat otwierający raport SummBench: „halucynacje nie są już wyjątkiem – są systemowe”.
A więc: zanim zaufasz streszczeniu, zadaj sobie pytanie – kto je napisał? I dlaczego?
———
(1) Uwaga: w raporcie FAU oceniano GPT-3.5-turbo jako oddzielny model, odróżniając go od nowszego GPT-4-turbo. Choć 3.5-turbo nie jest już rozwijany, był dostępny w czasie badania i uwzględniony jako samodzielna jednostka porównawcza.
(2) Token to jednostka tekstu, którą model językowy przetwarza jako podstawowy „klocek”. Nie jest to jednoznaczne ze słowem. Token może być:
- całym słowem (np. „pies”),
- częścią słowa (np. „auto” i „matyczny” jako osobne tokeny w słowie „automatyczny”),
- znakiem interpunkcyjnym (np. „,” lub „?” to oddzielne tokeny),
- a czasem nawet spacją (w niektórych tokenizerach).
Przykład: zdanie „To jest ważne.” może zostać podzielone na 4–6 tokenów, w zależności od systemu (np. BPE, WordPiece, SentencePiece).
Dlaczego tokeny są ważne w streszczeniach?
Modele językowe mają ograniczony kontekst wejściowy i wyjściowy liczony w tokenach. Oto, co z tego wynika:
1. Długość streszczenia jest liczona w tokenach
W badaniach (np. FAU, SummBench) streszczenia były generowane z limitem 50, 100 lub 150 tokenów. Nie chodziło o liczbę zdań czy słów, tylko dokładną liczbę tokenów, co pozwala precyzyjnie porównywać modele.
Dlaczego to ważne? Bo 150 tokenów to nie zawsze 150 słów. W języku angielskim to ok. 100–110 słów, w polskim może być mniej, ze względu na dłuższe wyrazy.
2. Długość streszczenia wpływa na jego jakość
- Krótsze streszczenia (np. 50 tokenów) były bardziej zgodne z faktami — modele miały mniej miejsca na „fantazjowanie”.
- Dłuższe streszczenia (np. 150 tokenów) były oceniane jako bardziej „ludzkie” i pełniejsze, ale częściej zawierały błędy merytoryczne.
To zjawisko nazwano „napięciem między spójnością faktów a postrzeganą jakością”.
3. Tokeny wpływają na koszt i czas działania
W systemach komercyjnych (np. OpenAI, Google, Anthropic) płacimy za liczbę tokenów – osobno za wejście (prompt) i wyjście (output).
Przykład: wygenerowanie streszczenia o długości 100 tokenów modelem GPT-4-turbo może kosztować 2–4 razy więcej niż tym samym modelem streszczenie 50-tokenowe.
W środowiskach produkcyjnych (np. chatboty, newsy, e-learning) kontrola liczby tokenów to realna oszczędność.
Token = miara, ograniczenie i decyzja redakcyjna
Można powiedzieć, że tokeny pełnią w AI rolę zbliżoną do znaków w tweetach albo linijek w depeszy agencyjnej:
- zmuszają do wyboru tego, co najważniejsze,
- ograniczają długość,
- wpływają na styl wypowiedzi.
Dlatego limity tokenów to nie tylko parametr techniczny — to redakcyjna decyzja, która wpływa na to, czy streszczenie będzie skrótem typu „headline”, esejem, czy może czymś pośrodku.