
Czy sztuczna inteligencja ma „ulubione” słowa? Tak, te na początku tekstu
Myślimy, że sztuczna inteligencja czyta teksty jak człowiek – od początku do końca. To złudzenie. Nowe badania z MIT i Stanford pokazują, że modele językowe, takie jak ChatGPT, są konstrukcyjnie „zaprogramowane”, by zwracać większą uwagę na początek tekstu – nawet jeśli to nie tam znajduje się najważniejsza informacja.
Znacznie mniej uwagi poświęcają temu, co dzieje się w środku.
Co wykryli badacze?
Opublikowany w czerwcu 2025 roku preprint On the Emergence of Position Bias in Transformers* analizuje wewnętrzne mechanizmy działania modeli typu transformer. Naukowcy wykazali, że z powodu tzw. maski causal – czyli zasady, według której model widzi tylko wcześniejsze tokeny (fragmenty tekstu) – im głębsza warstwa modelu, tym bardziej koncentruje się na początku.
Działa to jak echo: każda kolejna warstwa wzmacnia uwagę skierowaną na pierwsze słowa, a środek tekstu „blednie”. Nie chodzi o treść, dane ani temat – to strukturalna cecha architektury modelu.
To zjawisko, znane jako lost in the middle, było już wcześniej obserwowane (m.in. przez Anthropic w 2023 roku). Ale dopiero teraz rozumiemy jego przyczynę: to efekt skumulowanej struktury działania transformera, a nie przypadek ani niedopatrzenie.
Jak to działa?
AI patrzy jak przez dziurkę od klucza: Kiedy AI „czyta” tekst, nie widzi wszystkiego naraz. Używa tzw. maski uwagi, która kieruje jej wzrok głównie na to, co znajduje się na początku. Dalej – widzi coraz mniej wyraźnie.
Z każdą warstwą jest gorzej: Duże modele, jak ChatGPT, mają wiele warstw „myślenia”. W każdej kolejnej warstwie efekt skupienia na początku się pogłębia. To tak, jakbyś czytał książkę i z każdą stroną pamiętał coraz mniej – poza pierwszym rozdziałem.
Co z tego wynika?
• Środek tekstu często „znika” z pola widzenia AI
• Streszczenia są lepsze na początku, słabsze w środku
• Niektóre słowa przyciągają uwagę AI bez powodu – to tzw. „pułapki uwagi”
Dlaczego to jest ważne?
Bo jeśli chcemy, by AI rozumiała tekst jak człowiek, musi analizować go całościowo, nie tylko od frontu. Inżynierowie próbują ten problem rozwiązać – zmieniając m.in. architekturę uwagi i sposób kodowania pozycji tokenów. Ale zanim pojawią się nowe modele, potrzebujemy praktycznych metod dla użytkowników.
Co możemy zrobić już teraz? (czyli jak pisać prompty mądrzej)
Nie możemy zmienić architektury modelu, ale możemy wpływać na to, gdzie model kieruje uwagę. Oto gotowy akapit promptu, który pozwala ukierunkować analizę tekstu tak, by środek nie został pominięty:
Przeczytaj poniższy tekst uważnie i równomiernie – nie skupiaj się tylko na początku ani na końcu. Zależy mi na pełnej analizie całego materiału, ze szczególnym uwzględnieniem tego, co znajduje się w środku tekstu i często bywa pomijane. Odpowiedź ma być precyzyjna, bez powtórzeń, z wyraźnym wskazaniem detali i niuansów, które mogą umykać przy pobieżnym czytaniu.
To jedno zdanie nie zmienia modelu. Ale zmienia twój wpływ na to, gdzie model „patrzy”. A w świecie prompt engineeringu – to potrafi zrobić ogromną różnicę.
*arXiv:2502.01951v3