
Tokeny, czyli jak sztuczna inteligencja „czyta” tekst. Przewodnik dla ludzi
Czy AI naprawdę rozumie, co czyta? Dlaczego liczy tekst nie w słowach, a w tokenach? I czy to oznacza, że płacimy za przecinki?
To pytania, które wracają niemal na każdym moim szkoleniu czy wykładzie o sztucznej inteligencji. A odpowiedź – choć techniczna – da się wytłumaczyć prosto.
Oto wszystko, co trzeba wiedzieć o tokenach, żeby lepiej zrozumieć, jak działa generatywna AI.
✅ My liczymy w słowach lub znakach, AI w tokenach
Co to w ogóle jest token? Token to jednostka tekstu, którą model AI przetwarza. Nie jest tym samym co słowo, ani tym bardziej litera. Token może być:
- całym słowem (np. „dom”)
- częścią słowa (np. „auto” i „matyczny” w „automatyczny”)
- znakiem interpunkcyjnym (np. „,” to oddzielny token)
- czasem nawet spacją lub końcem linii.
Tokeny dla AI są tym, czym dla nas są słowa lub znaki. To dla AI jak klocki LEGO.
Niektóre są duże, inne mniejsze, ale to właśnie nimi buduje się wszystko – od najprostszych odpowiedzi po skomplikowane analizy.
✅ Dlaczego AI dzieli tekst na tokeny, a nie po prostu na słowa?
Modele językowe, takie jak GPT czy Claude, nie „czytają” tekstu jak człowiek. One analizują go matematycznie – jako ciąg symboli. A dzielenie tekstu na tokeny pozwala im:
uprościć obliczenia
– nie muszą znać każdego słowa w każdym języku, wystarczy, że potrafią składać je z częścilepiej radzić sobie z rzadkimi słowami
– np. nazwiskami, neologizmami czy wyrazami obcymi.unikać błędów interpretacyjnych
– np. przy skrótach, liczbach czy symbolach.
To trochę jak z czytaniem SMS-ów: wystarczy kilka liter, by zrozumieć całość. AI działa podobnie – „domyśla się”, co oznaczają ciągi tokenów, i uczy się na tej podstawie.
✅ Policzenie tokenów nie jest proste
Ile tokenów ma normalne zdanie? To zależy. Przykład:
- „To jest bardzo ważne.” dla modelu GPT-4 to 6 tokenów: „To”, „jest”, „bardzo”, „waż”, „ne”, „.”
- inne modele mogłyby podzielić to inaczej.
W uproszczeniu można przyjąć:
- 100 tokenów ≈ 70–80 słów po angielsku,
100 tokenów ≈ 60–70 słów po polsku (bo mamy dłuższe słowa).
Czyli jeśli mówimy, że streszczenie ma limit 150 tokenów, to AI może wygenerować ok. 100–110 słów – mniej więcej jeden dobrze rozbudowany akapit.
✅ Dlaczego AI tak skrupulatnie liczy tokeny?
Po co się to wszystko liczy? Bo tokeny są dla AI tym, czym bajty są dla komputera.
Liczą się wszędzie:
1. W jakości odpowiedzi
Modele językowe mają ograniczoną „pamięć roboczą” – kontekst, który mogą przetworzyć naraz. Dla GPT-4 to np. 128 000 tokenów (czyli mniej więcej 300 stron tekstu). Jeśli włożymy za dużo, model „zapomni” początek albo skróci odpowiedź, raz lepiej, raz gorzej.
2. W długości streszczeń
Kiedy AI streszcza tekst, użytkownik (lub badacz) często ustala limit tokenów. Można poprosić o streszczenie w 50, 100 lub 150 tokenach – to wpływa na długość, ale też na styl i zawartość treści.
Źródła:
• Florida Atlantic University – https://www.fau.edu/newsdesk/articles/chatgpt-hallucinations.php
• SummBench: Benchmarking Summarization with Human Preference Data – https://arxiv.org/abs/2401.13452
3. W kosztach
Korzystając z modeli komercyjnych przez API (np. OpenAI), płacimy za liczbę tokenów – osobno za dane wejściowe (prompt) i osobno za odpowiedź.
Przykład: 1000 tokenów = ok. 0,01–0,03 USD (w zależności od modelu).
Złożone pytanie plus długa odpowiedź może więc kosztować kilkanaście groszy – a w firmach: tysiące dolarów miesięcznie. W dużych firmach – dziesiątki tysięcy dolarów miesięcznie.
4. W czasie działania
Więcej tokenów = więcej czasu na obliczenia. Dla aplikacji czasu rzeczywistego (chatboty, systemy newsowe, streszczanie dokumentów) im krócej, tym szybciej i taniej.
✅ Uwaga: subskrypcja zmienia perspektywę kosztów
Warto dodać, że w przypadku korzystania z modelu AI w ramach miesięcznej subskrypcji (np. ChatGPT Plus), liczba tokenów zużytych w pojedynczym zapytaniu nie wpływa bezpośrednio na koszt użytkownika.
Płaci się stałą miesięczną stawkę, niezależnie od tego, czy wykorzysta się 10 zapytań po 50 tokenów, czy 100 zapytań po 2000 tokenów.
Nie oznacza to jednak, że tokeny przestają mieć znaczenie:
- Nadal wpływają na jakość odpowiedzi
- Nadal ograniczają „pamięć” modelu w danym wątku
- Nadal decydują o tym, czy model zinterpretuje kontekst poprawnie
Stała cena nie znosi ograniczeń technicznych. Dla osób korzystających z modeli do pracy – liczy się nie tylko koszt, ale też efektywność i precyzja.
Ten aspekt warto wziąć pod uwagę, planując zastosowania AI w codziennej praktyce lub w firmie.
✅ Różnice między tokenizerami i modelami
Tokenizacja to proces, w którym tekst jest dzielony na mniejsze jednostki – tokeny – przed przetwarzaniem przez model. Każdy model językowy ma swój tokenizer.
Na przykład:
- Modele GPT-4 używają tokenizerów opartych na bibliotece
tiktoken
(np.cl100k_base
) - Claude czy Gemini korzystają z własnych, zamkniętych tokenizerów
- Tokenizacja wpływa na liczbę tokenów oraz na to, jak model rozumie ciągi znaków – nawet drobna różnica (np. spacja lub kreska) może skutkować innym podziałem.
Rozumienie, jak działa tokenizer danego modelu, pozwala lepiej planować prompty, minimalizować koszty i unikać nieoczekiwanych efektów (np. skrócenia kontekstu lub błędów analizy).
✅ Czy długość streszczenia ma znaczenie?
Badania (FAU, SummBench) pokazały, że długość streszczenia – liczona w tokenach – wpływa bezpośrednio na jakość:
Krótsze streszczenia (np. 50 tokenów) są bardziej zgodne z faktami. AI nie ma miejsca, żeby „fantazjować”, więc trzyma się źródła.
Dłuższe (150 tokenów) wyglądają lepiej, są bardziej rozbudowane, ale częściej zawierają błędy merytoryczne – tzw. halucynacje.
Dlatego w praktyce długość streszczenia jest decyzją redakcyjną:
- W newsach liczy się szybkość → krócej
- W edukacji liczy się kompletność → dłużej
- W medycynie liczy się dokładność → najlepiej krótko i bez przekłamań.
✅ Czy tokeny wpływają na styl wypowiedzi?
Tak i to bardzo. Im mniej tokenów ma do dyspozycji AI, tym bardziej musi kompresować treść:
- unika ozdobników
- usuwa dygresje
- rezygnuje z metafor
Z kolei przy większej liczbie tokenów może sobie pozwolić na:
- lepsze wprowadzenia
- pełniejsze opisy
- synonimy i parafrazy
To jak limit znaków na Twitterze – kiedyś 140, dziś 280. Różnica? Zmienia ton i sposób wyrażania myśli.
✅ Tokeny mają wpływ na wszystko
Tokeny to najważniejsza jednostka, o której nie mówi się wystarczająco głośno, bo to skomplikowana kwestia. Mają wpływ na wszystko:
- Czy model dobrze zrozumie kontekst.
- Czy Twoja odpowiedź będzie pełna.
- Czy zapłacisz 5 groszy czy 5 złotych.
- Czy dostaniesz streszczenie zgodne z faktami, czy błędne.
Wiedząc, czym są tokeny, możesz lepiej korzystać z AI:
- Ustalaj limity tokenów, jeśli potrzebujesz krótkiej odpowiedzi.
- Skracaj swoje pytania, jeśli chcesz obniżyć koszt.
- Oceniaj streszczenia także po długości – nie tylko po wyglądzie.
✅ Token to waluta czasu i pamięci w świecie AI
Na koniec: tokeny są jak czas – nie są za darmo.
Token to waluta czasu i pamięci w świecie sztucznej inteligencji. Jeśli zrozumiesz, jak działają, zyskasz więcej kontroli nad tym, co AI Ci daje – i co za to płacisz, jeśli płacisz w kontekście API.