NA ŻYWO
AI wychodzi z czatu. Wchodzi do świata Sztuczna inteligencja trafia pod nadzór AI przestaje być modelem. Staje się infrastrukturą. Co to jest SLM? Small Language Model — mały, ale zdolny Co to jest open source AI? Modele AI dostępne dla każdego Co to jest Ollama? Uruchom modele AI na swoim komputerze
CYTRYNA.AI
Słownik AI

Co to jest token w AI? Tokenizacja modeli językowych

Token to najmniejsza jednostka tekstu, jaką przetwarza model językowy — może być słowem, fragmentem słowa lub znakiem. GPT-4 ma limit 128 000 tokenów w jednym zapytaniu.

ChatGPT czyta Twoje wiadomości inaczej, niż Ci się wydaje. Nie widzi słów. Widzi tokeny — kawałki tekstu, które mogą być całym słowem, fragmentem słowa albo pojedynczym znakiem. I to właśnie ta różnica sprawia, że wysyłanie długich tekstów po polsku kosztuje więcej niż po angielsku.

Czym dokładnie jest token?

Weź słowo "tokenizacja". Po angielsku: jeden token. Po polsku — ta sama długość, ale model rozbija je na 3–4 tokeny, bo polskie końcówki i odmiany rzadziej pojawiały się w jego danych treningowych. Im rzadsze słowo, tym więcej kawałków. Emoji i znaki specjalne to często osobne tokeny.

W praktyce 1000 tokenów to mniej więcej 750 słów po angielsku albo 600 po polsku. Miej to w głowie zanim wkleisz długi dokument.

Ile tokenów mają popularne modele?

  • GPT-4o: 128 000 tokenów — to ok. 300 stron A4 tekstu naraz
  • Claude 3.7 Sonnet: 200 000 tokenów — ok. 450 stron
  • Gemini 1.5 Pro: 1 000 000 tokenów — ok. 1500 stron

Brzmi jak dużo? Jest. Ale pamiętaj, że w tym oknie mieści się całe zapytanie — Twoja instrukcja, historia rozmowy, wklejone dokumenty i odpowiedź modelu razem.

Dlaczego to ma znaczenie dla Twojego portfela?

API modeli rozlicza się za tokeny — osobno za wejście (co wysyłasz) i wyjście (co dostajesz). Dłuższy kontekst = wyższy rachunek. Dlatego dobry prompt to często też krótszy prompt — bez zbędnych wstępów i powtórzeń.

Często zadawane pytania

Czy mogę sprawdzić ile tokenów zużywa mój tekst?

Tak. OpenAI ma narzędzie online: platform.openai.com/tokenizer. Wklej tekst, zobaczysz dokładną liczbę tokenów dla modeli GPT. Dla Clauda podobne narzędzie znajdziesz w dokumentacji Anthropic.

Co się dzieje gdy skończy się limit tokenów?

Model albo zwraca błąd, albo — w interfejsach chatowych — po cichu "zapomina" najstarsze wiadomości. To dlatego długie rozmowy z ChatGPT mogą się "gubić" — bot przestaje pamiętać co mówiłeś godzinę temu.

Czy token to to samo co "słowo" w liczeniu opłat?

Nie. Wiele firm marketingowych liczy "słowa" w swoich narzędziach, ale modele liczą tokeny. Przy polskim tekście różnica potrafi sięgać 30–40% — płacisz więcej niż myślisz.

Token to atomowa jednostka przetwarzania w architekturze transformerowej. Tokenizator (np. BPE — Byte Pair Encoding, używany przez GPT; SentencePiece — używany przez modele Google) dzieli sekwencję znaków na podciągi słownikowe przed wejściem do modelu.

Właściwości tokenizacji

  • Zależność od języka: języki z bogatą fleksją (polski, czeski, węgierski) generują więcej tokenów per słowo niż angielski — typowo 1.3–1.6× więcej tokenów przy tej samej treści
  • Subword tokenization: rzadkie słowa są rozbijane na znane podciągi; "zautomatyzowanego" → "zautomaty", "zo", "wanego" (przykład orientacyjny)
  • Specjalne tokeny: modele używają tokenów kontrolnych (BOS, EOS, PAD, MASK) niewidocznych w interfejsie

Okna kontekstowe modeli (2025–2026)

  • GPT-4o: 128k tokenów wejście / 16k wyjście
  • Claude 3.7 Sonnet: 200k / 64k (extended thinking)
  • Gemini 2.0 Flash: 1M / 8k
  • Llama 3.1 405B: 128k / 128k

Implikacje dla kosztów API

Opłaty są naliczane osobno za tokeny wejściowe (prompt + kontekst + dokumenty) i wyjściowe (wygenerowana odpowiedź). Cache'owanie promptów (Anthropic prompt caching, OpenAI cached inputs) redukuje koszty przy powtarzalnych prefixach o 50–90%. Przy projektowaniu systemów RAG lub agentów warto kalkulować średni koszt per wywołanie z uwzględnieniem cache hit ratio.

Często zadawane pytania

Czy liczba tokenów wpływa na jakość odpowiedzi?

Pośrednio. Zbyt krótki kontekst może nie zawierać niezbędnych informacji. Zbyt długi — model może tracić skupienie na kluczowych fragmentach (efekt "lost in the middle": modele lepiej "pamiętają" początek i koniec kontekstu niż środek).

Czym różni się tokenizacja GPT od Claude?

GPT używa cl100k_base (100 277 tokenów w słowniku), Claude używa własnego tokenizatora Anthropic opartego na BPE z rozszerzonym słownikiem. Przy tej samej treści po polsku Claude generuje zazwyczaj nieznacznie inną liczbę tokenów niż GPT-4.