Byte Pair Encoding Visualizer

Gib einen Text ein. Die initialen Tokens sind Zeichen. Bei jedem Schritt wird das häufigste Paar benachbarter Tokens zusammengeführt.

Eingabe & Steuerung
Hinweis: Leerzeichen werden immer als dargestellt.
Aktueller Token-Stream
Häufigkeiten benachbarter Token
Vokabular
Merge-Verlauf
Wie funktioniert BPE?
  1. Starte mit einzelnen Zeichen als Token.
  2. Zähle alle benachbarten Token-Paare im Text.
  3. Merge das häufigste Paar zu einem neuen Token (z. B. t + hth).
  4. Wiederhole die Schritte 2 und 3 bis genug Merges durchgeführt wurden. Das Vokabular wächst um die neuen Token.

Hinweis: Dieses Tool demonstriert klassisches, zeichenbasiertes BPE pro Iteration (jeweils das häufigste adjazente Paar wird gemergt). Es ist eine didaktische Visualisierung und bildet bewusst nicht alle Details moderner Tokenizer nach.