Gib einen Text ein. Die initialen Tokens sind Zeichen. Bei jedem Schritt wird das häufigste Paar benachbarter Tokens zusammengeführt.
Eingabe & Steuerung
Hinweis: Leerzeichen werden immer als ␣ dargestellt.
Aktueller Token-Stream
Häufigkeiten benachbarter Token
Vokabular
Merge-Verlauf
Wie funktioniert BPE?
Starte mit einzelnen Zeichen als Token.
Zähle alle benachbarten Token-Paare im Text.
Merge das häufigste Paar zu einem neuen Token (z. B. t + h → th).
Wiederhole die Schritte 2 und 3 bis genug Merges durchgeführt wurden. Das Vokabular wächst um die neuen Token.
Hinweis: Dieses Tool demonstriert klassisches, zeichenbasiertes BPE pro Iteration (jeweils das häufigste adjazente Paar wird gemergt). Es ist eine didaktische Visualisierung und bildet bewusst nicht alle Details moderner Tokenizer nach.