AIのトークンとは?仕組み・数え方・コスト計算をわかりやすく解説
ひとことで言うと
トークンとは、LLMがテキストを処理する際の最小単位。単語、サブワード、文字などに分割され、モデルの入出力制限やAPI料金の基準となる。日本語は英語より多くのトークンを消費する傾向がある。
トークンの基本概念
トークンとは、大規模言語モデルがテキストを処理する際に使用する最小単位である。英語では概ね1単語が1トークンに近いが、長い単語は複数トークンに分割される。日本語ではひらがな1文字が1トークンになることもあれば、漢字1文字が2-3トークンになることもある。トークナイザーと呼ばれるアルゴリズムがテキストをトークンに変換し、各トークンは数値ID(トークンID)としてモデルに入力される。BPE(Byte Pair Encoding)やSentencePieceが代表的なトークナイゼーション手法である。
トークン数がAI利用に与える影響
トークンはLLM利用の3つの側面に直結する。第一にコンテキストウィンドウ。モデルが一度に処理できるトークン数の上限であり、GPT-4oでは128Kトークン、Claude 3.5では200Kトークンが上限である。入力と出力の合計がこの制限内に収まる必要がある。第二にAPI料金。OpenAIやAnthropicのAPIは入力トークンと出力トークンの数に基づいて課金される。第三にレスポンス速度。トークン数が多いほど処理時間が長くなる。
日本語トークンの特殊性
日本語は英語に比べてトークン効率が低い。同じ意味の内容でも、日本語テキストは英語の1.5倍から2倍のトークンを消費することがある。これはLLMのトークナイザーが英語テキストを中心に学習されていることに起因する。したがって、日本語でAI APIを利用する場合、同じ文章量でも英語より高いコストがかかる。プロンプトを簡潔にまとめる、英語でプロンプトを書いて日本語で出力させるなどの工夫でコスト最適化が可能である。
トークン数の計算と最適化
トークン数の見積もりにはOpenAIのTiktokenライブラリやWebツールが利用できる。日本語テキストの場合、おおよそ1文字あたり1-3トークン、英語は1単語あたり1-1.5トークンが目安となる。コスト最適化のポイントとして、システムプロンプトの簡潔化、不要なコンテキストの削除、出力トークン数の上限設定がある。また、RAGでは検索結果のチャンクサイズを最適化することで、トークン消費を抑えつつ回答品質を維持できる。
AI偏差値テストとの関連
この概念は、AI偏差値テストの以下の測定次元と関連しています。
この知識が特に重要な職種
よくある質問
Q. 1トークンは何文字に相当する?
英語では約4文字(約0.75単語)が1トークンに相当します。日本語では1文字が1〜3トークンになることがあり、平均すると1文字あたり約1.5トークンが目安です。正確なトークン数はトークナイザーツールで確認できます。
Q. トークン制限を超えた場合どうなる?
APIの場合はエラーが返されます。チャットインターフェースでは、古い会話履歴が自動的に切り捨てられることがあります。長い文書を処理する場合は、テキストを分割して処理するか、より大きなコンテキストウィンドウを持つモデルを選択する必要があります。
Q. トークンコストを削減する方法は?
プロンプトの簡潔化、不要な会話履歴の削除、出力トークン数の上限設定、適切なモデルの選択(軽量モデルの活用)が効果的です。また、キャッシュ機能を活用して同じクエリに対する再計算を避けることも有効です。