トークンマキシングから、トークン最適化へ
私が目にするどのAI請求書にも、ある矛盾がある。トークンの単価はほとんど動いていないのに、請求額は上がり続ける — しかも速く。この二つは同時に成り立っていて、その理由は一度見えてしまえばとても単純だ。AIのコストはこれからも増え続ける。 誰かが払い過ぎているからではなく、逆転することのない構造的な理由によってだ。本当に意味のある問いは、請求額をどう小さくするかではない。1つひとつのトークンが実際には何を買っているのかを知ることだ — というのも、これから見ていくように、すべてのトークンが同じ意味で使われているわけではないからだ。
このパラドックスには名前がある
1860年代、ウィリアム・ジェヴォンズは石炭について奇妙なことに気づいた。蒸気機関の効率が上がるにつれて、イギリスは石炭の使用を減らすどころか、むしろ増やした。資源をより安く、より効率的に使えるようになったことで、それがあまりに有用になり、総消費量は効率の改善よりも速く増えていったのだ。同じことがコンピューティングでも、帯域幅でも、クラウドストレージでも起きた。単位あたりが安くなるたびに、私たちはあまりに多くの新しい用途を見つけ、総支出はむしろ増えていった。
次はトークンの番だ。そしてこれが、請求額が上がり続ける原動力でもある。トークンの単価は横ばいか下落傾向にある。モデルは四半期ごとに安く、賢くなっていく。だが、まさにそれこそが支出を押し上げる理由だ。安く賢いエージェントは、高価で愚かなエージェントには到底できなかったほど多くの仕事に差し向けられる。高くなったのはモデルではない。その周りのシステムであり、私たちはそれをずっと多く作り込んだのだ。
2024年と2026年
2024年には、1つのタスクは基本的にモデルへの1回の呼び出しだった。質問を入れれば答えが返ってくる。せいぜいウェブ検索が付く程度だ。典型的なやり取りは数セント。1日あたりのリクエスト数に2セントを掛ければ、ナプキンの裏で予算が組めた。トークン戦略など誰にも要らなかった。
2026年には、1つのタスクはエージェントのチーム全体だ。メインエージェントが仕事を計画し、その一部を処理するために補助エージェントを生成し、ときにはタスクの途中で新しいものを作り出す。別のエージェントが結果をチェックし、失敗をやり直しに差し戻す。これらのエージェントはどれも、一歩進むごとに膨らんでいく自分の履歴を読み直しながら、ツール — ウェブ、コード、ファイル、ブラウザ、メモリ — に手を伸ばす。
真ん中にいるモデルは同じモデルだ。だが、その周りのシステムは見る影もなく変わった。いまや金が消えていくのはそこ — モデルそのものではなく、その周りに巻きついたすべて — だ。そしてその「巻きつき」は、エージェントがより難しい仕事を引き受けるほど膨らんでいく。
ガソリン、距離、そして燃費
私がこれを整理して考えるときに使うのが、ロードトリップ(クルマの旅)のたとえだ。変数はちょうど3つしかない。
モデルの価格はガソリン価格だ。ほぼ横ばい。あなたのレバー(操作できる要素)ではないし、請求額が上がっていく原因でもない。
距離は、エージェントがあなたを必要とするまでに自力でどこまで進めるか — そしてこの距離は急速に伸びている。AIが人の手を借りずに完了できるタスクの長さを測定する研究グループ、METRは、この到達距離が何年にもわたって一定のペースで倍々に伸び、近ごろではさらに加速していることを突き止めた。これは比喩ではなく、測定されたトレンドだ。そして距離こそ、あなたが伸ばしたいもの — 価値があるのはそこだ。長い旅ができることこそ、クルマを持つ意味そのものなのだから。
燃費は、3つのうちあなたが実際にコントロールできる唯一のものだ。燃料のうち、どれだけが前進する力に変わるか、と考えればいい。
燃費 = 成果を生んだトークン ÷ 燃やしたすべてのトークン
これは上げたい数字だ。分母はあなたが燃やすすべて — そして無駄のほとんどは、エージェントが一歩進むごとに自分の履歴全体を読み直し、その重さをすべて道連れに引きずっていくことから来る。トークンマキシングは、クルマがどこまで行けるかを見るためにアクセルを床まで踏むことだった。トークン最適化は、燃料1タンクのより多くが距離に変わるようエンジンを調整することだ。
つまり旅のコストはこうなる。ガソリン価格 × 距離 ÷ 燃費。 これは計算式というより方向を読むものだ。エージェントが遠くまで行くほど支払いは増え、燃費が良いほど減り、ガソリン価格はどちらにもほとんど効かない。そして、長く走るほどクルマは重くなる — 一歩ごとに自分の履歴を読み直すからだ — ので、長いタスクは短いタスクより「少し高い」のではなく「はるかに高く」つく。
すべてのトークンが同じ意味を持つわけではない
これが、全体の管理の仕方を変える考え方だ。請求書に並ぶ「トークン」という一語は、まったく異なる3種類の支出を覆い隠している。発見への支出とは、何が効くのかを突き止めること — 新しいアイデア、エージェントの新しい使い方、まだ誰も試していない何か。その見返りは成果物ではなく学びであり、たった1回の実行が、1000時間を節約する手がかりを明らかにすることもある。成果への支出とは、わかっている結果を生み出すこと — 仕上がったレポート、直ったバグ。見返りはそのもの自体だ。無駄な支出は何も買わない — 引きずられる死荷重、小さな仕事に過剰なモデルを使うこと、すべて同じ袋小路に突き当たる並列の試行。
ほとんどの人が犯す間違いは、「トークン」という1行を見て、その合計額にうろたえ、上限を設けようと手を伸ばすことだ。だが上限は、3つすべてを見境なく切り落とす。発見に上限をかければ未来が見えなくなり、成果に上限をかければ現在を絞めつける。切るべきは無駄だけ — そして一律の制限は、その違いを見分けられないまさにその道具だ。だからこそ、最高のエンジニアに対してトークンの問題としてノーと言うことはできない。その人が、上限をかけるなど正気の沙汰でない「発見」に使っているのか、それとも本人を締め上げずに直すべき「無駄」を漏らしているのか、あなたにはわからないからだ。請求書はそれを教えてくれない。支出の意味を知らなければならない。
だからリーダーが行う最も重要なことは、ある仕事がどのモードにあるのかを決めることだ。実験は発見を買っている。上限を設けず、コスト/トークンではなく、留める価値のある何かを見つけたかどうかで判断する。ここはトークンマキシングがずっと正しかった領域だ — 何が刺さるかまだわからないからこそ、壁にいろいろ投げつけるのだ。本番運用は成果を買っている。ここでは厳しく測る。完了したタスクあたりのコストであって、トークンあたりのコストでは決してない。チームがたどり着いた最も鋭いやり方は節約された時間だ — そのタスクをAIなしで人がやったらどれだけかかったかを見積もり、AIでかかった時間と比べ、実際に何かを生み出した実行だけを数える。Anthropic、METR、Cognitionは、まさにこれを行う手法 — トークンを時間に、時間をドルに換える方法 — をそれぞれ公開している。トークン最適化が生きるのはここで、しかもそれはエージェントが機能するとすでにわかった後に効いてくる。まず探索し、それから活用する。仕事の本質は絶え間ない仕分けだ — どれがまだ実験で、どれが測定された本番運用への昇格を勝ち取り、どれは単に打ち切るべきか。この2つのモードを混同すると、予算編成は不可能に感じられる。成功の定義が正反対の2つの活動に、1つのルールを当てはめているからだ。
結論
知能のコストはゼロに向かう。だが自律性のコストはそうではない — 上がり続けるし、これからも上がる。なぜなら距離には天井がなく、節約のすべてはより多くの仕事に注ぎ込まれるからだ。だからまず受け入れよう。あなたのAIの請求額は上がっていく。むしろ横ばいの請求書は、たいていその会社がまだAIを使いこなせていないことを意味する。それを織り込んで予算を組もう。とはいえ、上がるとは「無制限」という意味ではない — お金は有限であり、コントロールはやはり重要だ。罠は、コントロール=請求額を小さくすること、だと思い込むことにある。コントロールとは、1つひとつのトークンについて、それが発見を買ったのか、成果を買ったのか、それとも何も買わなかったのかを知り、無駄だけを切ることだ。
ガソリン価格はあなたのレバーではない。距離が価値だ。燃費が技術 — そしてその燃費をどう調整し、チームを遅らせずに請求額を削るかは、それ自体で一つのテーマだ。それは次回の記事に譲る。これからの数年を制する企業は、最も少なく使った企業ではない — おそらく最も多く使い、そのうえで1つひとつのトークンが何を買ったのかを正確に知っていた企業だろう。