LLM APIの価格体系について
LLMはmillion tokensあたりで請求し、input(プロンプト + コンテキスト)とoutput(モデルが返す内容)に別々に課金されます。出力は通常、入力の3〜5倍高価です。トークンは約4つの英語文字または単語の¾に相当します。
Cost = (input_tokens × input_$ / 1M) + (output_tokens × output_$ / 1M)
2026年の価格情勢
3つの階層が現れました:
- Frontier ($10–$75 / 1M tokens): Claude Opus 4.7、GPT-5、Gemini 3.1 Pro — 最高レベルの推論・ビジョン・長文コンテキスト
- Workhorse ($1–$5 / 1M): Claude Sonnet 4.6、GPT-5 mini、Gemini 2.5 Flash — フロンティアクオリティの90%、価格の10〜20%
- Budget ($0.10–$1 / 1M): Claude Haiku 4.5、GPT-5 nano、DeepSeek V3、Llama 3.3 70B(Groq/Together経由)— タグ付け、分類、シンプルなチャットに最適
本当の節約が生まれる場所
価格設定は簡単なレバーです;architectural levers move 2–10× more cost:
- Prompt caching — 繰り返されるシステムプロンプトとRAGコンテキストは、通常価格の約10%でキャッシュされます。70%以上のキャッシュヒット率はチャット/エージェントアプリで現実的です。入力料金を75〜90%削減します。
- Batch API — 最大24時間待てるジョブに対して50%割引。バックフィル、評価、文書処理パイプラインに最適。
- Tiered routing — シンプルなやり取りは安価なモデルに送り、必要な時だけフロンティアモデルにエスカレーションします。一般的なアシスタントで混合コストが半減します。
- Reasoning budgets — oシリーズとClaude拡張思考では、thinkingトークンを制限してください。デフォルトのthinkingで出力コストが5〜10倍に膨れ上がる可能性があります。
- Self-hosted open weights — H100 1台でのLlama 3.3 70Bは80%以上の稼働率で〜$0.20/Mトークン;1日50Mトークン以上の場合のみ価値がある。
比較表の見方
テーブルはあなたの入力での月間支出でソートされます。ほとんどのアプリはinput-heavyです(RAG、長文書、システムプロンプト)、入力価格が総コストを支配します。短いプロンプトと長い補完のチャットスタイルのアプリはoutput-heavyです — 出力価格が支配します。
その他のコスト考慮事項
- Context window: より長いコンテキスト = より良い検索だが、より多くの入力トークン = より高いコスト
- Vision / image input: 画像はトークンに変換されます(通常、画像1枚あたり200〜1,200トークン)
- Tool use / function calls: ツール定義は、キャッシュされない限りすべてのターンで入力としてカウントされます
- Fine-tuning: トレーニング費用 + 通常ベースモデルの2〜4倍の推論費用
特定のプロンプトを推定するために当社の Prompt Cost Calculator、プロジェクトレベルのシナリオには AI Model Cost Calculator、LLMコストと置き換える人件費を比較するには AI ROI Calculator と組み合わせてください。
重要な注意事項: 価格は2026年5月時点のものであり、頻繁に変動します。契約を締結する前に、プロバイダーの公式価格ページ(Anthropic、OpenAI、Google AI、Together、DeepSeek)で必ず確認してください。ボリュームディスカウント、地域別価格設定、Azure/Bedrockのマージンにより、実効レートが10〜30%変動する可能性があります。
関連する計算機
- AI Model Cost Calculator — GPT-4o、Claude、Gemini、Llamaを含む100以上のLLMのAPIの価格を比較。正確なトークンコストを計算。
- AI vs Human ROI Calculator — AIツールのコストと人件費を比較。月次節約額、年間ROI、ライブモデル価格での損益分岐点。
- Prompt Cost Calculator — プロンプトを貼り付け、モデルを選択し、即座に使用するトークン数と送信コストを確認。