概要

OpenAI / Anthropic / Google Gemini / Groq / Azure OpenAI の 30 モデルを対象に、 ストリーミング API でレスポンスタイムを計測。同一ネットワーク環境での逐次実行による相対比較です。

TTFT

Time to First Token。リクエスト送信から最初のトークン到着までの時間(ms)。

Total Time

ストリーム完了までの合計時間(ms)。for-await ループ終了時点で計測。

Tokens/sec

outputTokens ÷ totalTime(秒)。生成速度の指標。usage 非対応モデルは 0。

モデル一覧

本調査では 5 プロバイダー・26 モデルを対象に計測しました。以下は計測対象モデルの一覧です。

ProviderModel LabelModel ID
OpenAIGPT-4.1gpt-4.1
OpenAIGPT-4.1 Minigpt-4.1-mini
OpenAIGPT-4.1 Nanogpt-4.1-nano
OpenAIGPT-4ogpt-4o
OpenAIGPT-4o Minigpt-4o-mini
OpenAIGPT-5.4gpt-5.4
OpenAIGPT-5.4 Minigpt-5.4-mini
OpenAIGPT-5.4 Nanogpt-5.4-nano
OpenAIGPT-5.4 Progpt-5.4-pro
OpenAIGPT-5.5gpt-5.5
OpenAIo3o3
OpenAIo4 Minio4-mini
AnthropicClaude Haiku 4.5claude-haiku-4-5
AnthropicClaude Opus 4.7claude-opus-4-7
AnthropicClaude Sonnet 4.6claude-sonnet-4-6
Google GeminiGemini 2.5 Flashgemini-2.5-flash
Google GeminiGemini 2.5 Flash Litegemini-2.5-flash-lite
GroqGroq Compoundgroq/compound
GroqGroq Compound Minigroq/compound-mini
GroqGroq GPT OSS 120Bopenai/gpt-oss-120b
GroqGroq GPT OSS 20Bopenai/gpt-oss-20b
GroqGroq GPT OSS Safeguard 20B (Preview)openai/gpt-oss-safeguard-20b
GroqGroq Llama 3.1 8B Instantllama-3.1-8b-instant
GroqGroq Llama 3.3 70Bllama-3.3-70b-versatile
GroqGroq Llama 4 Scout 17B (Preview)meta-llama/llama-4-scout-17b-16e-instruct
GroqGroq Qwen3 32B (Preview)qwen/qwen3-32b
Azure OpenAIAzure GPT-5.4gpt-5.4
Azure OpenAIAzure GPT-5.4 Nanogpt-5.4-nano
Azure OpenAIAzure GPT-5.4 Probarca-moeadte4-eastus2
Azure OpenAIAzure GPT-5.4o Minigpt-5.4o-mini

速度に関する調査結果

モデル別の平均レスポンスタイム(Avg Total Time)を比較しています。短文と中文を切り替えて傾向を確認できます。

プロンプト:OpenAIAnthropicGroqGeminiAzure

単位: ms(低いほど高速)

モデルを絞った調査

全26モデル比較の次段階として、レスポンス時間の短い 4 モデルへ絞って追加検証を実施しました。 ここからは max_tokens を変化させたときのレスポンスタイムの変化を確認します。

Groq GPT OSS 120B
Groq GPT OSS 20B
GPT-5.4 Mini
GPT-5.4 Nano

max_tokens とレスポンスタイムの関係

temperature=0 固定。short-1 / short-2 / medium-1 / medium-2 の 4 プロンプト平均。iterations=3。

Groq GPT OSS 120BGroq GPT OSS 20BGPT-5.4 MiniGPT-5.4 Nano

単位: ms(低いほど高速)

プロンプト × トークン数 × レスポンスタイム

max_tokens=512 / temperature=0 固定。iterations=1。

カテゴリ:Groq GPT OSS 120BGroq GPT OSS 20BGPT-5.4 MiniGPT-5.4 Nano

Avg Total Time (ms)

プロンプトモデル出力 TokensTTFT (ms)Total Time (ms)Tokens/sec
medium-1
中文: 説明
Groq GPT OSS 120B5122631,223419
Groq GPT OSS 20B5124781,162441
GPT-5.4 Mini3414842,251151
GPT-5.4 Nano3423422,542135
medium-2
中文: 比較
Groq GPT OSS 120B5122861,239413
Groq GPT OSS 20B512352718713
GPT-5.4 Mini5106813,561143
GPT-5.4 Nano4834023,627133

考察

GroqとGPT-5.4 系を比較すると、難しいタスクを要求するプロンプトほど両者の差が大きくなる傾向が見られました。特に長文プロンプトでは、Groq GPT OSS 120B が他を大きく引き離す結果となっています。

全体のまとめ

26モデル比較で、用途ごとに最適な速度帯は明確に分かれました。
max_tokens の設定は体感レスポンスに直結し、同一モデルでも調整効果が大きいことを確認しました。
長いプロンプト運用では、トークン管理とモデル選定を同時に設計することが重要です。
モデル選定が品質に対して大きな影響を与えます。

お問い合わせ

このベンチマークの知見をもとに、LLM を活用したサービスの開発をお手伝いします。 API 選定・統合開発・パフォーマンス最適化についてお気軽にご相談ください。

✉ お問い合わせフォームへ