OpenAI / Anthropic / Google Gemini / Groq / Azure OpenAI の 30 モデルを対象に、 ストリーミング API でレスポンスタイムを計測。同一ネットワーク環境での逐次実行による相対比較です。
Time to First Token。リクエスト送信から最初のトークン到着までの時間(ms)。
ストリーム完了までの合計時間(ms)。for-await ループ終了時点で計測。
outputTokens ÷ totalTime(秒)。生成速度の指標。usage 非対応モデルは 0。
本調査では 5 プロバイダー・26 モデルを対象に計測しました。以下は計測対象モデルの一覧です。
| Provider | Model Label | Model ID |
|---|---|---|
| OpenAI | GPT-4.1 | gpt-4.1 |
| OpenAI | GPT-4.1 Mini | gpt-4.1-mini |
| OpenAI | GPT-4.1 Nano | gpt-4.1-nano |
| OpenAI | GPT-4o | gpt-4o |
| OpenAI | GPT-4o Mini | gpt-4o-mini |
| OpenAI | GPT-5.4 | gpt-5.4 |
| OpenAI | GPT-5.4 Mini | gpt-5.4-mini |
| OpenAI | GPT-5.4 Nano | gpt-5.4-nano |
| OpenAI | GPT-5.4 Pro | gpt-5.4-pro |
| OpenAI | GPT-5.5 | gpt-5.5 |
| OpenAI | o3 | o3 |
| OpenAI | o4 Mini | o4-mini |
| Anthropic | Claude Haiku 4.5 | claude-haiku-4-5 |
| Anthropic | Claude Opus 4.7 | claude-opus-4-7 |
| Anthropic | Claude Sonnet 4.6 | claude-sonnet-4-6 |
| Google Gemini | Gemini 2.5 Flash | gemini-2.5-flash |
| Google Gemini | Gemini 2.5 Flash Lite | gemini-2.5-flash-lite |
| Groq | Groq Compound | groq/compound |
| Groq | Groq Compound Mini | groq/compound-mini |
| Groq | Groq GPT OSS 120B | openai/gpt-oss-120b |
| Groq | Groq GPT OSS 20B | openai/gpt-oss-20b |
| Groq | Groq GPT OSS Safeguard 20B (Preview) | openai/gpt-oss-safeguard-20b |
| Groq | Groq Llama 3.1 8B Instant | llama-3.1-8b-instant |
| Groq | Groq Llama 3.3 70B | llama-3.3-70b-versatile |
| Groq | Groq Llama 4 Scout 17B (Preview) | meta-llama/llama-4-scout-17b-16e-instruct |
| Groq | Groq Qwen3 32B (Preview) | qwen/qwen3-32b |
| Azure OpenAI | Azure GPT-5.4 | gpt-5.4 |
| Azure OpenAI | Azure GPT-5.4 Nano | gpt-5.4-nano |
| Azure OpenAI | Azure GPT-5.4 Pro | barca-moeadte4-eastus2 |
| Azure OpenAI | Azure GPT-5.4o Mini | gpt-5.4o-mini |
モデル別の平均レスポンスタイム(Avg Total Time)を比較しています。短文と中文を切り替えて傾向を確認できます。
単位: ms(低いほど高速)
全26モデル比較の次段階として、レスポンス時間の短い 4 モデルへ絞って追加検証を実施しました。 ここからは max_tokens を変化させたときのレスポンスタイムの変化を確認します。
temperature=0 固定。short-1 / short-2 / medium-1 / medium-2 の 4 プロンプト平均。iterations=3。
単位: ms(低いほど高速)
max_tokens=512 / temperature=0 固定。iterations=1。
Avg Total Time (ms)
| プロンプト | モデル | 出力 Tokens | TTFT (ms) | Total Time (ms) | Tokens/sec |
|---|---|---|---|---|---|
medium-1 中文: 説明 | Groq GPT OSS 120B | 512 | 263 | 1,223 | 419 |
| Groq GPT OSS 20B | 512 | 478 | 1,162 | 441 | |
| GPT-5.4 Mini | 341 | 484 | 2,251 | 151 | |
| GPT-5.4 Nano | 342 | 342 | 2,542 | 135 | |
medium-2 中文: 比較 | Groq GPT OSS 120B | 512 | 286 | 1,239 | 413 |
| Groq GPT OSS 20B | 512 | 352 | 718 | 713 | |
| GPT-5.4 Mini | 510 | 681 | 3,561 | 143 | |
| GPT-5.4 Nano | 483 | 402 | 3,627 | 133 |
考察
GroqとGPT-5.4 系を比較すると、難しいタスクを要求するプロンプトほど両者の差が大きくなる傾向が見られました。特に長文プロンプトでは、Groq GPT OSS 120B が他を大きく引き離す結果となっています。
このベンチマークの知見をもとに、LLM を活用したサービスの開発をお手伝いします。 API 選定・統合開発・パフォーマンス最適化についてお気軽にご相談ください。
✉ お問い合わせフォームへ