LLMモデル速度比較 | 26モデルのレスポンスタイム検証

概要

OpenAI / Anthropic / Google Gemini / Groq / Azure OpenAI の 30 モデルを対象に、ストリーミング API でレスポンスタイムを計測。同一ネットワーク環境での逐次実行による相対比較です。

TTFT

Time to First Token。リクエスト送信から最初のトークン到着までの時間（ms）。

Total Time

ストリーム完了までの合計時間（ms）。for-await ループ終了時点で計測。

Tokens/sec

outputTokens ÷ totalTime(秒)。生成速度の指標。usage 非対応モデルは 0。

本調査では 5 プロバイダー・26 モデルを対象に計測しました。以下は計測対象モデルの一覧です。

Provider	Model Label	Model ID
OpenAI	GPT-4.1	gpt-4.1
OpenAI	GPT-4.1 Mini	gpt-4.1-mini
OpenAI	GPT-4.1 Nano	gpt-4.1-nano
OpenAI	GPT-4o	gpt-4o
OpenAI	GPT-4o Mini	gpt-4o-mini
OpenAI	GPT-5.4	gpt-5.4
OpenAI	GPT-5.4 Mini	gpt-5.4-mini
OpenAI	GPT-5.4 Nano	gpt-5.4-nano
OpenAI	GPT-5.4 Pro	gpt-5.4-pro
OpenAI	GPT-5.5	gpt-5.5
OpenAI	o3	o3
OpenAI	o4 Mini	o4-mini
Anthropic	Claude Haiku 4.5	claude-haiku-4-5
Anthropic	Claude Opus 4.7	claude-opus-4-7
Anthropic	Claude Sonnet 4.6	claude-sonnet-4-6
Google Gemini	Gemini 2.5 Flash	gemini-2.5-flash
Google Gemini	Gemini 2.5 Flash Lite	gemini-2.5-flash-lite
Groq	Groq Compound	groq/compound
Groq	Groq Compound Mini	groq/compound-mini
Groq	Groq GPT OSS 120B	openai/gpt-oss-120b
Groq	Groq GPT OSS 20B	openai/gpt-oss-20b
Groq	Groq GPT OSS Safeguard 20B (Preview)	openai/gpt-oss-safeguard-20b
Groq	Groq Llama 3.1 8B Instant	llama-3.1-8b-instant
Groq	Groq Llama 3.3 70B	llama-3.3-70b-versatile
Groq	Groq Llama 4 Scout 17B (Preview)	meta-llama/llama-4-scout-17b-16e-instruct
Groq	Groq Qwen3 32B (Preview)	qwen/qwen3-32b
Azure OpenAI	Azure GPT-5.4	gpt-5.4
Azure OpenAI	Azure GPT-5.4 Nano	gpt-5.4-nano
Azure OpenAI	Azure GPT-5.4 Pro	barca-moeadte4-eastus2
Azure OpenAI	Azure GPT-5.4o Mini	gpt-5.4o-mini

モデル別の平均レスポンスタイム（Avg Total Time）を比較しています。短文と中文を切り替えて傾向を確認できます。

プロンプト:OpenAIAnthropicGroqGeminiAzure

単位: ms（低いほど高速）

全26モデル比較の次段階として、レスポンス時間の短い 4 モデルへ絞って追加検証を実施しました。ここからは max_tokens を変化させたときのレスポンスタイムの変化を確認します。

Groq GPT OSS 120B

Groq GPT OSS 20B

GPT-5.4 Mini

GPT-5.4 Nano

temperature=0 固定。short-1 / short-2 / medium-1 / medium-2 の 4 プロンプト平均。iterations=3。

Groq GPT OSS 120BGroq GPT OSS 20BGPT-5.4 MiniGPT-5.4 Nano

単位: ms（低いほど高速）

max_tokens=512 / temperature=0 固定。iterations=1。

カテゴリ:Groq GPT OSS 120BGroq GPT OSS 20BGPT-5.4 MiniGPT-5.4 Nano

Avg Total Time (ms)

プロンプト	モデル	出力 Tokens	TTFT (ms)	Total Time (ms)	Tokens/sec
medium-1 中文: 説明	Groq GPT OSS 120B	512	263	1,223	419
	Groq GPT OSS 20B	512	478	1,162	441
	GPT-5.4 Mini	341	484	2,251	151
	GPT-5.4 Nano	342	342	2,542	135
medium-2 中文: 比較	Groq GPT OSS 120B	512	286	1,239	413
	Groq GPT OSS 20B	512	352	718	713
	GPT-5.4 Mini	510	681	3,561	143
	GPT-5.4 Nano	483	402	3,627	133

考察

GroqとGPT-5.4 系を比較すると、難しいタスクを要求するプロンプトほど両者の差が大きくなる傾向が見られました。特に長文プロンプトでは、Groq GPT OSS 120B が他を大きく引き離す結果となっています。

26モデル比較で、用途ごとに最適な速度帯は明確に分かれました。

max_tokens の設定は体感レスポンスに直結し、同一モデルでも調整効果が大きいことを確認しました。

長いプロンプト運用では、トークン管理とモデル選定を同時に設計することが重要です。

モデル選定が品質に対して大きな影響を与えます。

このベンチマークの知見をもとに、LLM を活用したサービスの開発をお手伝いします。 API 選定・統合開発・パフォーマンス最適化についてお気軽にご相談ください。