OpenAIが「GPT-5.4 mini / nano」をリリース — "ちゃんと動く軽量モデル"の世代交代が始まった - ニュース

先週、AIエージェントの処理を自動化するワークフローを組んでいて、ふと気づいたことがある。
「この分類タスク、フラッグシップモデルでやる必要ある？」
精度はほしい、でもコストも速度も気になる。
そんな「ちょうどいい小型モデルが欲しい」という声に、OpenAIがかなり本気で応えてきました。

ニュース

OpenAIは3月17日、最新フラッグシップモデル GPT-5.4 の小型版「GPT-5.4 mini」と「GPT-5.4 nano」を同時リリースしました。
miniはAPIとCodexで利用可能。ChatGPTでは、Free/Goプランのユーザーは「Thinking」機能経由で、その他のプランではGPT-5.4 Thinkingのレート制限時にフォールバックとして利用される形。
nanoはAPI限定での提供。

mini: 入力 $0.75 / 100万トークン。GPT-5 miniの2倍以上の速度で、フラッグシップに迫るコーディング性能
nano: 入力 $0.20 / 100万トークン。分類・データ抽出・サブエージェント用の超低コストモデル

これはつまり、「安いけど微妙」だった小型モデルが、「安くてちゃんと動く」に進化したターニングポイント。

3行まとめ

GPT-5.4 miniはSWE-Bench Proでフラッグシップと3.3pt差、OSWorldで2.9pt差。「小型だから妥協」ではなく「小型でも実戦投入できる」レベルに到達
nanoは分類・抽出・サブエージェント（大きなAIの下で単純作業をこなす小型AI）などの用途に最適化。入力$0.20/100万トークンでコスト削減のインパクトが大きい
「プランナーにフル5.4、実行役にmini、補助にnano」という階層構成が現実的になった

ポイント

この記事のポイントはシンプルです。
「小型モデルの性能が上がって、"使い分け"の選択肢が一気に増えた」ということ。
開発者じゃなくても、ChatGPTの裏側で動くモデルが変わることで体感速度やコストに影響が出てきます。

用語の整理

用語	ざっくり言うと
サブエージェント	大きなAIシステムの中で、分類や抽出などの単純タスクを担当する「下請けAI」
コンテキストウィンドウ	AIが一度に読めるテキストの量。大きいほど長い文書を扱える

深掘り（読み飛ばしOK）

用語	説明
SWE-Bench Pro	実際のオープンソースプロジェクトのバグ修正で性能を測るベンチマーク
MoE（Mixture of Experts）	タスクに応じて必要な「専門家」部分だけを動かす効率化技術
トークン	AIがテキストを処理する単位。日本語1文字≒1〜2トークン程度

詳細

1. 何がすごいのか — ベンチマークで見る「小型モデルの進化」

GPT-5.4 miniの性能は、前世代のGPT-5 miniから大幅にジャンプしています。
特にコーディングやツール操作系の伸びが顕著で、「軽量モデルだけどエージェント用途に本気で使える」チューニングが施されている印象。

ベンチマーク	GPT-5.4	5.4 mini	5.4 nano	5 mini
SWE-Bench Pro（バグ修正）	57.7%	54.4%	52.4%	45.7%
Terminal-Bench 2.0（CLI操作）	75.1%	60.0%	46.3%	38.2%
OSWorld-Verified（PC操作）	75.0%	72.1%	39.0%	42.0%
GPQA Diamond（大学院レベル推論）	93.0%	88.0%	82.8%	81.6%

特にTerminal-Bench 2.0では5 miniの38.2%から60.0%へと21.8ポイントもジャンプ。
OSWorld-Verified（PCやブラウザの操作タスク）では72.1%と、フラッグシップの75.0%にかなり肉薄しています。
つまり、「PC操作を含むエージェント用途なら、miniをデフォルトにしてnanoを補助に回す」という構成が合理的になってきた。

2. 料金はどのくらい？ — 競合モデルとの比較

まず、GPT-5.4 mini / nano の公式価格を確認しておきましょう（OpenAI公式より、2026年3月17日時点）。

モデル	入力（$/1M tokens）	出力（$/1M tokens）	主な用途
GPT-5.4（フル）	$2.50	$15.00	最高精度が必要なタスク
GPT-5.4 mini	$0.75	$4.50	コーディング、ツール実行、エージェント
GPT-5.4 nano	$0.20	$1.25	分類・抽出・補助タスク

miniは「絶対的に最安」というよりも「この性能帯としてはかなりコスパが良い」というポジションになりそうです。
ポイントは**「1トークンあたり」ではなく「1正解あたり」のコスト**で考えるところかなと思います。
SWE-Bench ProやOSWorldでフラッグシップに肉薄するスコアを出しているので、失敗してやり直すコストまで含めると効率的になるケースもありそうです。

ざっくり使い分けのイメージ：

「とにかく最安で大量に回したい」→ nano
「エージェント用途で失敗を減らしたいコスパ枠」→ mini
「精度最優先」→ GPT-5.4（フル）

3. 開発者の反応 — 「世代交代が始まった」

リリース直後のメディア報道を見ると、「miniは5 miniからの世代交代候補」「nanoは分類・抽出・サブエージェント向けに最適」という論調が目立ちます。

the-decoderの分析記事では、SWE-Bench Proでminiがフラッグシップと3.3pt差に収まった点、nanoが5 miniを上回る52.4%を達成した点が注目されています（the-decoder）。
9to5Macも「OpenAI史上最も高性能な小型モデル」と評しています（9to5Mac）。

全体として、プロダクション向け小型モデルの選択肢が一気に増えた、というのが業界の受け止め方のようです。
特にnanoは分類・抽出・サブエージェントなどの補助タスクに向けて設計されていて、大きなAIシステムの中で単純タスクだけをnanoに任せる——そんなアーキテクチャが広がっていく可能性があります。

4. 影響 — 誰にどう効くか

開発者・エンジニア:
API利用の小型モデルを5 miniやHaikuから5.4 miniに切り替えるだけで、同じ予算で「ちゃんと終わるジョブ」の数が増える可能性がある。
特にコーディング系エージェントやCI/CDパイプラインでの効果が大きそうです。
私自身、Claude CodeからChatGPTのAPIを呼んでコーディングやコードレビューをしてもらうことがあるんですが、性能の高い小型モデルが出てくれるのは素直にうれしい。
実際に今使っているモデルから切り替えていこうと思っています。

AI活用を検討中の企業:
「AIは高い」という印象は、nanoクラスの登場で変わりつつある。
分類・抽出・FAQ対応といった定型業務なら、入力$0.20/100万トークンで、SWE-Bench Pro 52.4%（5 miniの45.7%を上回る）レベルの精度が得られるようになっています。

ChatGPTユーザー:
Free/GoプランではThinking機能経由でminiが使われるようになり、その他のプランでもGPT-5.4 Thinkingのレート制限時にフォールバックとして動く形。
直接モデルを選ぶわけではないけど、裏側のモデルが高性能になることで体感の応答品質が変わってくるかもしれません。

今日の1アクション

もしAPIを使っている方は、いま動かしているワークフローの中で「フラッグシップでやらなくてもいいタスク」がないか、一度棚卸ししてみるのがおすすめです。
分類・抽出・定型処理はnano、コーディングやツール実行はmini——そんな「モデルの使い分け」を意識するだけで、コストと品質のバランスがぐっと変わってくるかもしれません。

出典

筆者コメント

小型モデルの「ちゃんと使えるライン」がどんどん上がってきてますね。
私はClaude CodeからChatGPTのAPIを呼んでコーディングやレビューに使っているんですが、新モデルが出ると「じゃあこっちに変えてみるか」ってなるんですよね。
実際、5.4 miniのベンチマークを見ると、コーディング系の伸びがかなりえぐい。
nanoの「思ったより精度落ちない」という声も気になっていて、サブエージェント用途で月次コストが劇的に下がるなら、中小企業にもチャンスが広がるんじゃないかなと思っています。

著者

neco. 🐈‍⬛
AI活用コンサル／ITエンジニア歴20年。会社員として400人規模のAIリスキリング研修を統括しつつ、副業で経営者・個人事業主向けにAI導入〜実装をサポート中（経営3年目）。
毎月AIの仕事活用をテーマに勉強会も開催しています。
「AIを"知ってる"から"使える"へ」がモットー。
プロンプト700本以上を無料公開中 → ai-neco