Claude Sonnet 4.6登場 — 前モデルを70%上回る性能が、無料でも使える時代に - ニュース

Anthropicが2月17日、新AIモデル「Claude Sonnet 4.6」を発表しました。
コーディング、PC操作、エージェント機能のすべてで大幅な進化を遂げながら、無料/Proユーザーのclaude.ai・Claude Coworkではデフォルトモデルに設定されます。
Sonnet 4.5と同じ価格帯のまま、何がどう変わったのか — 公式データをもとに整理します。

概要

Claude Sonnet 4.6は、Anthropicの中核モデル「Sonnet」シリーズの最新版。
API価格はSonnet 4.5据え置き（入力$3/出力$15 per 100万トークン）。
Claude Codeでの早期テストでは、ユーザー選好でSonnet 4.5を約70%、Opus 4.5を59%上回ったと公式が報告しました。
下位モデルが上位を超えた異例の結果です。

詳細

1. 公式が示す「4つの改善ポイント」

Anthropic公式ブログによると、Sonnet 4.6はSonnet 4.5から次の4点で明確に進化しています。

指示への忠実度が向上 — ユーザーの意図と異なる動作をする頻度が減少
過度な設計を抑制 — 必要以上に複雑なコードや回答を生成する傾向を改善
ハルシネーションの低減 — 事実に基づかない情報の生成が減少
セキュリティ強化 — プロンプトインジェクション（AIへの不正な指示注入）耐性がSonnet 4.5から大幅改善し、最上位モデルOpus 4.6と同等レベルに

つまり、日々の業務で「指示と違う結果が返ってくる」「不要な情報が混ざる」といったストレスが軽減される方向の進化です。

2. PC操作能力が「人間レベル」に近づく

もう一つの大きな進化がPC操作能力。
OSWorldベンチマーク（PCの実操作を評価する指標）で大幅なスコア向上を記録しました。
一部のタスク — たとえば複雑なスプレッドシート操作やマルチステップのフォーム入力 — では人間に近い性能が報告されています（ただし熟練ユーザーにはまだ及ばない場面もあるとのこと）。

保険テクノロジー企業Paceの社内検証では、業界特化ベンチマークで94%を達成。
同社が検証したモデルの中で最高水準だったと報告されています。

OSWorldベンチマーク比較

各種ベンチマーク成績
※図解補足
・Agentic financial analysis は、AIが自律的に考えながら財務分析や意思決定まで行える力を測る指標。
・Office tasks は、メール作成や資料整理など一般的な事務業務をどれだけこなせるかを測る指標。
・前者は「戦略的思考力」、後者は「実務処理能力」の強さを示している。

3. 100万トークン対応と実用的な新機能

コンテキストウィンドウ（一度に処理できるテキスト量）が100万トークンに拡大（ベータ版）。
コードベース全体や長文の契約書を丸ごと読み込んで処理できるようになりました。

実用面でも新機能が揃いました。

Excel連携のMCPコネクタ（MCP = 外部ツールとAIをつなぐ共通接続方式、Pro以上のプランで利用可能）
Web検索・取得ツール（動的フィルタリング機能付き）
コンテキスト圧縮（ベータ）— 有効な文脈長をさらに拡張
コード実行、メモリ、ツール呼び出しが一般利用可能に

claude.ai、Claude Cowork、Claude Codeに加え、主要クラウドプラットフォームからも利用可能。
Databricks、Replit、Cursorといった企業も公式ブログで評価コメントを寄せており、開発ツール分野での存在感が目立ちます。

AIを使った業務の底上げを検討している方は、まず無料プランで触れてみるのがおすすめです。

出典

画像の引用

画像は Anthropic公式ブログから引用