Anthropicが2026年2月17日にリリースしたClaude Sonnet 4.6は、前モデルSonnet 4.5を大幅に上回り、上位モデルOpus 4.6に迫る性能を低コストで提供するAIモデルです。コーディング・PC操作・推論のすべてで飛躍的な進化を遂げています。
Claude Sonnet 4.6の概要とモデル仕様
Claude Sonnet 4.6はAnthropicのClaude 4.6世代における中間グレードのモデルです。上位のOpus 4.6と同じアーキテクチャをベースにしながら、処理速度とコスト効率に優れた設計となっています。
| 項目 | Claude Sonnet 4.6 | Claude Opus 4.6 | Claude Haiku 4.5 |
|---|---|---|---|
| モデルID | claude-sonnet-4-6 | claude-opus-4-6 | claude-haiku-4-5-20251001 |
| 入力料金(100万トークン) | $3 | $5 | $1 |
| 出力料金(100万トークン) | $15 | $25 | $5 |
| コンテキストウィンドウ | 200Kトークン / 1Mトークン(ベータ) | 200Kトークン / 1Mトークン(ベータ) | 200Kトークン |
| 最大出力トークン | 64K | 128K | 64K |
| Extended Thinking | 対応 | 対応 | 対応 |
| Adaptive Thinking | 対応 | 対応 | 非対応 |
| レイテンシ | 高速 | 中程度 | 最速 |
| 知識カットオフ(信頼性高) | 2025年8月 | 2025年5月 | 2025年2月 |
| 訓練データカットオフ | 2026年1月 | 2025年8月 | 2025年7月 |
Sonnet 4.5と料金は据え置きのまま、性能だけが大幅に向上している点が特徴的です。
ベンチマーク結果:Opus 4.6に肉薄する実力
Claude Sonnet 4.6は複数の主要ベンチマークでOpus 4.6との差をわずか数ポイントまで縮めています。一部のタスクではOpusを上回るスコアも記録しています。
コーディング・ソフトウェア開発
| ベンチマーク | Sonnet 4.6 | Sonnet 4.5 | Opus 4.6 | 備考 |
|---|---|---|---|---|
| SWE-bench Verified | 79.6% | 77.2% | 80.8% | 実際のGitHubイシュー解決タスク |
| Terminal-Bench 2.0 | 59.1% | 51.0% | 62.7% | ターミナル操作の正確性 |
| ARC-AGI-2 | 58.3% | 13.6% | — | 4.5比で4.3倍の改善 |
推論・知識
| ベンチマーク | Sonnet 4.6 | Sonnet 4.5 | Opus 4.6 |
|---|---|---|---|
| GPQA Diamond | 74.1% | 65.0% | 91.3% |
| MATH-500 | 97.8% | 96.4% | 97.6% |
| MMLU-Pro | 79.1% | — | 81.2% |
| Humanities Last Exam | 19.1% | — | 26.3% |
※ GPQA DiamondのOpus 4.6スコア(91.3%)はAdaptive Thinking有効時の値です。
エージェント・PC操作
| ベンチマーク | Sonnet 4.6 | Opus 4.6 | GPT-5.2 |
|---|---|---|---|
| OSWorld-Verified | 72.5% | 72.7% | 38.2% |
| τ²-bench Retail | 91.7% | — | — |
| τ²-bench Telecom | 97.9% | — | — |
| MCP-Atlas Scaled Tool Use | 61.3% | 60.3% | — |
| GDPval-AA(オフィス業務) | 1633 Elo | 1606 Elo | — |
| Finance Agent | 63.3% | — | — |
注目すべきはMATH-500で97.8%というスコアです。これはOpus 4.6の97.6%をわずかに上回っています。またMCP-Atlas(ツール利用評価)とGDPval-AA(オフィス業務評価)でもOpus超えを達成しています。
OSWorldベンチマークでは72.5%を記録し、GPT-5.2の38.2%を大きく引き離しています。PC操作の自動化能力では現行モデルの中で最高水準にあります。
料金比較:Opus 4.6よりも低コストで運用可能
Claude Sonnet 4.6の最大の強みは、Opusに迫る性能をより低い料金で利用できる点です。入力料金は40%オフ、出力料金も40%オフとなっています。
API利用時のコスト試算
1回のリクエストで入力2,000トークン・出力8,000トークンを使う場合を例に計算します。
| モデル | 入力コスト | 出力コスト | 1リクエスト合計 |
|---|---|---|---|
| Claude Sonnet 4.6 | $0.006 | $0.12 | $0.126 |
| Claude Opus 4.6 | $0.01 | $0.20 | $0.21 |
| Claude Haiku 4.5 | $0.002 | $0.04 | $0.042 |
月間30万リクエストの場合、Sonnet 4.6は月額約$37,800、Opus 4.6は月額約$63,000です。月あたり約$25,000のコスト差が生じ、年間では約$300,000の節約になります。
Anthropicの公式発表によれば、ユーザーはSonnet 4.6をSonnet 4.5より約70%の頻度で選好し、Opus 4.5と比較しても59%の割合でSonnet 4.6を選択しています(出典: Anthropic)。性能差が小さいタスクでは、コストメリットのあるSonnet 4.6が合理的な選択肢です。
Sonnet 4.6の新機能と技術的特徴
Adaptive Thinking(適応的思考)
従来のExtended Thinkingが「常にオン/オフ」の二者択一だったのに対し、Adaptive Thinkingはタスクの難易度に応じて自動的に思考量を調節します。
APIでは thinking: {type: "adaptive"} と指定することで有効化でき、effort パラメータで思考の深さを制御できます。デフォルトの high 設定ではほぼ常に深い思考を行い、low 設定では簡単な質問をスキップして応答速度を優先します。
import anthropic
client = anthropic.Anthropic()
response = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=16000,
thinking={
"type": "adaptive",
"effort": "high"
},
messages=[
{"role": "user", "content": "この関数のバグを特定してください: ..."}
]
)
Context Compaction(コンテキスト圧縮)
長い会話やエージェント作業でコンテキストウィンドウの上限に近づくと、古い会話内容を自動的に要約して容量を確保する機能です。ベータ版として提供されています。
仕組みとしては、直近の会話はそのまま保持しつつ、古い部分を意味を損なわない形で要約します。「5時間前に修正したバグの詳細」は要約されますが、「セッション冒頭で決めたアーキテクチャ方針」は保持されるよう設計されています。
従来はコンテキストが溢れると会話を一からやり直す必要がありましたが、Context Compactionにより長時間のエージェント作業が途切れず継続できます。
Computer Use(PC操作)の進化
Claude Sonnet 4.6のComputer Use機能は、OSWorldベンチマークで72.5%を達成しています。具体的には以下のような操作が可能です。
- ブラウザでのフォーム入力・ボタンクリック・ページ遷移
- スプレッドシートの複雑な操作(セル選択・関数入力・書式設定)
- マルチステップのワークフロー実行(複数アプリを横断する作業)
- ファイルシステムの操作(フォルダ作成・ファイル移動・名前変更)
Anthropicは「最も熟練した人間には明らかに及ばない」と公表していますが、定型的なPC操作の自動化には十分な水準に達しています。
Sonnet 4.6とOpus 4.6の使い分け
両モデルを適材適所で使い分ける「ルーターパターン」が効率的です。
Sonnet 4.6が適するタスク
- 日常的なコーディング作業:バグ修正、機能追加、テスト作成
- PC操作の自動化:GUI操作、フォーム入力、データ入力
- 大量リクエストの処理:API経由での高頻度利用
- 数学・計算タスク:MATH-500で97.8%のスコア
- オフィス業務の自動化:GDPval-AAで全モデル最高スコア
Opus 4.6が適するタスク
- PhD級の科学的推論:GPQA Diamondで91.3%(Sonnet 4.6は74.1%)
- 大規模コードベースのリファクタリング:128K出力トークン対応
- セキュリティ監査:500件以上の未知の脆弱性を発見した実績
- 複雑なマルチエージェントワークフロー:最深レベルの思考が必要な場面
リクエストの約90%をSonnet 4.6で処理し、残り10%の高難度タスクをOpus 4.6にルーティングすることで、全体コストを約72%削減できるとされています(出典: nxcode.io)。
Claude Sonnet 4.6の利用方法
claude.aiでの利用
2026年2月17日以降、claude.aiのデフォルトモデルがSonnet 4.6に変更されています。無料プランでも利用可能です。
API経由での利用
モデルIDとして claude-sonnet-4-6 を指定します。
import anthropic
client = anthropic.Anthropic()
message = client.messages.create(
model="claude-sonnet-4-6",
max_tokens=1024,
messages=[
{"role": "user", "content": "Pythonでクイックソートを実装してください"}
]
)
print(message.content[0].text)
Amazon Bedrockでの利用
AWS BedrockではモデルID anthropic.claude-sonnet-4-6 で利用可能です。東京リージョン(ap-northeast-1)にも対応しています。
import boto3
import json
client = boto3.client("bedrock-runtime", region_name="ap-northeast-1")
response = client.invoke_model(
modelId="ap-northeast-1.anthropic.claude-sonnet-4-6",
body=json.dumps({
"anthropic_version": "bedrock-2023-05-31",
"max_tokens": 1024,
"messages": [
{"role": "user", "content": "東京の天気を教えてください"}
]
})
)
result = json.loads(response["body"].read())
print(result["content"][0]["text"])
Google Vertex AIでの利用
Vertex AIではモデルID claude-sonnet-4-6 で利用できます。
Claude Codeでの利用
Claude Code(CLI)では、Sonnet 4.6がデフォルトモデルとして動作します。/model コマンドでモデルを切り替えることも可能です。
Sonnet 4.5からの主な変更点
| 項目 | Sonnet 4.5 | Sonnet 4.6 |
|---|---|---|
| SWE-bench Verified | 77.2% | 79.6%(+2.4pt) |
| GPQA Diamond | 65.0% | 74.1%(+9.1pt) |
| MATH-500 | 96.4% | 97.8%(+1.4pt) |
| ARC-AGI-2 | 13.6% | 58.3%(+44.7pt) |
| OSWorld(Computer Use) | — | 72.5% |
| Adaptive Thinking | 非対応 | 対応 |
| Context Compaction | 非対応 | 対応(ベータ) |
| 料金 | $3 / $15 | $3 / $15(据え置き) |
| 知識カットオフ | 2025年1月 | 2025年8月 |
| 訓練データカットオフ | 2025年7月 | 2026年1月 |
特にARC-AGI-2が13.6%から58.3%へ4.3倍向上した点は、汎用的な推論能力が根本的に改善されたことを示しています。料金据え置きでこれだけの性能向上が得られるため、Sonnet 4.5からの移行は即座に行うメリットがあります。
他社モデルとの位置づけ
OSWorldベンチマーク(PC操作評価)でGPT-5.2が38.2%にとどまる一方、Sonnet 4.6は72.5%を達成しています。エージェント用途やComputer Useにおいては、現時点でClaude Sonnet 4.6が業界をリードしている状況です。
GDPval-AA(オフィス業務評価)でも1633 Eloで全モデル中最高スコアを記録しており、実務的なタスク処理能力の高さが裏付けられています。
まとめ
Claude Sonnet 4.6はOpus 4.6より低コストでありながら、コーディング(SWE-bench 79.6%)、PC操作(OSWorld 72.5%)、数学(MATH-500 97.8%)で同等水準の性能を発揮します。Adaptive ThinkingやContext Compactionといった新機能により、エージェント用途での実用性も大幅に高まっています。
日常的な開発作業やPC操作の自動化にはSonnet 4.6、PhD級の科学的推論や大規模リファクタリングにはOpus 4.6という使い分けが、コストと品質のバランスを最適化する現実的なアプローチです。
