Anthropicが2026年2月17日にリリースしたClaude Sonnet 4.6は、前モデルSonnet 4.5を大幅に上回り、上位モデルOpus 4.6に迫る性能を低コストで提供するAIモデルです。コーディング・PC操作・推論のすべてで飛躍的な進化を遂げています。

Claude Sonnet 4.6の概要とモデル仕様

Claude Sonnet 4.6はAnthropicのClaude 4.6世代における中間グレードのモデルです。上位のOpus 4.6と同じアーキテクチャをベースにしながら、処理速度とコスト効率に優れた設計となっています。

項目Claude Sonnet 4.6Claude Opus 4.6Claude Haiku 4.5
モデルIDclaude-sonnet-4-6claude-opus-4-6claude-haiku-4-5-20251001
入力料金(100万トークン)$3$5$1
出力料金(100万トークン)$15$25$5
コンテキストウィンドウ200Kトークン / 1Mトークン(ベータ)200Kトークン / 1Mトークン(ベータ)200Kトークン
最大出力トークン64K128K64K
Extended Thinking対応対応対応
Adaptive Thinking対応対応非対応
レイテンシ高速中程度最速
知識カットオフ(信頼性高)2025年8月2025年5月2025年2月
訓練データカットオフ2026年1月2025年8月2025年7月

出典: Anthropic公式ドキュメント

Sonnet 4.5と料金は据え置きのまま、性能だけが大幅に向上している点が特徴的です。

ベンチマーク結果:Opus 4.6に肉薄する実力

Claude Sonnet 4.6は複数の主要ベンチマークでOpus 4.6との差をわずか数ポイントまで縮めています。一部のタスクではOpusを上回るスコアも記録しています。

コーディング・ソフトウェア開発

ベンチマークSonnet 4.6Sonnet 4.5Opus 4.6備考
SWE-bench Verified79.6%77.2%80.8%実際のGitHubイシュー解決タスク
Terminal-Bench 2.059.1%51.0%62.7%ターミナル操作の正確性
ARC-AGI-258.3%13.6%4.5比で4.3倍の改善

推論・知識

ベンチマークSonnet 4.6Sonnet 4.5Opus 4.6
GPQA Diamond74.1%65.0%91.3%
MATH-50097.8%96.4%97.6%
MMLU-Pro79.1%81.2%
Humanities Last Exam19.1%26.3%

※ GPQA DiamondのOpus 4.6スコア(91.3%)はAdaptive Thinking有効時の値です。

エージェント・PC操作

ベンチマークSonnet 4.6Opus 4.6GPT-5.2
OSWorld-Verified72.5%72.7%38.2%
τ²-bench Retail91.7%
τ²-bench Telecom97.9%
MCP-Atlas Scaled Tool Use61.3%60.3%
GDPval-AA(オフィス業務)1633 Elo1606 Elo
Finance Agent63.3%

出典: digitalapplied.com

注目すべきはMATH-500で97.8%というスコアです。これはOpus 4.6の97.6%をわずかに上回っています。またMCP-Atlas(ツール利用評価)とGDPval-AA(オフィス業務評価)でもOpus超えを達成しています。

OSWorldベンチマークでは72.5%を記録し、GPT-5.2の38.2%を大きく引き離しています。PC操作の自動化能力では現行モデルの中で最高水準にあります。

料金比較:Opus 4.6よりも低コストで運用可能

Claude Sonnet 4.6の最大の強みは、Opusに迫る性能をより低い料金で利用できる点です。入力料金は40%オフ、出力料金も40%オフとなっています。

API利用時のコスト試算

1回のリクエストで入力2,000トークン・出力8,000トークンを使う場合を例に計算します。

モデル入力コスト出力コスト1リクエスト合計
Claude Sonnet 4.6$0.006$0.12$0.126
Claude Opus 4.6$0.01$0.20$0.21
Claude Haiku 4.5$0.002$0.04$0.042

月間30万リクエストの場合、Sonnet 4.6は月額約$37,800、Opus 4.6は月額約$63,000です。月あたり約$25,000のコスト差が生じ、年間では約$300,000の節約になります。

Anthropicの公式発表によれば、ユーザーはSonnet 4.6をSonnet 4.5より約70%の頻度で選好し、Opus 4.5と比較しても59%の割合でSonnet 4.6を選択しています(出典: Anthropic)。性能差が小さいタスクでは、コストメリットのあるSonnet 4.6が合理的な選択肢です。

Sonnet 4.6の新機能と技術的特徴

Adaptive Thinking(適応的思考)

従来のExtended Thinkingが「常にオン/オフ」の二者択一だったのに対し、Adaptive Thinkingはタスクの難易度に応じて自動的に思考量を調節します。

APIでは thinking: {type: "adaptive"} と指定することで有効化でき、effort パラメータで思考の深さを制御できます。デフォルトの high 設定ではほぼ常に深い思考を行い、low 設定では簡単な質問をスキップして応答速度を優先します。

import anthropic

client = anthropic.Anthropic()

response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=16000,
    thinking={
        "type": "adaptive",
        "effort": "high"
    },
    messages=[
        {"role": "user", "content": "この関数のバグを特定してください: ..."}
    ]
)

Context Compaction(コンテキスト圧縮)

長い会話やエージェント作業でコンテキストウィンドウの上限に近づくと、古い会話内容を自動的に要約して容量を確保する機能です。ベータ版として提供されています。

仕組みとしては、直近の会話はそのまま保持しつつ、古い部分を意味を損なわない形で要約します。「5時間前に修正したバグの詳細」は要約されますが、「セッション冒頭で決めたアーキテクチャ方針」は保持されるよう設計されています。

従来はコンテキストが溢れると会話を一からやり直す必要がありましたが、Context Compactionにより長時間のエージェント作業が途切れず継続できます。

Computer Use(PC操作)の進化

Claude Sonnet 4.6のComputer Use機能は、OSWorldベンチマークで72.5%を達成しています。具体的には以下のような操作が可能です。

  • ブラウザでのフォーム入力・ボタンクリック・ページ遷移
  • スプレッドシートの複雑な操作(セル選択・関数入力・書式設定)
  • マルチステップのワークフロー実行(複数アプリを横断する作業)
  • ファイルシステムの操作(フォルダ作成・ファイル移動・名前変更)

Anthropicは「最も熟練した人間には明らかに及ばない」と公表していますが、定型的なPC操作の自動化には十分な水準に達しています。

Sonnet 4.6とOpus 4.6の使い分け

両モデルを適材適所で使い分ける「ルーターパターン」が効率的です。

Sonnet 4.6が適するタスク

  • 日常的なコーディング作業:バグ修正、機能追加、テスト作成
  • PC操作の自動化:GUI操作、フォーム入力、データ入力
  • 大量リクエストの処理:API経由での高頻度利用
  • 数学・計算タスク:MATH-500で97.8%のスコア
  • オフィス業務の自動化:GDPval-AAで全モデル最高スコア

Opus 4.6が適するタスク

  • PhD級の科学的推論:GPQA Diamondで91.3%(Sonnet 4.6は74.1%)
  • 大規模コードベースのリファクタリング:128K出力トークン対応
  • セキュリティ監査:500件以上の未知の脆弱性を発見した実績
  • 複雑なマルチエージェントワークフロー:最深レベルの思考が必要な場面

リクエストの約90%をSonnet 4.6で処理し、残り10%の高難度タスクをOpus 4.6にルーティングすることで、全体コストを約72%削減できるとされています(出典: nxcode.io)。

Claude Sonnet 4.6の利用方法

claude.aiでの利用

2026年2月17日以降、claude.aiのデフォルトモデルがSonnet 4.6に変更されています。無料プランでも利用可能です。

API経由での利用

モデルIDとして claude-sonnet-4-6 を指定します。

import anthropic

client = anthropic.Anthropic()

message = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=1024,
    messages=[
        {"role": "user", "content": "Pythonでクイックソートを実装してください"}
    ]
)
print(message.content[0].text)

Amazon Bedrockでの利用

AWS BedrockではモデルID anthropic.claude-sonnet-4-6 で利用可能です。東京リージョン(ap-northeast-1)にも対応しています。

import boto3
import json

client = boto3.client("bedrock-runtime", region_name="ap-northeast-1")

response = client.invoke_model(
    modelId="ap-northeast-1.anthropic.claude-sonnet-4-6",
    body=json.dumps({
        "anthropic_version": "bedrock-2023-05-31",
        "max_tokens": 1024,
        "messages": [
            {"role": "user", "content": "東京の天気を教えてください"}
        ]
    })
)
result = json.loads(response["body"].read())
print(result["content"][0]["text"])

Google Vertex AIでの利用

Vertex AIではモデルID claude-sonnet-4-6 で利用できます。

Claude Codeでの利用

Claude Code(CLI)では、Sonnet 4.6がデフォルトモデルとして動作します。/model コマンドでモデルを切り替えることも可能です。

Sonnet 4.5からの主な変更点

項目Sonnet 4.5Sonnet 4.6
SWE-bench Verified77.2%79.6%(+2.4pt)
GPQA Diamond65.0%74.1%(+9.1pt)
MATH-50096.4%97.8%(+1.4pt)
ARC-AGI-213.6%58.3%(+44.7pt)
OSWorld(Computer Use)72.5%
Adaptive Thinking非対応対応
Context Compaction非対応対応(ベータ)
料金$3 / $15$3 / $15(据え置き)
知識カットオフ2025年1月2025年8月
訓練データカットオフ2025年7月2026年1月

特にARC-AGI-2が13.6%から58.3%へ4.3倍向上した点は、汎用的な推論能力が根本的に改善されたことを示しています。料金据え置きでこれだけの性能向上が得られるため、Sonnet 4.5からの移行は即座に行うメリットがあります。

他社モデルとの位置づけ

OSWorldベンチマーク(PC操作評価)でGPT-5.2が38.2%にとどまる一方、Sonnet 4.6は72.5%を達成しています。エージェント用途やComputer Useにおいては、現時点でClaude Sonnet 4.6が業界をリードしている状況です。

GDPval-AA(オフィス業務評価)でも1633 Eloで全モデル中最高スコアを記録しており、実務的なタスク処理能力の高さが裏付けられています。

まとめ

Claude Sonnet 4.6はOpus 4.6より低コストでありながら、コーディング(SWE-bench 79.6%)、PC操作(OSWorld 72.5%)、数学(MATH-500 97.8%)で同等水準の性能を発揮します。Adaptive ThinkingやContext Compactionといった新機能により、エージェント用途での実用性も大幅に高まっています。

日常的な開発作業やPC操作の自動化にはSonnet 4.6、PhD級の科学的推論や大規模リファクタリングにはOpus 4.6という使い分けが、コストと品質のバランスを最適化する現実的なアプローチです。