Breaking News | AI Frontier Radar

Anthropic が5月28日に Claude Opus 4.8 を公開。SWE-bench Pro 69.2%、SWE-bench Verified 88.6%、Online-Mind2Web 84% と前世代を上回り、Fast モードは2.5倍速・3倍安に。整合性も「Mythos Preview に並ぶ」と報告。

コーディング常用モデルの基準値が一段上がる。社内の評価セット・コスト見積もりを更新するタイミング。

Claude Desk Opus 4.7 Arrives

速報 LLM Models 04/24 08:30 anthropic/claude

Claude Opus 4.7が来た｜長時間コーディングに効く改善は何か

長時間にわたる複雑なコーディングと画像の高解像度認識が主な改善点。全製品と主要クラウドで利用可能になっている。

どのタスクで入れ替えると効くかの判断材料が揃う

Model Pricing Price Reset 2026

速報 LLM Models 04/19 08:30 market/model-pricing

モデル料金が下がっても総額が増える理由｜2026年春のコスト再点検

API単価の値下げが続く一方で、呼び出し回数の増加とワークフローの複雑化で請求額はむしろ膨らみやすくなっている。

単価ではなく運用設計が支出を左右することが見えてくる

Agent Watch Inbox Agents

速報 Agent 04/19 05:55 ops/inbox-agent-playbook

Inbox型エージェントが定着し始めた理由

リアルタイムの対話より、タスクがたまった時点でまとめて処理するInbox型の運用が増えている。人のリズムを壊さない使い方として注目される。

AIエージェントの運用が会話中心から業務中心へ移っていることが分かる

Security Watch CLI Baselines

速報 Security 04/17 19:30 security/cli-baselines

CLIアシスタントを安全に使うための最小セキュリティ基準

便利さを優先すると、ローカル権限と機密情報に近い分だけ事故も速い。チーム利用で最低限そろえたい基準を整理する。

便利さと安全性のバランスを現実的なラインで設計できる

Active Threats 10 IPI Payloads

分析 Security 04/25 13:15 owasp/llm-security

現実に出回る間接プロンプトインジェクション10種｜エージェント運用への直接の脅威

セキュリティ研究者が4月23日に、実環境のエージェントを狙った間接プロンプトインジェクションのペイロード10種を公開。API鍵窃取・データ破壊・金融詐欺を狙う具体例で、運用側の前提が崩れる。

実際に観測されたペイロードを基に、運用での防御線を引き直せる

MCP Desk Permission Ledger

分析 AI Connectors 04/19 04:50 mcp/permission-ledger

MCPサーバーが増えた時に最初に作るべき権限台帳

MCPはつなぐことより整理することの方が難しい。誰が何に触れるかを見える化する最小構成をまとめる。

導入の速さより、権限設計の透明性が重要だと分かる