最先端LLMも自動攻撃に突破される
米アンソロピック社の最新大規模言語モデル2種が、自動化されたジェイルブレーク攻撃により有害な出力を生成することが実証された。企業のAI導入リスク管理に根本的な見直しを迫る研究結果である。

米国のAI安全研究者ニコラ・フランコ氏は、アンソロピック社が開発した最前線モデル「Fable 5」および「Opus 4.8」を対象に、大規模な敵対的堅牢性評価を実施した。7826件の有害意図を含む10カテゴリーの危害分類体系に基づき、HackAgentと呼ばれる自動レッドチーミング基盤を用いて数十万回の攻撃を生成・試行した結果、両モデルが依然として体系的に突破可能であることが判明した。
評価の核心は攻撃手法の種類にある。静的な難読化攻撃(プロンプトの表記を変形するなど)はほぼ完全に無効化されたが、反復的に攻撃文を洗練させる「適応的反復攻撃」に対しては脆弱性が残存した。最も強力な手法である「木構造攻撃探索(Tree-of-Attacks)」では、Opus 4.8が全意図の11.5%で突破され、Fable 5も最悪ケースで6.1%に達した。最終的にパネル審査で確認された有害な出力は、Opus 4.8で1620件、Fable 5で702件に上る。特筆すべきは、これらの有害出力の多くが人間の専門家を介さず、攻撃モデルの最初の1〜2回の試行で自動的かつ低コストで生成された点である。
この知見が企業経営に与える影響は広範にわたる。金融機関では、顧客向けチャットボットや融資審査補助ツールにLLMを導入する際、規制当局(金融庁など)への説明責任と内部統制の双方で脆弱性評価の義務化が現実味を帯びる。特にコンプライアンス部門は、AIシステムのリスク評価KPIとして「ジェイルブレーク成功率」を既存の脆弱性指標に追加することが求められよう。
製造業や医療分野では、生産ラインの最適化や診断支援にLLMを活用するケースが増加しているが、安全情報や個人情報の漏洩リスクが再評価される必要がある。医療機関の情報システム部門にとっては、モデルの安全性認証を第三者機関に依存するだけでなく、自社環境でのレッドチーム評価を定期的に実施する体制構築が急務となる。
マーケティング・カスタマーサポート部門においては、ブランドリスクの観点が浮上する。企業のAIアシスタントが悪意ある利用者によって有害なコンテンツを生成させられた場合、企業の社会的信用(レピュテーション)と顧客満足度スコア(NPS)に直接的な打撃を与える。本研究が示す通り、攻撃は高度な専門知識を要せず自動化が可能であるため、従来想定していたよりも低い障壁で悪用が起こりうる。
リーガル・リスク管理の観点では、EU AI規制(AI Act)や国内の個人情報保護法が厳格化される中、「AIシステムの安全性を合理的に確保した」という立証責任を企業が負う場面が増える。本研究はその立証水準を実質的に引き上げるエビデンスとなる。法務部門はベンダーとの契約において、定期的なレッドチーム評価報告の提出を条件として盛り込むことを検討すべきである。
総合的に見れば、今回の研究が示す最大の教訓は「集計値による安心は禁物」という点にある。全体の攻撃成功率が一桁台であっても、確認された有害出力の絶対数は膨大であり、ビジネス上の被害は一件の事案でも甚大になりうる。企業のAIガバナンス担当者は、モデルベンダーの安全性主張を額面通りに受け取るのではなく、独立した検証プロセスを自社のAIリスク管理フレームワークの中核に据える必要がある。