オープンソースLLMのCTI分類、実用水準に未達
サイバー脅威情報をMITRE ATT&CKフレームワークで自動分類するオープンソースLLMの実力を測定した初の本格的ベンチマークが公開された。最高性能モデルのF1スコアは0.22にとどまり、実運用への採用には重大な課題が残ることが判明した。

米国の研究チームは、オープンソースの大規模言語モデル(LLM)がサイバー脅威インテリジェンス(CTI)レポートを自動分析する能力を、現実の業務環境に即した条件で初めて体系的に評価した。その結果、最高性能のモデルでさえマイクロ平均F1スコアが0.22という低水準にとどまり、現状のオープンソースLLMが本番運用グレードのATT&CK分類には不十分であることが実証された。
研究チームは83件の複雑な非構造化CTIレポートから2,076文を抽出し、6段階のアノテーションプロセスを経て114種類のATT&CKテクニックに対応する教師データを構築した。アノテーター間一致率はκ=0.68と高水準を達成し、データセットの信頼性を担保している。この上でパラメータ数80億から2,360億規模の7種類のオープンソースLLMを、プロンプト戦略と温度設定を変えながら評価した。
注目すべき知見として、モデルのパラメータ規模とF1スコアの間には統計的に有意な正の相関が確認された一方、プロンプトエンジニアリングの工夫や温度パラメータの調整は性能に統計的に有意な改善をもたらさなかった。過去の評価研究では単文・単一テクニックという単純化された設定が多く、それらが「過大評価された性能」を示してきた可能性を本研究は示唆している。
この研究が企業のセキュリティ部門に与える示唆は大きい。金融機関や通信事業者、製造業の制御システム担当部門など、SOC(セキュリティオペレーションセンター)を抱える組織では、脅威インテリジェンスの迅速な分析がインシデント対応時間(MTTR)の短縮に直結する。現在、アナリストがCTIレポートを手動でATT&CKフレームワークに照合する作業には熟練した人材と多大な工数が必要であり、LLMによる自動化への期待は高い。しかし本研究の結果は、オープンソースモデルをそのまま導入しても誤検知・見落とし率が高く、アナリストの負担軽減どころか確認作業が増加するリスクを示している。
KPIへの影響という観点では、F1スコア0.22は偽陰性率が極めて高いことを意味し、攻撃者の戦術・技術の分類漏れが頻発する。脅威ハンティングやレッドチーム演習の優先順位付けに用いる場合、検知カバレッジ指標が実態を大きく下回る可能性がある。政府系機関やクリティカルインフラ事業者においては、規制当局への報告精度にも影響しうる。
一方でパラメータ規模の拡大が有効であるという知見は、クローズドソースの大規模モデル活用や、ドメイン特化型のファインチューニング投資の方向性を示している。医療機関や航空宇宙・防衛産業など、機密性の高い脅威情報をクラウドに送出できない環境では、オンプレミスで動作するオープンソースモデルの改善が引き続き重要な研究課題となる。
研究チームはデータセットとベンチマーク手法を公開しており、今後のCTI研究の再現可能な基盤を提供している。セキュリティベンダーや企業のR&D部門にとって、自社モデルの性能を客観的に比較評価できる標準指標が整備されたことの意義は大きい。実用化に向けては、ファインチューニング手法の改良、マルチモーダル入力への対応、そして人間のアナリストとの協調ワークフロー設計が次の検討課題となる。