AI×経営戦略

小型AIモデルの性能向上、新手法ZPPOが実現

NVIDIAらの研究チームが、小規模AIモデルを大規模モデル並みの精度に引き上げる新学習手法「ZPPO」を発表した。コスト制約のある企業が高性能AIを自社導入する道を大きく拓く可能性がある。

小型AIモデルの性能向上、新手法ZPPOが実現
広告

NVIDIAやワシントン大学などの共同研究チームは、小型の人工知能モデルを低コストで高精度化する新たな学習手法「Zone of Proximal Policy Optimization(ZPPO)」を発表した。パラメータ数が27分の1以下の小型モデルが、大型モデルの指導を受けながら自律的に学習能力を向上させる仕組みを実現したものである。

ZPPOが解決する技術的課題は、AIモデルの「知識蒸留」と「強化学習」それぞれが抱える限界にある。知識蒸留とは大型モデルの出力パターンを小型モデルに転写する手法だが、モデル規模の差が大きくなるほど転写の歪みが生じ、汎化性能が低下する。一方、強化学習は小型モデル自身の試行を基に訓練するが、難問において正解を一度も出せない場合は学習信号がゼロになり、訓練が停滞する。ZPPOはこの停滞を「プロンプト設計」で回避する。難問に対して、教師モデルの正解と生徒モデルの誤答を匿名化して並列提示する「BCQ形式」と、生徒の誤答群を一括提示して失敗パターンを自己認識させる「NCQ形式」の二種類のプロンプトを動的に構成する。習熟度に応じた問題を繰り返し与える「プロンプト再生バッファ」と組み合わせることで、生徒モデルが現在の能力圏内で最大限に伸びる構造を実現した。この設計思想はソビエトの心理学者ヴィゴツキーが提唱した「最近接発達領域」に着想を得ている。

実験では、Qwen3.5シリーズの0.8Bから9Bパラメータのモデルを生徒、27Bモデルを教師として設定し、画像・映像・言語を含む31のベンチマークで評価した。ZPPOは既存の蒸留手法および強化学習手法GRPOを上回る精度を達成し、特に最小規模の0.8Bモデルで最大の改善幅を記録した。

この成果がもたらすビジネス上の意義は多岐にわたる。第一に、クラウドAPI依存からの脱却である。金融機関のリスク審査部門や医療機関の診断支援部門では、個人情報保護の観点からデータを外部サーバーに送信できないケースが多い。ZPPOを用いれば、オンプレミスまたはエッジ環境に展開できる小型モデルを、大型モデルに匹敵する精度まで引き上げることが可能になる。第二に、推論コストの削減である。製造業の品質管理部門や小売業のサプライチェーン管理部門では、大量の画像・映像データをリアルタイムで処理する需要がある。9Bクラスのモデルで十分な精度が得られれば、GPUクラスター運用コストを大幅に抑制でき、AIコスト対効果(ROI)の改善に直結する。第三に、マーケティング部門における多言語・多モーダルコンテンツ生成の内製化も視野に入る。小型モデルを社内データで追加学習させる際の精度向上が期待でき、外部ベンダー依存度の低下につながる。

今後の展望として、ZPPOの手法はモデルアーキテクチャや業界固有データへの応用が比較的容易とみられる。企業がLLM(大規模言語モデル)の自社開発・カスタマイズを検討する際、訓練コストと精度のトレードオフを改善する実践的な選択肢として注目される。ただし、教師モデルの品質や多様なドメインへの適応については引き続き検証が必要であり、特定業務への導入前には十分な評価が求められる。

出典: Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients, Byung-Kwan Lee, Ximing Lu, Shizhe Diao, Minki Kang, Saurav Muralidharan, Karan Sapra, Andrew Tao, Pavlo Molchanov, Yejin Choi, Yu-Chiang Frank Wang, Ryo Hachiuma, arXiv:2606.18216v1

本記事はAIにより執筆され、Affectosphere Group が監修しています。

広告