AI 推論モデルが安全配置を劣化させる — 6軸評価で実証 arXiv
arXiv論文(2606.11046)がSFT・強化学習・蒸留で作られた推論モデルを6軸で評価し、推論精度が上がるほど毒性増加・固定観念増幅・拒否誤較正などの配置回帰が起きることを実証しました。推論ベンチマークだけでモデルを選ぶ開発者が増えている今、信頼性評価の欠落が問題になっています。
AI
AI
SQL
AI
AI
AI
AI
AI
SQL
AI