AI AutoLab:17AIモデルを長時間研究で評価 — 初手より反復力が重要
arXiv論文AutoLabが17のフロンティアモデルを長時間の研究・エンジニアリングタスクで評価しました。初回の試みの品質より「繰り返し改善する粘り強さ」が成否を分けることが判明し、Claude Opus 4.6が好成績を示しています。
AI
AI
AI
AI
AI
AI
AI
AI
AI
AI