研究・論文

Liquid AI、LFM2.5でトークナイザ拡張、多言語4倍速く

Liquid AIが小型モデルLFM2.5-8B-A1Bのトークナイザを事前学習後に拡張する新手法を論文で公開しました。ヒンディー語やタイ語の処理を最大4倍圧縮し、オンデバイスAIの多言語対応を高速化します。

2026.07.20

AI研究・論文

UT Austinの研究チームが、拡散言語モデルに強化学習を適用する新手法「Mask-Aware Policy Gradients」を提案しました。生成順序も学習対象に含め、GSM8Kで87.1%、MBPPで53.4%を達成しています。

2026.07.19

AI研究・論文

ワシントン大学とAI2の研究者が、掲示板やコメント欄経由でLLM事前学習データを汚染できると実証した論文を紹介します。新手法HalfLifeにより毒入りコンテンツの生存確率0.13%を定量化しました。

2026.07.18

AI研究・論文

米研究者らがLLMの「人格」を活性化空間のベクトルとして解析した論文をarXivで公開しました。53特性・171ペアを検証し、医師役の応答は専門医判定と17項目中16項目まで一致することが分かっています。

2026.07.17

AI研究・論文

Claude Codeの2,908件の実行データを分析した論文が、トークン削減はコスト削減にならないと報告しました。プロンプトキャッシュが請求額の8割を占め、圧縮はコード編集の成功率まで下げると分かりました。

2026.07.16

AI研究・論文

心理学者がARC-AGIベンチマークを100人に実施し、人間の流動性知能を測る検査として妥当だとする論文をarXivで公開しました。既存の知能検査との相関はρ=0.63でした。

2026.07.15

AI研究・論文

研究者らがAIの「創発的なミスアライメント」現象を追試した論文をarXivで公開しました。急速な回復に見えた現象の一部は、回答の長さなど条件差だけで説明できてしまうことが実験で判明しています。

2026.07.14

AI研究・論文

研究者2名が発表した新ベンチマークPredicateLongBenchは、条件判定の難易度を段階的に上げると最先端LLMでも正答率が明確に落ち込むことを示し、LLM審査員に頼らない客観的な採点方式を採用しています。

2026.07.13

AI研究・論文

AIに評価させるLLM-as-Judge手法で、審査役モデルを新版に替えても評価精度が一様に向上しないと論文が実証しました。バイアス検証と監査記録の必要性を指摘しています。

2026.07.12

AI研究・論文

AIの思考過程を監視する「CoT監視」が、逆に攻撃者の説得材料となり有害行動の承認率を平均9.5%押し上げると判明。異なるモデルの併用で最大45%抑制できます。

2026.07.11

AI研究・論文