Toto 2.0公開 — 時系列予測がスケーリング時代へ、5モデルをOSS公開

時系列予測の分野にもスケーリング則が成立することを実証した論文「Toto 2.0」（arXiv:2605.20119）が公開されました。4Mから25億パラメータまで5サイズの事前学習済みモデルをApache 2.0ライセンスでOSS公開しており、GitHubとHugging Faceから即日利用できます。BOOM・GIFT-Eval・TIMEという3つの主要ベンチマーク全てで最高スコアを記録しており、「モデルが大きいほど予測精度が確実に上がる」というスケーリング時代の到来を告げる成果です。

背景と文脈
技術/ビジネス面
これからどうなるか
まとめ
参考リンク

背景と文脈

時系列予測（売上・センサー値・アクセス数などの時間的に連続したデータの将来値を推定する技術）は、LLM（Large Language Model、大規模言語モデル）のような汎用モデルとは異なる固有の難しさを持ちます。学習データの分布が産業ごとに大きく異なり、予測対象の粒度（秒・日・月）も幅広いため、「単一モデルをスケールすれば解ける」というLLMの成功体験がそのまま通用するか、長く疑問視されていました。

2024年頃からMetaのChronos、SalesforceのMoiraiといったオープンな時系列基盤モデルが登場し、業界の転換が始まりました。Totoの初代バージョンはDatadog（クラウドインフラ監視SaaS）の研究チームが開発し、オブザーバビリティ（システムの観測可能性、ログ・メトリクス・トレースを統合して内部状態を把握する考え方）ドメインのデータで訓練したモデルとして注目されました。今回のToto 2.0はその後継で、汎用時系列予測に本格的に挑む位置づけです。

研究コミュニティでは「時系列でもスケーリング則は成立するか」という議論が続いていましたが、Toto 2.0はその答えを複数ベンチマークで実証した点で意義があります。

技術/ビジネス面

Toto 2.0の核心は、4M・(中間3サイズ)・25億パラメータの5段階でモデルを揃え、「同じ学習レシピで全サイズにわたって安定して性能が向上する」ことを実証した点にあります。これを可能にしたのがu-muP（μP＝mu-parameterization、ハイパーパラメータを小さいモデルで調整した結果を大きいモデルへ転用する手法）で、巨大モデルを一から調整する手間を大幅に削減しています。

3つのベンチマークで最高スコアを達成しました。

BOOM: Datadogが独自に構築したオブザーバビリティ特化の時系列ベンチマーク
GIFT-Eval: 汎用時系列予測の標準的な評価セット
TIME: 訓練データへの汚染（テストデータが訓練データに混入する問題）を排除した、より厳密な評価ベンチマーク

3種の異なる評価方式すべてで最高性能を示したことで、特定のベンチマーク対策ではなく実際の汎化性能の高さが裏付けられています。モデルの重みとコードはHugging Faceで公開されており、Apache 2.0ライセンスのため商用利用も問題ありません。

これからどうなるか

開発者にとって最も実践的な影響は、「本番環境で使える軽量な時系列基盤モデルがOSSで手に入る」点にあります。サービスのKPIやインフラメトリクスの予測に、クラウドAPIへの依存なしに高精度なモデルを組み込めます。4Mパラメータの小型モデルはCPUでも動作しうる軽さで、既存のCIパイプラインや監視システムに組み込む障壁が低くなっています。

今後はファインチューニング（fine-tuning、特定タスクや業種に合わせてモデルを追加学習する手法）のノウハウが蓄積されることで、汎用モデルを出発点に自社ドメイン特化のモデルを効率よく構築するパターンが定着するでしょう。LLMで先行したスケーリング則の恩恵が時系列予測にも及ぶとなれば、異常検知・需要予測・リスク管理など幅広い領域でモデルの品質底上げが期待できます。