中国科学院ソフトウェア研究所の研究チームが、単一のオートレグレッシブLLM(Large Language Model、大規模言語モデル)だけで全二重(Full-Duplex)音声対話を実現する「BayLing-Duplex」を発表しました(arXiv:2606.14528)。人間同士の会話のように「話しながら聞く」「割り込む」「話を引き継ぐ」といった自然な対話行動を、外部モジュールや特別なターンテイキング(話者交代)検出器なしで実現しています。ターンテイキング成功率92%・割り込み成功率100%という実測値を記録し、音声AIの自然さを大幅に引き上げる成果です。
背景と文脈
現在広く使われている音声アシスタント(スマートスピーカーや音声チャットボット)の多くは、ハーフデュプレックス(Half-Duplex)方式で動作しています。ユーザーが話し終わるのを待ってから返答を開始する方式で、「話しかけ→停止→AI返答→ユーザーが再び話す」というターン制の会話になります。この方式は実装が単純ですが、人間同士の自然な会話とはかけ離れた体験をもたらします。
人間の会話は本質的に全二重(Full-Duplex)です。相手が話している途中で「うん」「そうですね」と相槌を打ち、必要なら割り込み、自分が話している途中でも相手の言葉を聞いています。これを音声AIで再現するには「聞く・考える・話す」を同時並行で処理する仕組みが必要で、従来はVAD(Voice Activity Detection、発話区間検出モジュール)など外部コンポーネントを組み合わせた複雑な実装が一般的でした。
BayLing-Duplexが注目される理由は、そうした追加コンポーネントを一切使わず、単一のオートレグレッシブLLMに特殊トークンを数種類追加するだけで全二重対話を実現したことです。既存の言語モデルアーキテクチャをほぼそのまま活用できるため、他のモデルへの応用や展開が比較的容易です。
技術/ビジネス面

BayLing-Duplexのアプローチは、標準的なLLMの語彙に「いつ聞くか・いつ話すか・いつ停止するか」を制御する特殊トークンを追加するというシンプルなものです。モデルはこれらのトークンを通じて会話の制御権を判断し、外部のターンテイキングモジュールに依存せずに話者交代・割り込み・重なり発話などを処理できます。
学習には全二重音声対話サンプルを40万件使用しています。この規模は大規模モデルの学習データとしては比較的少量で、既存のLLMをファインチューニングするだけで効果を得られることを示しています。評価結果は顕著で、ターンテイキング成功率92%・割り込み成功率100%を達成しました。音声応答品質の評価スコアは比較対象モデルの2.17から3.39に向上しており、従来手法と比較して明確な品質改善が確認されています。
既存の言語理解タスクでの性能も維持されており、全二重対話能力の追加が他の能力を損なわないことが確認されています。論文ではこれを「能力の共存」として評価しており、実用的なデプロイに向けた重要な特性です。
これからどうなるか
BayLing-Duplexが示す方向性は、音声AIが単なる「コマンド応答ツール」からより自然な「会話パートナー」へ進化できることを示しています。割り込みや相槌が自然に機能する音声AIは、電話サポートボット・語学学習ツール・アクセシビリティ支援など、インタラクションの自然さが価値に直結するアプリケーションで差別化要素になります。
開発者視点では、特殊トークン追加のみで既存LLMに全二重能力を付与できるという手法のシンプルさが重要です。音声対話システムを構築する際、従来必要だったVADや複雑な状態機械の設計を削減し、単一モデルで完結させるアーキテクチャが現実的になります。公開コードや実装詳細を確認することで、既存の音声パイプラインへの組み込み難易度を評価できます。
まとめ
BayLing-Duplexは単一LLMに特殊トークンを追加するだけで全二重音声対話を実現し、ターンテイキング92%・割り込み100%の成功率を達成しました。音声AIの自然さを高めるシンプルな手法として、実用的な音声アシスタント開発への応用が期待されます。
参考リンク
アイキャッチ画像: Photo by Icons8 Team on Unsplash

