Qwen3.7-Plus正式公開 — 動画対応でMaxの6分の1の低コスト

black laptop computer displaying source code AI

Alibabaが6月1日、Qwen3.7-Plusをエージェント向け低コストマルチモーダルモデルとして正式公開しました。テキスト・画像・動画を入力として受け取ることができ、入力1Mトークンあたり$0.40・出力$1.60という価格は、上位モデルQwen 3.7 Maxの入力$2.50/Mと比べて約6分の1です。コンテキストウィンドウ(一度に処理できるテキスト量)は最大100万トークンで、推論用に最大25万6千トークンを内部で確保できます。価格と性能のバランスから、コスト重視のエージェントパイプライン構築における有力な選択肢となっています。

背景と文脈

AlibabaのQwenシリーズは、2024年から急速にリリースを重ねてきたLLM(Large Language Model:大規模言語モデル)ファミリーです。オープンソースで公開される軽量モデル(Qwen2.5など)と、クラウドAPI経由のプロプライエタリな上位モデルの二本立てで展開しており、特に中国外のグローバル市場でも採用が広がっています。

Qwen 3.7シリーズでは、5月に上位モデルのQwen 3.7 Maxがまず登場しました。1兆パラメータ超の大規模モデルで、エージェントタスクへの特化を打ち出した設計です。今回のQwen3.7-Plusはその「コスト重視版」として位置づけられており、動画入力のマルチモーダル対応を加えながら価格を大幅に抑えています。

マルチモーダルAI(テキスト・画像・音声・動画など複数の形式を扱えるAI)の競争が激化する中、Qwen3.7-Plusはテキスト専用のMaxに対して「見る」機能を付け加えた形になっています。動画理解はGemini 1.5 ProやGPT-4oが先行してきた分野ですが、Qwenがより低価格帯に持ち込んだことで競争の構図が変わりつつあります。

技術/ビジネス面

data center server colorful lights
Photo by Shubham Dhage on Unsplash

Qwen3.7-Plusの技術的な特徴として特筆すべきは、100万トークンのコンテキストウィンドウと「内部推論バジェット」の分離です。100万トークンのうち最大25万6千トークンをモデルが内部推論(Chain-of-Thought:思考の連鎖。答えを出す前に中間ステップを考える手法)専用に確保できる設計になっており、長くて複雑なエージェントタスクでも論理の整合性を維持しやすくなっています。

入力モダリティはテキスト・画像・動画の3つで、出力はテキストのみです。動画入力は長尺の映像を処理でき、会議の録画や製品デモ動画の要約といったユースケースが想定されています。ツール呼び出し(Function Calling)や自律的な反復実行にも対応しており、エージェントとして複数ステップの作業を自動化できます。

価格面では、入力$0.40/M・出力$1.60/Mという数字が際立っています。同等のマルチモーダル性能を持つモデルと比較すると、コスト削減が大きい点が開発者に評価されています。ただし、オープンウェイト(公開された重みファイル)は提供されておらず、Alibaba Cloud Model Studio経由のAPIのみでの提供となっています。自社ホスティングやオフライン環境での利用を求める場合には対応できません。

これからどうなるか

Qwen3.7-Plusが示す方向性は「動画対応を含むマルチモーダルエージェントの低価格化」です。これはAgenticなワークフロー(AIが自律的に複数のステップを判断・実行する仕組み)を組む開発者にとって、コスト試算を見直すきっかけになります。従来はGeminiやGPT-4oなど高価格帯のモデルを使うしかなかった動画解析タスクを、より安価に実装できる可能性が出てきました。

一方、プロプライエタリ(非公開の独自モデル)であることは注意点です。Alibabaのサービス規約の変更や地域ごとのアクセス制限、将来的な価格改定のリスクを考えると、プロダクションでの本格採用前にベンダーロックイン(特定のサービスへの依存)のリスク評価が必要です。

既存のLLMパイプラインにQwen3.7-Plusを試す場合、Vercel AI GatewayやAmazon Bedrockなど複数のゲートウェイ経由でのアクセスが整備されつつあり、乗り換えのハードルは低下しています。コスト削減の幅が大きいため、まず開発・ステージング環境での比較から始めてみる価値があります。

まとめ

AlibabaのQwen3.7-Plusが正式公開されました。100万トークンのコンテキスト・動画入力対応・$0.40/Mという価格の組み合わせは、エージェント開発のコスト削減に直結します。オープンウェイトがない点には注意しつつ、コスト重視の用途での評価を検討する価値があります。

参考リンク

アイキャッチ画像: Photo by Jantine Doornbos on Unsplash

タイトルとURLをコピーしました