スマートフォンを自律制御するAIエージェント「MAI-UI」完全ガイド

テクノロジー

2026.01.01

アリババが発表した**MAI-UI（Multimodal AI agent for User Interface）**は、人間がスマートフォンを操作するように、画面を見て、考え、実行する次世代のAIです。従来の自動化ツールとは一線を画すその実力を、料金、機能、実例の3点から解説します。

1. 料金体系：オープンソースと商用のハイブリッド

MAI-UIは、アリババの「オープン戦略」に基づき、利用形態によってコストが変わります。

利用形態	料金モデル	特徴
ローカル・開発用	無料 (オープンソース)	ModelScopeやHuggingFaceからモデル（2B/8B）をダウンロードして自社サーバー等で実行。
API利用 (DashScope)	従量課金 (トークン制)	アリババクラウドのAPIを通じて利用。画像処理（視覚トークン）とテキスト処理の合計で課金。
エンタープライズ版	個別見積もり	企業の専用アプリへの最適化や、高度なセキュリティ環境での運用サポートを含むプラン。

注記: オープンソース版は無料ですが、AIを動かすための高性能なGPU（NVIDIA A100/H100等）のインフラ費用は別途必要になります。

MAI-UIが「ただのチャットAI」と違うのは、デバイスを実際に動かす力にあります。

視覚的グラウンディング（画面認識）:アプリのソースコードを読み込むのではなく、スクリーンショットから「ボタン」「入力欄」「アイコン」を人間と同じように認識します。これにより、どんなに複雑な独自アプリでも操作可能です。
能動的対話（Active Interaction）:指示が曖昧なとき、勝手に進めて失敗するのを防ぎます。「一番安い航空券を予約して」と言われた際、AIが「預け入れ荷物はありますか？」と自分から質問し、正確なタスク遂行を目指します。
MCPツールコール（API連携）:「画面を10回クリックする」よりも「APIを1回叩く」方が速い場合、AIが判断してバックエンドのツールを呼び出し、操作を高速化します。
動的環境への適応:オンライン強化学習により、急な広告ポップアップや、アプリのアップデートによるボタン配置の変更にも柔軟に対応します。

日常生活からビジネスまで、以下のようなシーンで活用されています。

ユーザーの指示: 「来週の大阪出張、予算3万円以内で、新幹線から近いホテルを予約して。ついでにカレンダーにも入れといて。」

ユーザーの指示: 「昨日のイベントの写真を使って、Instagramに『楽しかった！』という内容で投稿して。ハッシュタグも適切に選んで。」

開発者の指示: 「このショッピングアプリで、カートに商品を入れて決済直前まで行くテストを100回繰り返して。」

MAI-UIは現在、開発者向けに広く公開されています。