アリババが発表した**MAI-UI(Multimodal AI agent for User Interface)**は、人間がスマートフォンを操作するように、画面を見て、考え、実行する次世代のAIです。従来の自動化ツールとは一線を画すその実力を、料金、機能、実例の3点から解説します。
1. 料金体系:オープンソースと商用のハイブリッド
MAI-UIは、アリババの「オープン戦略」に基づき、利用形態によってコストが変わります。
| 利用形態 | 料金モデル | 特徴 |
| ローカル・開発用 | 無料 (オープンソース) | ModelScopeやHuggingFaceからモデル(2B/8B)をダウンロードして自社サーバー等で実行。 |
| API利用 (DashScope) | 従量課金 (トークン制) | アリババクラウドのAPIを通じて利用。画像処理(視覚トークン)とテキスト処理の合計で課金。 |
| エンタープライズ版 | 個別見積もり | 企業の専用アプリへの最適化や、高度なセキュリティ環境での運用サポートを含むプラン。 |
注記: オープンソース版は無料ですが、AIを動かすための高性能なGPU(NVIDIA A100/H100等)のインフラ費用は別途必要になります。
2. 具体的な4つの革新的機能
MAI-UIが「ただのチャットAI」と違うのは、デバイスを実際に動かす力にあります。
- 視覚的グラウンディング(画面認識):アプリのソースコードを読み込むのではなく、スクリーンショットから「ボタン」「入力欄」「アイコン」を人間と同じように認識します。これにより、どんなに複雑な独自アプリでも操作可能です。
- 能動的対話(Active Interaction):指示が曖昧なとき、勝手に進めて失敗するのを防ぎます。「一番安い航空券を予約して」と言われた際、AIが「預け入れ荷物はありますか?」と自分から質問し、正確なタスク遂行を目指します。
- MCPツールコール(API連携):「画面を10回クリックする」よりも「APIを1回叩く」方が速い場合、AIが判断してバックエンドのツールを呼び出し、操作を高速化します。
- 動的環境への適応:オンライン強化学習により、急な広告ポップアップや、アプリのアップデートによるボタン配置の変更にも柔軟に対応します。
3. 実例:MAI-UIができること
日常生活からビジネスまで、以下のようなシーンで活用されています。
① 複雑な旅行・出張の手配
ユーザーの指示: 「来週の大阪出張、予算3万円以内で、新幹線から近いホテルを予約して。ついでにカレンダーにも入れといて。」
- AIの動き: 楽天トラベル等で検索 → 地図アプリで駅からの距離を確認 → 条件に合うホテルを予約 → Googleカレンダーに自動登録。
② ソーシャルメディアの運用代行
ユーザーの指示: 「昨日のイベントの写真を使って、Instagramに『楽しかった!』という内容で投稿して。ハッシュタグも適切に選んで。」
- AIの動き: 写真フォルダから最新画像をピックアップ → Instagramを起動 → 写真を選択・加工 → キャプションを生成して投稿。
③ モバイルアプリのデバッグ(開発者向け)
開発者の指示: 「このショッピングアプリで、カートに商品を入れて決済直前まで行くテストを100回繰り返して。」
- AIの動き: 異なる商品や支払い方法を組み合わせ、人間が操作するようにUIテストを自動で実行。
4. 導入へのステップ
MAI-UIは現在、開発者向けに広く公開されています。
- モデルの入手: ModelScope 等から MAI-UI-2B(軽量)または 8B(高精度)を選択。
- デプロイ: Dockerを利用したワンクリックデプロイがサポートされており、手元のPCやサーバーですぐに環境構築が可能です。
- Android連携: ADB(Android Debug Bridge)を介して、PCからスマホをリモート操作する形で実装されます。


コメント