AI界隈で最もホットなトピック「Computer Use(AIによるコンピュータ操作)」。AnthropicがClaude 3.5 Sonnetで先鞭をつけ、OpenAIが200ドル/月の「Operator」で追随する中、Microsoftが「とんでもない伏兵」を送り込んできました。
その名は「Fara-7B」。
たった70億パラメータ(7B)という軽量モデルでありながら、主要ベンチマークでGPT-4oを凌駕。しかも、クラウド不要の完全ローカル動作で、1タスクあたりのコストは約0.025ドル(GPT-4oベースのエージェントの約12分の1)という驚異的なコスト効率を実現しています。
これは技術デモではありません。「プライバシーを守りながら、自分のPCをAIに操作させる」という企業ニーズに応える、実用的なソリューションの登場です。
Microsoft Fara-7Bとは?
Microsoft Researchが2025年11月に発表したこのモデルは、AIエージェントの常識を覆すスペックを持っています。
基本スペック
項目詳細パラメータ数70億(7B)
ベースモデルQwen2.5-VL-7B(Alibaba)
コンテキストウィンドウ最大128,000トークン
ライセンスMIT License(商用利用可)
動作環境ローカルGPU / Copilot+ PC
主要ベンチマーク結果
Fara-7Bは複数のベンチマークで、同クラス最高性能を記録しています。
ベンチマークFara-7BGPT-4o (SoM Agent)UI-TARS-1.5-7BWebVoyager73.5%65.1%66.4%Online-Mind2Web34.1%-22.5%DeepShop26.2%--WebTailBench38.4%30.0%19.5%
特筆すべきは処理効率です。他のモデルがタスク完了に平均41ステップかかるところを、Fara-7Bは約16ステップで完了。出力トークン数も約1,100トークンと、GPT-5ベースのエージェント(約13,000トークン)の10分の1以下に抑えられています。
なぜFara-7Bは「ゲームチェンジャー」なのか?
1. 合成データ生成エンジン「FaraGen」の革新
Fara-7Bの高性能の秘密は、独自の学習パイプライン「FaraGen」にあります。
人間がPCを操作するデータを大量に集めることは、プライバシーやコストの観点から非常に困難です。そこでMicrosoftは、3段階の合成データ生成システムを構築しました。
Step 1: タスク提案 ClueWeb22やTrancoなどの公開コーパスからシードURLを抽出し、LLMが「そのページで人間が行いそうなタスク」を生成します(例:特定の映画チケットの予約、レビュー条件付きの買い物リスト作成など)。
Step 2: タスク実行 マルチエージェントフレームワーク「Magentic-One」がタスクを実行し、操作軌跡を記録します。
Step 3: 品質検証 3つの検証エージェント(Alignment Verifier / Rubric Verifier / Multimodal Verifier)が、操作が正しく完了したかをスクリーンショットとともに検証。基準を満たさない軌跡は除外されます。
この結果、145,603件の検証済み軌跡(約101万ステップ)、70,117ドメインという大規模かつ高品質なデータセットが構築されました。
2. 「ローカル動作」が解決する3つの課題
Claude Computer UseやOpenAI Operatorは強力ですが、画面のスクリーンショットを常にクラウドへ送信する必要があります。
Microsoft ResearchのYash Lara氏(Senior PM Lead)は、VentureBeatの取材に対し「すべての視覚入力をデバイス上で処理することで、真の”ピクセル主権”が生まれる」と述べています。
課題クラウド型(Claude/Operator)Fara-7B(ローカル)プライバシースクリーンショットがクラウドに送信データは端末内で完結コストAPI利用料(数十セント〜/タスク)電気代のみ(約0.025ドル/タスク)レイテンシネットワーク遅延あり即時応答規制対応HIPAA/GLBAへの適合が課題規制要件を満たしやすい
Forrester社のCharlie Dai氏(VP兼プリンシパルアナリスト)は「これは企業AIアーキテクチャの分散化を示唆しており、ハイパースケールインフラへの依存を下げながら、エッジガバナンスの新戦略が求められる」と指摘しています。
3. 「Pixel-in, Action-out」の汎用性
Fara-7Bは、HTMLやアクセシビリティツリーを解析しません。画面のピクセルを見て、座標(x, y)を直接指定してクリックします。
この「視覚中心」アプローチには重要な利点があります:
- DOM依存からの解放:壊れやすいDOM解析に頼らない
- クロスサイト汎化:異なるWebサイトでも一貫して動作
- アプリ非依存:Webブラウザだけでなく、デスクトップアプリやレガシーシステムも操作可能
「このアプリはAPIがないから自動化できない」という言い訳が、過去のものになりつつあります。
4. Critical Points:安全性への配慮
Fara-7Bには「Critical Points」と呼ばれるセーフティ機能が組み込まれています。
以下のような不可逆的なアクションを実行する前に、モデルは自動的に一時停止し、ユーザーの明示的な許可を求めます:
- 個人情報の入力
- 購入の完了
- メールの送信
- 電話の発信
また、有害なタスク(ポリシー違反)への拒否機能も学習されており、自動化されたレッドチームテストによってリスク評価が継続的に行われています。
競合との比較:Claude Computer Use / OpenAI Operator
| 項目 | Fara-7B | Claude Computer Use | OpenAI Operator |
|---|---|---|---|
| 提供形態 | オープンウェイト(MIT) | API(有料プラン) | ChatGPT Pro限定($200/月) |
| 動作環境 | ローカル | クラウド | クラウド |
| 操作対象 | Web(デスクトップも可能性あり) | Web + デスクトップ | Webのみ |
| WebVoyager | 73.5% | 56% | 87% |
| OSWorld | – | 22% | 38.1% |
| コスト/タスク | 約$0.025 | API利用料 | $200/月のサブスク |
| プライバシー | ◎(完全ローカル) | △(クラウド送信) | △(クラウド送信) |
OpenAI Operatorは一部ベンチマークで最高スコアを記録していますが、月額200ドルという価格と米国限定という制約があります。一方、Fara-7Bは無料で利用でき、プライバシーを完全に保護できる点で、エンタープライズユースにおいて優位性があります。
導入方法
Fara-7BはGitHubで公開されており、以下の手順で導入できます。
# 1. リポジトリをクローン
git clone https://github.com/microsoft/fara.git
cd fara
# 2. 環境をセットアップ
python3 -m venv .venv
source .venv/bin/activate
pip install -e .
playwright install
WindowsユーザーはWSL2(Windows Subsystem for Linux)の使用が推奨されています。
また、GUIで試したい場合はMagentic-UIとの統合も可能です。
まとめ:エッジAI時代の幕開け
Fara-7Bは、**「軽量」「ローカル」「オープン」**という3つの要素を兼ね備えた、エンタープライズ向けComputer Use Agentの決定版です。
Pareekh ConsultingのCEO、Pareekh Jain氏は「エッジベースのモデルは、クラウドAIの3つの問題(コスト、データ流出、レイテンシ)を解決する。企業のタスクの大半はラップトップ上の内部アプリ間で行われており、ローカルエージェントの方がはるかに適している」と述べています。
もちろん、まだ実験段階であり、複雑なタスクでの精度低下やハルシネーションのリスクは存在します。Microsoftも「重要な操作の前にはユーザーの確認を挟むように」と警告しています。
しかし、7Bモデルでここまでできるという事実は、AIエージェントの民主化を一気に加速させるでしょう。クラウドの巨人が提供する高価なAPIではなく、あなたのノートPCの中で静かに待機し、面倒なルーチンワークを片付けてくれる。そんな未来が、すでに始まっています。
引用・出典
情報源URL
Microsoft Research Blog公式ブログ
技術論文(ArXiv)PDFGitHubmicrosoft/fara
Hugging Facemicrosoft/Fara-7BVentureBeat記事
