AI活用 2026.05.25

OpenAI Codexデスクトップ版とは|AIによるPC操作・モバイル連携・Computer Useの進化

OpenAI Codexデスクトップ版 Computer Use AIがPCを操作

AIがコードを書く時代から、AIがPCの画面を見て操作する時代に突入しました。OpenAIのCodexデスクトップアプリは、もともとコーディング支援ツールとして登場しましたが、2026年4月のアップデートで「Computer Use」機能を搭載。画面のスクリーンショットを取得し、UIを解析し、クリックやキーボード操作を自動実行する汎用デスクトップエージェントへと進化しました。

さらに5月にはモバイル版もリリースされ、スマートフォンからエージェントの監視・承認が可能になっています。本記事では、Codexデスクトップ版のComputer Use機能の仕組み、モバイル連携、中小企業での活用シーン、競合製品との比較、そしてセキュリティ上の注意点まで、実務目線で解説します。

OpenAI Codexデスクトップ版とは

コーディングツールから汎用エージェントへの進化

OpenAI Codexは、もともとAIコーディング支援ツールとして開発されました。コードの自動生成、バグ修正、リファクタリングなど、開発者の作業を効率化するための製品です。しかし2026年に入ってから、その性格は大きく変わりました。

  • 2026年2月:macOS版デスクトップアプリをリリース
  • 2026年3月:Windows版デスクトップアプリをリリース
  • 2026年4月:Computer Use機能を搭載。AIが画面を見てクリック・キーボード操作を実行可能に
  • 2026年5月:モバイル版(iOS/Android)をリリース

特に転換点となったのが4月のComputer Use搭載です。これにより、Codexは「コードを書くAI」から「PCを操作するAI」へと変貌しました。コーディングに限定されず、あらゆるデスクトップアプリケーションを操作できる汎用エージェントとなったのです。

何ができるのか

Codexデスクトップ版の主要な機能を整理します。

  • Computer Use(画面操作):画面を見てアプリを操作。ブラウザ、Office、業務システムなど対象を問わない
  • 複数エージェントの並列実行:異なるタスクを同時に複数のエージェントに任せられる
  • プロジェクト別スレッド管理:案件ごとに会話履歴とコンテキストを分離管理
  • IDE連携:VS Code拡張やCLI経由での操作も可能
  • Goal Mode:目標を伝えるとエージェントが計画を立てて自律的に実行

単なるチャットボットではなく、PCの前に座って作業する人間の代わりを務めるエージェントという位置づけです。ChatGPTエージェントモードがチャットUIの中で完結するのに対し、Codexはデスクトップ環境全体を操作対象にしている点が大きな違いです。

提供プランと料金

Codexデスクトップ版は、期間限定でFreeプランおよびGoプランでも利用可能です。ただし利用回数に制限があります。

  • Free / Go:基本機能が利用可能(回数制限あり)
  • Plus / Pro / Business / Enterprise / Edu:レート制限が2倍に拡大。本格的な業務利用に対応

まず無料プランで動作を確認し、効果が見えたら有料プランに切り替える流れが現実的です。

Computer Use機能の詳細

AIが画面を「見て」操作するとは

Computer Use機能の仕組みは、概念的にはシンプルです。

  1. PCの画面のスクリーンショットを取得する
  2. スクリーンショットからUIの構造(ボタン、テキストフィールド、メニューなど)を解析する
  3. 解析結果に基づいて、クリック・キーボード入力・スクロールなどの操作を実行する
  4. 操作結果の画面を再度取得し、次のアクションを判断する

このサイクルを繰り返すことで、まるで人間がPCの前に座って操作しているかのようにタスクを遂行します。APIやプログラムから直接システムを操作するのではなく、あくまで「画面を見て操作する」アプローチです。

この方式のメリットは、対象アプリケーションを問わないこと。API連携が用意されていないレガシーシステム、SaaS管理画面、Excelの複雑なマクロ操作など、画面上で人間が操作できるものは理論上すべてAIにも操作させられます。従来のRPAとAIエージェントの違いは、RPAが画面要素のIDや座標で操作対象を特定するのに対し、Computer UseはAIが画面の意味を理解して操作する点にあります。UIが多少変わっても対応できる柔軟性が特徴です。

Appshots機能(macOS限定)

macOS版にはAppshotsという独自機能が搭載されています。フロントウィンドウのスクリーンショットとテキスト情報を即座にエージェントに送信できる機能です。

  • 「今見ている画面について質問する」が瞬時に可能
  • エラーメッセージが出たらAppshotsで送信して原因を聞く
  • 複雑なダッシュボードの数値について「この画面で異常値はどれか」と聞く

キーボードショートカット一発で画面をキャプチャしてエージェントに渡せるため、「スクリーンショットを撮って、ファイルとして添付して、チャットに投げる」という手間がなくなります。現時点ではmacOS限定ですが、Windows版への展開も期待されています。

Goal Mode

Goal Modeは、当初は実験的機能として提供されていましたが、現在は正式機能に昇格しています。「この目標を達成してほしい」と伝えるだけで、エージェントが計画を立てて自律的に実行するモードです。

  • 目標設定:「このスプレッドシートのデータを集計してグラフを作って」
  • 計画立案:エージェントが必要なステップを分解
  • 自律実行:ステップごとに画面操作を実行
  • 完了報告:結果をユーザーに報告

デスクトップアプリ、IDE拡張、CLIのすべてで利用可能です。ただし、複雑なタスクでは途中で判断に迷うケースもあるため、承認フローを設定して人間が要所で確認する運用が現実的です。

モバイル連携の衝撃

2026年5月14日のモバイル版リリース

2026年5月14日、Codexのモバイル版(iOS/Android)がリリースされました。全プランで利用可能で、Businessプランにも対応しています。

重要なのは、コードはスマホ上では実行されないという点です。モバイル版はあくまで「リモコン」の役割で、デスクトップやリモート環境で動作しているエージェントのライブビューを表示します。

スマホからできること

  • エージェントのタスク進捗を確認:今どの段階まで進んでいるかをリアルタイムで確認
  • コマンドの承認/拒否:重要な操作の実行前に承認を求められたとき、スマホから応答
  • モデルの切り替え:GPT-5.4やGPT-5.5など、利用モデルを変更
  • 新規プロジェクトの開始:スマホからタスクを指示してエージェントを起動

想定される活用シーン

モバイル連携によって、デスクトップエージェントの活用場面が大きく広がります。

  • 移動中の監視・承認:オフィスのPCで動いているエージェントを電車の中から確認し、重要な操作を承認
  • 外出先からの緊急タスク指示:急ぎのデータ集計やレポート作成をスマホから指示し、オフィスPCのエージェントに実行させる
  • 夜間バッチ処理の監視:帰宅後に自宅からエージェントの進捗を確認し、エラー発生時に対応

「PCの前にいなくてもAIに仕事をさせられる」という体験は、働き方そのものを変えるポテンシャルがあります。

中小企業の業務への活用5選

Computer Use機能は開発者だけのものではありません。中小企業の日常業務にも応用できるユースケースを5つ紹介します。

1. Webアプリの定型操作自動化

多くの中小企業では、日々の業務で複数のWebアプリケーションを使っています。受注管理システムへのデータ入力、ECサイトの在庫更新、CRMへの顧客情報登録など、画面を見ながら手作業でデータを入力する業務は少なくありません。

Codexに「この注文一覧から受注管理システムに登録して」と指示すれば、エージェントが画面を見ながら一件ずつ入力してくれます。APIが提供されていないシステムでも、画面操作で自動化できるのが強みです。

2. 経理業務の自動化

会計ソフトへの仕訳入力、請求書データの転記、経費精算書の確認と承認など、経理部門の定型業務にも適用可能です。領収書の画像から金額・日付・取引先を読み取り、会計ソフトの該当フィールドに入力するといったフローが実現できます。

ただし金額に関わる操作は誤りが許されないため、承認フローの設定が必須です。「入力内容を一覧で提示→人間が確認→一括登録」という流れにするのが安全です。

3. 競合サイトのモニタリング

競合他社のWebサイトを定期的に巡回し、価格変更・新商品追加・キャンペーン情報などの変更点を検出してレポートにまとめる作業です。人手でやると時間がかかりますが、エージェントに「毎週月曜日にこの5社のサイトを確認して変更点をまとめて」と指示しておけば自動で実行されます。

4. テスト作業の自動化

自社のWebアプリケーションやシステムの動作テストをAIに実行させるケースです。「ログインして、商品を検索して、カートに入れて、決済画面まで進めて、各ステップでエラーがないか確認して」といった操作テストを、テストコードを書かずに実行できます。

テスト専門のエンジニアがいない中小企業にとって、自然言語でテストシナリオを指示できるのは大きなメリットです。

5. データ収集と整理

複数のWebサイトや社内システムから情報を収集し、スプレッドシートに整理する作業です。求人サイトからの応募者情報の転記、業界ニュースのピックアップ、市場調査データの収集など、「画面を見て情報を拾い、別の場所にまとめる」タイプの作業はComputer Useの得意領域です。

Claude Computer Useとの比較

画面操作AIという領域では、AnthropicのClaude Computer Useが先行していました。OpenAI Codexの参入により、選択肢が増えています。ここでは主要な製品を比較します。

OpenAI Codex vs Claude Computer Use

両製品はアプローチが異なります。

  • Codex:デスクトップアプリとして提供。開発者エコシステム(VS Code、CLI)との統合が強く、複数エージェントの並列実行が可能。モバイル版も提供
  • Claude Computer Use:API中心の提供。プログラマブルな自動化に強く、Anthropic APIで直接制御。Docker環境でのサンドボックス実行が可能

Codexは「誰でも使えるデスクトップアプリ」、Claude Computer Useは「開発者がAPIで制御する自動化基盤」という性格の違いがあります。

Microsoft Copilotとの比較

MicrosoftのCopilotもPC操作の自動化を視野に入れていますが、現時点ではMicrosoft 365製品群(Word、Excel、Teams、Outlook)内の操作支援が中心です。Codexが任意のアプリケーションを画面操作で自動化できるのに対し、CopilotはMicrosoftエコシステム内での最適化に重点を置いています。

Gemini Sparkとの比較

GoogleのGemini Sparkは、Google Workspace(Docs、Sheets、Gmail、Calendar)を横断して操作するエージェントです。Codexが「PC画面全体」を操作対象とするのに対し、Sparkは「Google Workspace内」に特化しています。Google製品を中心に業務を回している企業にはSparkのほうが使いやすい場面もあります。

項目 OpenAI Codex Claude Computer Use Microsoft Copilot Gemini Spark
操作対象 PC画面全体 PC画面全体(API経由) Microsoft 365中心 Google Workspace中心
提供形態 デスクトップアプリ + モバイル API + Docker Microsoft 365統合 Google Workspace統合
複数エージェント 対応 API制御で可能 限定的 限定的
モバイル対応 iOS/Android対応 なし(API経由) Microsoft 365アプリ内 Googleアプリ内
IDE連携 VS Code, CLI API統合 GitHub Copilot連携 なし
向いている企業 開発チームあり、多様なアプリ利用 技術力あり、カスタム自動化重視 Microsoft環境中心 Google環境中心

どれが「最良」かではなく、自社の業務環境と既存ツールに合うものを選ぶのが正解です。Microsoft 365中心ならCopilot、Google Workspace中心ならSpark、特定のツールに縛られずに汎用的に使いたいならCodexまたはClaude Computer Useという判断になります。AWS Bedrock環境でのマルチAI戦略を組んでいる企業では、Claudeとの併用も選択肢に入ります。

セキュリティと注意点

画面共有のリスク

Computer Useは「AIが画面を見る」技術です。これは便利な反面、画面上の機密情報もAIに送信されることを意味します。

  • パスワード入力画面:自動入力中にパスワードが画面に表示されるとAIに読まれる
  • 個人情報:顧客データベースの画面を操作する際、個人情報がスクリーンショットに含まれる
  • 社外秘資料:画面に表示されている機密文書の内容がAIプロバイダーのサーバーに送信される
  • 通知の混入:作業中にSlackやメールの通知が画面に表示され、無関係な機密情報が映り込む

これらのリスクは、Computer Use技術を採用するすべての製品に共通する課題です。AIガバナンスの一環として、画面共有ポリシーを策定する必要があります。

承認フローの重要性

Codexには操作の承認フローが組み込まれています。設定によって、重要な操作の前にユーザーの承認を要求できます。

  • 承認モード:すべての操作で承認を求める。安全だが効率は下がる
  • 半自動モード:低リスク操作は自動実行、ファイル削除・送信・決済などの高リスク操作で承認を要求
  • 自動承認モード:すべての操作を自動実行。効率は高いが、誤操作のリスクも最大

業務利用では半自動モードが現実的です。「読み取り・入力は自動、送信・決済・削除は承認」というルールを設定することで、効率とリスクのバランスが取れます。自動承認モードは、テスト環境やサンドボックス内での利用に限定すべきです。

社内利用ルールの整備

Computer Use技術を業務導入する際に最低限整備すべきルールは以下のとおりです。

  • 利用可能な業務の範囲:どの業務でComputer Useを許可するかを明文化
  • 画面共有ポリシー:機密度の高い画面(人事システム、財務システム、個人情報含む画面)での使用制限
  • 承認フローの設定基準:どの操作に人間の承認を挟むかの基準
  • ログ管理:AIが実行した操作のログ保存と定期監査
  • インシデント対応:AIの誤操作が発生した場合の報告・対応フロー

技術の導入と同時にルールを整備しないと、「便利だからと個人判断で使い始め、後から問題が発覚する」パターンに陥ります。

株式会社Sei San Seiができる支援

株式会社Sei San Seiでは、CodexをはじめとするAIエージェント技術の業務活用設計をご支援しています。「どの業務にAIエージェントを入れるべきか」「既存のRPAとどう棲み分けるか」「セキュリティルールをどう整備するか」といった課題に対し、実務に即した提案を行います。

  • MINORI Cloud:生成AI × RPA × 業種特化型の次世代型ERP。AIエージェントとRPAを組み合わせた業務自動化を、業界別の業務プロセスに合わせて設計・運用
  • MINORI Learning:DX要件定義・業務プロセス設計の社内人材育成研修。AIツールの選定基準や活用設計を自社でできるようになるための実践プログラム

「AIに仕事を任せたいが、何から手をつければいいかわからない」――そんな課題をお持ちの方は、お気軽にご相談ください。

まとめ

本記事のポイントを整理します。

  1. OpenAI Codexデスクトップ版は、コーディングツールから汎用デスクトップエージェントへ進化した
  2. Computer Use機能により、AIが画面を見てクリック・キーボード操作を自動実行できる
  3. モバイル版のリリースで、スマホからエージェントの監視・承認が可能
  4. 中小企業では定型操作自動化、経理処理、競合モニタリング、テスト、データ収集などに活用可能
  5. Claude Computer Use、Copilot、Sparkなど競合製品とは操作対象と提供形態が異なるため、自社環境に合う選択が重要
  6. 画面共有のセキュリティリスクを理解し、承認フローと社内ルールの整備が必須

よくある質問(FAQ)

Q1. Codexデスクトップ版は無料で使えますか?

期間限定でFreeプランやGoプランでも利用可能です。Plus、Pro、Business、Enterprise、Eduプランではレート制限が2倍に拡大されます。無料プランでは利用回数に制限があるため、本格的に使うなら有料プランの検討をおすすめします。

Q2. Windows版はありますか?

はい。2026年2月にmacOS版、3月にWindows版がリリースされています。ただしAppshots機能(画面キャプチャ即送信)など一部機能はmacOS限定です。Windows版でもComputer Use、複数エージェント並列実行、IDE連携など主要機能は利用できます。

Q3. Computer Useで社内の業務システムも操作できますか?

原理的には画面上に表示されるアプリケーションであれば操作可能です。Webブラウザ経由の業務システム、デスクトップアプリ、Excel等のOfficeソフトも対象になります。ただしVPNやリモートデスクトップ越しの操作、二要素認証が必要な画面などは制約が生じる場合があります。

Q4. プログラミング知識がなくても使えますか?

Computer Use機能は自然言語で指示できるため、プログラミング知識は不要です。ただしCodexの本来の強みはコーディング支援にあるため、開発者が使うとより高度な活用が可能です。非エンジニアの方は定型的なPC操作の自動化から始めるのが現実的です。

Q5. セキュリティ面で注意すべきことは何ですか?

AIが画面を見るということは、画面上の機密情報(パスワード、個人情報、社外秘データ)もAIに送信される可能性があるということです。重要な操作には人間の承認フローを設定し、自動承認モードは信頼できるタスクに限定してください。社内でAI利用ガイドラインを整備し、機密度の高い画面での使用制限を明文化することが重要です。

ブログ一覧へ戻る

最新記事

まずはお気軽にご相談ください

無料相談・資料請求を受け付けております

お問い合わせはこちら