Mobile-Env：构建合格的图形界面交互基准

Mobile-Env是用于构建图形界面交互评测基准，评测、训练图形界面交互智能体的交互平台，论文现公开于arXiv。

Mobile-Env基于AndroidEnv开发。通过Mobile-Env，智能体可以观测到Android操作系统的屏幕截图和视图框架（View Hierarchy，由于获取时延较高，该项是默认关闭的），然后采取点触屏幕或输入词元（token）等动作来与Android应用交互。交互过程中的某些步骤上，步骤指令、回报、历程结束等历程信号可能触发并统治智能体。具体是哪些步骤取决于特定的任务定义，可能是打开了某个目标界面，或者滚动到了正确的区域等等。

所构建的WikiHow任务集发布于Hugging Face平台。

英文文档（Documents in English）

平台特点

作为信息界面交互平台，Mobile-Env灵活，适用性强，易于扩展。其具有以下特点：

观测空间包含屏幕截图和视图框架，动作空间包括点触与输入词元，同时还可以通过各种包装器修改观测与动作空间的形式，因此，各种智能体，无论是基于视觉观测的还是基于文本观测，动作空间无论是连续的还是离散的，都可以利用Mobile-Env来评测。
新任务通过任务定义文件可以很容易地扩展。
Mobile-Env能够从多种操作系统反馈中解析任务事件，包括：屏幕文本、屏幕图标、视图框架、系统日志。因此Mobile-Env能够直接迁移到大多现实应用上，而不需要对应用定制修改。（屏幕文本和屏幕图标需要外部的文字、图标识别工具来支持。目前平台内置了一个对EasyOCR的包装，可以直接启用。内置的图标模型也在训练调试中，会在将来集成进去。）

快捷指南

安装

从PyPI安装：

pip install mobile-env-rl

或克隆本仓库并在本地构建：

git clone https://github.com/X-LANCE/Mobile-Env
cd Mobile-Env
pip install .

此外，也提供了部分带有已配置好的安卓镜像的Docker镜像。

加载、运行Mobile-Env以评测或训练

加载Mobile-Env的环境前，需要先创建一个安卓模拟器虚拟设备。然后才能加载已有的任务定义并启动环境。详细的指南请参考利用Mobile-Env验证、训练智能体。examples目录下提供了几个采用随机智能体，或由人类充当智能体的示例程序。

扩展新环境、新任务

要为Mobile-Env扩展新环境，需要准备好应用安装包，并确保其能在某个版本的安卓模拟器上启动、运行。如果该应用需要一些变化的在线数据，那么还需要将必要的数据保存下来，并在使用中回放，以保证评测的一致。这种情况下，还需要确认这些解除证书固定的方法对该应用有效。至于扩展新任务，则只需要准备好任务定义文件。具体的教程，请参考基于Mobile-Env扩展新环境（手机应用）或新任务。

demos目录下提供了几个示例任务定义。其中三个迁移自AndroidEnv：

classic_2048.m.textproto - 经典的2048小游戏
accessibility_forwarder_clock_set_timer.m.textproto - 简单的小任务，需要智能体按按钮重设计时器
systemui_egg_land_default.m.textproto - Flappy Droid，对经典小游戏Flappy Bird的开源复现

剩下一个文件openmoneybox.add_billings.textproto，基于开源记账应用OpenMoneyBox定义。任务的具体内容请查看该任务定义文件。

其他辅助工具

还开发了一套标注工具用于采集人类演示，以及一套模板工具，来根据模板生成任务定义，并将多个任务定义串接成一个多步任务。更详细的介绍请查看其他辅助工具。

Mobile-Env执行的开销参考

以下数据测量自如下配置：

操作系统与硬件：
- 操作系统：Manjaro 23.1.0 Vulcan
- 内核版本：x86_64 Linux 6.1.64-1-MANJARO
- 处理器：Intel Core i7-10700 @ 16x 4.8GHz
- 显卡：NVIDIA GeForce RTX 3090
- 运存：64GB
- 启用内核虚拟化硬件加速
安卓开发工具
- Android emulator version 32.1.14.0
- Android平台工具34.0.4
- libvert 1:9.9.0
Python及相关包
- Python 3.8.16
- EasyOCR 1.7.2
- sentence-transformers 2.2.2
安卓虚拟机
- 机型：Pixel 2
- 接口版本：API 30
- 系统变种：Google APIs
- 处理器核数：4
- 存储：8GB
- 屏幕尺寸：1080×1920

项目	耗时均值	耗时标准差
`TOUCH`动作	410.50µs	64.71µs
`LIFT`动作	412.30µs	84.18µs
`TEXT`动作	~~1.30s~~ 0.58s	~~0.28s~~ 0.03s
截图	19.94ms	21.47ms
调用Sentence Transformer（all-MiniLM-L12-v2）	8.51ms	0.17ms
获取视图框架	2.53s	1.90s
调用EasyOCR	0.44s	0.08s

单运行一个WikiHow 2.9.6应用时，占用虚拟内存6031MiB，残存内存3444MiB。

项目信息

本库由上海交通大学跨媒体语言智能实验室（X-Lance）开发、维护。相关论文可查阅https://arxiv.org/abs/2305.08144。

若Mobile-Env对您的研究起到了帮助，敬请引用本项目。可以使用下列的BibTex：

@article{DanyangZhang2023_MobileEnv,
  title     = {{Mobile-Env}: Building Qualified Evaluation Benchmarks for LLM-GUI Interaction},
  author    = {Danyang Zhang and
               Zhennan Shen and
               Rui Xie and
               Situo Zhang and
               Tianbao Xie and
               Zihan Zhao and
               Siyuan Chen and
               Lu Chen and
               Hongshen Xu and
               Ruisheng Cao and
               Kai Yu},
  journal   = {CoRR},
  volume    = {abs/2305.08144},
  year      = {2023},
  url       = {https://arxiv.org/abs/2305.08144},
  eprinttype = {arXiv},
  eprint    = {2305.08144},

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README-zh.md

README-zh.md

最近更新

Mobile-Env：构建合格的图形界面交互基准

目录

平台特点

快捷指南

安装

加载、运行Mobile-Env以评测或训练

扩展新环境、新任务

其他辅助工具

Mobile-Env执行的开销参考

项目信息

Files

README-zh.md

Latest commit

History

README-zh.md

File metadata and controls

最近更新

Mobile-Env：构建合格的图形界面交互基准

目录

平台特点

快捷指南

安装

加载、运行Mobile-Env以评测或训练

扩展新环境、新任务

其他辅助工具

Mobile-Env执行的开销参考

项目信息