Open-AutoGLM:用自然语言操控手机的开源 Agent

智谱开源的 Open-AutoGLM 最近在 GitHub 上拿到了 2.5 万 Star。这个项目做的事情很直接:用自然语言告诉手机该干什么,它就自动去干

比如你说"打开小红书搜索美食",它会自动启动小红书、点搜索框、输入关键词、展示结果。整个过程不需要你手动操作任何一步。

正文顶部截图

它是怎么工作的

原理并不复杂。Agent 通过 ADB(Android Debug Bridge)连接手机,然后不断循环三个步骤:

  1. 对手机屏幕截图
  2. 用视觉语言模型理解屏幕上有什么
  3. 输出操作指令(点击坐标、滑动、输入文字),通过 ADB 执行

截图、理解、执行,不断循环,直到任务完成。如果遇到登录或验证码这类需要人工介入的场景,系统会暂停并请求接管。

这套架构的好处是不需要对手机做任何修改,不需要 root,不需要安装额外的插件(除了一个文本输入用的 ADB Keyboard)。只要手机开了 USB 调试就能用。

支持的设备和应用

Open-AutoGLM 同时支持 Android 和鸿蒙(HarmonyOS NEXT 以上)设备。

应用覆盖方面,Android 端支持 50 多款主流中文应用,包括微信、淘宝、京东、美团、bilibili、抖音、小红书、高德地图这些日常高频使用的。鸿蒙端更多,60 多款,涵盖了华为自己的系统应用。

README区域截图

实际能做什么?文档里给了不少例子:打开美团搜火锅店、在淘宝搜无线耳机、给微信好友发消息、帮你在京东比价下单。只要是手机上能手动完成的操作流程,理论上都可以用自然语言描述后交给它。

模型服务怎么解决

Agent 代码本身不包含模型,需要单独的模型服务。有两种方式:

用第三方 API:智谱 BigModel 和 ModelScope 都提供了部署好的模型服务,注册拿个 API Key 就能用,不需要本地 GPU。这是推荐的方式,尤其是没有高端显卡的用户。

本地部署:需要 NVIDIA GPU(建议 24GB 以上显存),通过 vLLM 或 SGLang 加载 AutoGLM-Phone-9B 模型。模型有两个版本,一个针对中文优化,一个支持多语言场景。

远程调试

除了 USB 直连,Open-AutoGLM 还支持通过 WiFi 远程控制设备。手机和电脑在同一个局域网内,开启无线调试后用 adb connect 连接就行。这意味着你可以把手机放在桌上充电,电脑上远程操控,不需要一直插着线。

Python API 也提供了对应的远程连接接口,方便做二次开发。

部署门槛

整个部署流程不算复杂。Python 3.10 以上,装好 ADB,连上手机,pip install 装依赖,配置好模型服务地址,一条命令就能跑起来。

项目还专门写了一段面向 AI 助手的自动化部署指南,可以用 Claude Code 之类的工具直接帮你完成安装配置。这个思路挺有意思,降低了不熟悉命令行的用户的使用门槛。

如果你是做自动化的开发者,这个项目值得看看。它的操作抽象层设计得比较干净,支持 Launch、Tap、Type、Swipe、Back、Home 等十几种操作原语,二次开发的扩展空间不小。已经有人基于它集成了 Midscene.js,用 JavaScript 脚本来编排自动化流程。

一个实际的限制是,复杂界面的操作准确率取决于视觉模型的能力。简单任务(打开应用、搜索、点按钮)表现稳定,但涉及多步判断、精细操作的场景可能需要多次尝试。另外敏感页面(支付、银行类)截图会返回黑屏,这是安全机制,系统会自动请求人工接管。

的场景可能需要多次尝试。另外敏感页面(支付、银行类)截图会返回黑屏,这是安全机制,系统会自动请求人工接管。

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐