Open-AutoGLM：用自然语言操控手机的开源 Agent

D3bugRealm

87人浏览 · 2026-06-30 13:25:32

D3bugRealm · 2026-06-30 13:25:32 发布

文章目录

Open-AutoGLM：用自然语言操控手机的开源 Agent

Open-AutoGLM：用自然语言操控手机的开源 Agent

智谱开源的 Open-AutoGLM 最近在 GitHub 上拿到了 2.5 万 Star。这个项目做的事情很直接：用自然语言告诉手机该干什么，它就自动去干。

比如你说"打开小红书搜索美食"，它会自动启动小红书、点搜索框、输入关键词、展示结果。整个过程不需要你手动操作任何一步。

正文顶部截图

它是怎么工作的

原理并不复杂。Agent 通过 ADB（Android Debug Bridge）连接手机，然后不断循环三个步骤：

对手机屏幕截图
用视觉语言模型理解屏幕上有什么
输出操作指令（点击坐标、滑动、输入文字），通过 ADB 执行

截图、理解、执行，不断循环，直到任务完成。如果遇到登录或验证码这类需要人工介入的场景，系统会暂停并请求接管。

这套架构的好处是不需要对手机做任何修改，不需要 root，不需要安装额外的插件（除了一个文本输入用的 ADB Keyboard）。只要手机开了 USB 调试就能用。

支持的设备和应用

Open-AutoGLM 同时支持 Android 和鸿蒙（HarmonyOS NEXT 以上）设备。

应用覆盖方面，Android 端支持 50 多款主流中文应用，包括微信、淘宝、京东、美团、bilibili、抖音、小红书、高德地图这些日常高频使用的。鸿蒙端更多，60 多款，涵盖了华为自己的系统应用。

README区域截图

实际能做什么？文档里给了不少例子：打开美团搜火锅店、在淘宝搜无线耳机、给微信好友发消息、帮你在京东比价下单。只要是手机上能手动完成的操作流程，理论上都可以用自然语言描述后交给它。

模型服务怎么解决

Agent 代码本身不包含模型，需要单独的模型服务。有两种方式：

用第三方 API：智谱 BigModel 和 ModelScope 都提供了部署好的模型服务，注册拿个 API Key 就能用，不需要本地 GPU。这是推荐的方式，尤其是没有高端显卡的用户。

本地部署：需要 NVIDIA GPU（建议 24GB 以上显存），通过 vLLM 或 SGLang 加载 AutoGLM-Phone-9B 模型。模型有两个版本，一个针对中文优化，一个支持多语言场景。

远程调试

除了 USB 直连，Open-AutoGLM 还支持通过 WiFi 远程控制设备。手机和电脑在同一个局域网内，开启无线调试后用 adb connect 连接就行。这意味着你可以把手机放在桌上充电，电脑上远程操控，不需要一直插着线。

Python API 也提供了对应的远程连接接口，方便做二次开发。

部署门槛

整个部署流程不算复杂。Python 3.10 以上，装好 ADB，连上手机，pip install 装依赖，配置好模型服务地址，一条命令就能跑起来。

项目还专门写了一段面向 AI 助手的自动化部署指南，可以用 Claude Code 之类的工具直接帮你完成安装配置。这个思路挺有意思，降低了不熟悉命令行的用户的使用门槛。

如果你是做自动化的开发者，这个项目值得看看。它的操作抽象层设计得比较干净，支持 Launch、Tap、Type、Swipe、Back、Home 等十几种操作原语，二次开发的扩展空间不小。已经有人基于它集成了 Midscene.js，用 JavaScript 脚本来编排自动化流程。

一个实际的限制是，复杂界面的操作准确率取决于视觉模型的能力。简单任务（打开应用、搜索、点按钮）表现稳定，但涉及多步判断、精细操作的场景可能需要多次尝试。另外敏感页面（支付、银行类）截图会返回黑屏，这是安全机制，系统会自动请求人工接管。

的场景可能需要多次尝试。另外敏感页面（支付、银行类）截图会返回黑屏，这是安全机制，系统会自动请求人工接管。

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

鸿蒙原生 ArkTS 布局深度解析：透明度 opacity 对布局的影响

人工智能6S服务平台

【共创季稿事节】鸿蒙原生 ArkTS 布局实现 Column + List + Navigation 协作导航 — 从列表渲染到页面切换的完整实践

人工智能6S服务平台

鸿蒙原生 ArkTS 布局深度解析：width / height 固定尺寸与百分比尺寸完全指南

人工智能6S服务平台

所有评论(0)

查看更多评论

D3bugRealm

@D3bugRealm

已为社区贡献1条内容

Open-AutoGLM：用自然语言操控手机的开源 Agent

D3bugRealm

文章目录

Open-AutoGLM：用自然语言操控手机的开源 Agent

它是怎么工作的

支持的设备和应用

模型服务怎么解决

远程调试

部署门槛

所有评论(0)

温馨提示：您尚未绑定手机号

D3bugRealm