AI自动化工具Midscene重要更新：鸿蒙、PC端全覆盖，新增模型、Skills及报告解析能力

下方这份完整的软件测试视频教程已经整理上传完成，需要的朋友们可以自行领取。

爱吃香菜

62人浏览 · 2026-04-21 16:19:22

爱吃香菜 · 2026-04-21 16:19:22 发布

📝 面试求职： 「面试试题小程序」，内容涵盖测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试，命中率杠杠的。（大家刷起来…）

📝 职场经验干货：

软件测试工程师简历上如何编写个人信息（一周8个面试）

软件测试工程师简历上如何编写专业技能（一周8个面试）

软件测试工程师简历上如何编写项目经验（一周8个面试）

软件测试工程师简历上如何编写个人荣誉（一周8个面试）

软件测试行情分享（这些都不了解就别贸然冲了.）

软件测试面试重点，搞清楚这些轻松拿到年薪30W+

软件测试面试刷题小程序免费使用（永久使用）

2026年4月16日，字节跳动 Web Infra 团队开源的AI视觉驱动跨端UI自动化工具 Midscene发布近三月核心更新，正式实现桌面端、HarmonyOS（鸿蒙）、iOS、Android全设备统一自动化覆盖，并同步开放 MCP/Skills 双生态接入、升级报告解析能力、扩充主流视觉大模型支持、强化aiAct深度思考能力，全面破解传统跨端自动化设备割裂、适配繁琐、生态封闭、复杂任务难落地的行业痛点。

PC+鸿蒙正式接入，统一接口覆盖多系统

本次更新最核心突破是新增 PC 桌面端与鸿蒙（HarmonyOS）端自动化支持，结合已有的 iOS、Android 能力，Midscene 已经形成一套覆盖桌面端与多移动平台的统一自动化路径。

PC自动化：自动发推

鸿蒙自动化：查看电池健康

1. PC 端自动化：全面支持三大系统，零代码+脚本双模式

系统覆盖：支持 Windows、macOS、Linux 三大桌面操作系统，可以驱动原生键盘与鼠标，操作任意桌面应用，适配桌面应用自动化测试。

开发者可以：

零代码验证：通过@midscene/computer-playground 快速可视化验证自动化流程；
脚本开发：基于@midscene/computer 编写 JavaScript 脚本，支持在 Linux CI 环境中通过 Xvfb 运行无头桌面自动化。

import { agentFromComputer } from '@midscene/computer';

const agent = await agentFromComputer({
  aiActionContext: '你正在控制一台桌面计算机',
});

await agent.aiAct('将鼠标移动到屏幕中心');
await agent.aiAssert('屏幕有可见内容');

2. 鸿蒙端自动化：填补生态空白，标准接入兼容统一

连接方式：Midscene 提供 @midscene/harmony，依托 HDC 连接鸿蒙设备，将鸿蒙纳入统一自动化体系；
接口复用：直接沿用aiAct/aiQuery/aiAssert等核心统一接口，无需重新学习；
报告能力：执行后输出 HTML 报告，支持回放与调试，完美适配鸿蒙应用开发测试需求。

await agent.launch('com.huawei.hmos.settings');
await agent.aiAct('scroll down one screen');
const items = await agent.aiQuery('string[], 列表中可见的所有设置项名称');

至此，Midscene 实现一次开发、全端运行，彻底消除多设备重复适配成本。

详情参考：PC 桌面入门指南[1]、HarmonyOS 开始使用[2]、iOS 开始使用[3]、Android 开始使用[4]

面向开放：MCP+Skills双路径，融入AI Agent生态

Midscene 从 “自研自用工具” 转向开放式能力平台，提供两种标准化接入方式，支持上层 Agent、研发平台、AI 助手直接调用。

1. MCP（Midscene Control Protocol）：设备能力服务化

能力封装：将浏览器、Android、iOS、PC 设备能力封装为标准化 MCP 服务，提供官方封装包：

@midscene/android-mcp
@midscene/ios-mcp
@midscene/computer-mcp
@midscene/web-bridge-mcp

自定义扩展：开发者可基于 mcpKitForAgent 搭建专属 MCP Server，将截图、点击、滚动等原子操作接入自有 Agent 体系。

2. Skills：AI 编程助手直连调用

借助 Skills 能力，Claude Code、OpenClaw 等 AI 编程助手能够直接调用 Midscene CLI，实现浏览器、桌面、Android、iOS 与 HarmonyOS 设备的操控。

安装方式例如：

npx skills add web-infra-dev/midscene-skills -a claude-code

安装后，AI 助手就可以通过自然语言直接触发设备操作，示例指令：

Open photo app, see what is the first photo in the album.

详情参考：MCP[7]、Skills[8]

报告能力升级：从 “人工查看” 到 “工具可消费”，支持拆分与Markdown导出

Midscene 将报告从仅用于人工调试的 HTML 页面，升级为可被二次处理的标准化数据产物，打自动化结果全链路复用。

核心能力

数据提取：支持导出报告内原始截图、JSON 结构化数据；
格式转换：可直接将 HTML 报告转换为 Markdown 格式，适配文档系统、知识库、测试归档；
生态联动：转换后的 Markdown 可结合 Remotion Skill 生成自动化执行回放视频。

报告示例

开发者可以把 HTML 报告文件解析为这样一份 Markdown 文件：

在此基础上，还可结合 Remotion Skill 对该 Markdown 文件进行解析，进而生成个性化的回放视频。

视频生成结果如下：

以下视频来源于

详情参考：解析报告文件[9]

新模式支持：兼容智谱、千问、豆包多款视觉大模型

Midscene 持续完善模型适配，新增 4 款高性能视觉大模型，支持操作与理解模型分离配置，满足不同精度、成本需求。

新增支持模型包括：

智谱 GLM-V 系列 glm-5v-turbo，glm-4.6v
智谱开源手机自动化模型 auto-glm
千问qwen3.6-plus
豆包doubao-seed-2.0

配置方式（以智谱 GLM-V 为例）

通过环境变量快速配置，需注意区分 MIDSCENE_MODEL_FAMILY 字段：
glm-4.6v和glm-5v-turbo都应配置为glm-v ：

MIDSCENE_MODEL_BASE_URL="https://open.bigmodel.cn/api/paas/v4"MIDSCENE_MODEL_API_KEY="..."MIDSCENE_MODEL_NAME="glm-4.6v"MIDSCENE_MODEL_FAMILY="glm-v"

灵活拆分：可单独配置 Insight 模型，将 “设备操作” 与 “页面理解” 任务分离，提升执行效率。

详情参考：模型策略[5]、常用模型配置[6]

核心能力强化：aiAct 支持深度思考，复杂任务规划准确率跃升

Midscene 为核心接口aiAct新增 deepThink（深度思考）能力，针对复杂场景优化任务规划逻辑。

适用场景：

目标驱动任务、复杂表单填写、多步骤流程执行、条件分支判断等传统自动化难以处理的场景。

使用方式：

通过deepThink: true参数开启，模型在规划阶段完成充分推理：

特性说明：开启后可显著提升规划准确率，会小幅增加执行耗时，建议在关键核心流程中按需启用。

详情参考：关于-aiact-方法的-deepthink-参数[10]

其他新增特性

文件上传支持：完善文件操作能力，适配含上传流程的自动化场景；
CDP 浏览器连接模式：新增 YAML 脚本运行器的 CDP 连接方式，提升浏览器自动化稳定性；
deepLocate 深度定位：强化界面元素定位能力，进一步降低识别误差，提升执行成功率。

官方参考资料

本次更新所有功能均提供完整官方文档，开发者可快速上手：

[1] PC 桌面入门指南:

https://midscenejs.com/zh/computer-getting-started

[2] HarmonyOS 开始使用:

https://midscenejs.com/zh/harmony-getting-started

[3] iOS 开始使用:

https://midscenejs.com/zh/ios-getting-started

[4] Android 开始使用:

https://midscenejs.com/zh/android-getting-started

[5] 模型策略:

https://midscenejs.com/zh/model-strategy

[6] 常用模型配置:

https://midscenejs.com/zh/model-common-config

[7] MCP:

https://midscenejs.com/zh/mcp

[8] Skills:

https://midscenejs.com/zh/skills

[9] 解析报告文件:

https://midscenejs.com/zh/consume-report-file

[10] 关于-aiact-方法的-deepthink-参数:

https://midscenejs.com/zh/model-strategy#关于-aiact-方法的-deepthink-参数

[11] 文件上传支持:

https://midscenejs.com/zh/api#agentaitap

[12] CDP 浏览器连接模式:

https://midscenejs.com/zh/yaml-script-runner#使用-cdp-连接模式

[13] deepLocate 深度定位:

https://midscenejs.com/zh/api#深度定位deeplocate

行业价值与未来展望

本次迭代让 Midscene 实现三大突破：

国产化适配：填补鸿蒙生态标准化自动化工具空白，助力国产化应用开发测试；
效率革命：全端统一接口 + 自然语言驱动，大幅降低脚本开发与维护成本；
生态融合：MCP+Skills 开放接入，让自动化能力深度融入 AI Agent、企业工作流、RPA 等多元场景。

作为 AI 驱动的跨端自动化工具，Midscene 正从研发测试工具，向全场景智能自动化基础设施演进，未来有望拓展物联网、车机等更多设备场景，重新定义 AI 自动化的技术标准与使用边界。

最后： 下方这份完整的软件测试视频教程已经整理上传完成，需要的朋友们可以自行领取【保证100%免费】

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

Flutter集成三方库开发鸿蒙6.0（API20+）本地记账APP实战案例

本地记账APP是日常高频使用的工具类应用，本文基于Flutter + 鸿蒙6.0（API20+）环境，以本地记账APP为实战载体，详细讲解如何集成适配鸿蒙系统的三方库，实现账单添加、收支分类、余额统计、数据持久化等完整功能，代码全程带注释，可直接复制运行，助力开发者快速掌握Flutter跨端开发鸿蒙应用的核心流程。本文通过Flutter集成三方库开发鸿蒙本地记账APP的实战案例，完整覆盖了从环境配

人工智能6S服务平台

昇腾+MindSpore上的模型迁移实战手记

本文分享了将PyTorch视觉模型迁移至MindSpore+Ascend平台的技术实践。作者从环境配置、模型迁移、训练优化到调试技巧四个维度，详细记录了迁移过程中的关键挑战与解决方案。重点包括：严格版本匹配的环境搭建、API差异处理、动静态图转换技巧、混合精度训练实现，以及Graph模式下的调试方法。最终在Ascend 910上实现了40%的性能提升，验证了国产AI框架的可行性。文章为开发者提供了

人工智能6S服务平台

CANNBot学习周圆满收官：智能Agent加持，解锁昇腾算子开发新范式

学习周的最后一课，将视角拓展至TileLang-Ascend算子开发，重点展示了TileLang Agent在方案设计、代码开发、调试验证和代码Review等环节的能力，并通过案例演示了从方案到交付的自动化闭环。本次课程从入门体验到进阶实操，覆盖Ascend C、PyPTO、TileLang-Ascend等多种编程语言，充分展现了CANNBot依托Agent实现的全流程自动化能力，为算子开发带来了