📝 面试求职: 「面试试题小程序」 ,内容涵盖 测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试,命中率杠杠的。(大家刷起来…)

📝 职场经验干货:

软件测试工程师简历上如何编写个人信息(一周8个面试)

软件测试工程师简历上如何编写专业技能(一周8个面试)

软件测试工程师简历上如何编写项目经验(一周8个面试)

软件测试工程师简历上如何编写个人荣誉(一周8个面试)

软件测试行情分享(这些都不了解就别贸然冲了.)

软件测试面试重点,搞清楚这些轻松拿到年薪30W+

软件测试面试刷题小程序免费使用(永久使用)


2026年4月16日,字节跳动 Web Infra 团队开源的AI视觉驱动跨端UI自动化工具 Midscene发布近三月核心更新,正式实现桌面端、HarmonyOS(鸿蒙)、iOS、Android全设备统一自动化覆盖,并同步开放 MCP/Skills 双生态接入、升级报告解析能力、扩充主流视觉大模型支持、强化aiAct深度思考能力,全面破解传统跨端自动化设备割裂、适配繁琐、生态封闭、复杂任务难落地的行业痛点。

图片

图片

PC+鸿蒙正式接入,统一接口覆盖多系统

本次更新最核心突破是新增 PC 桌面端与鸿蒙(HarmonyOS)端自动化支持,结合已有的 iOS、Android 能力,Midscene 已经形成一套覆盖桌面端与多移动平台的统一自动化路径。

PC自动化:自动发推

鸿蒙自动化:查看电池健康

1. PC 端自动化:全面支持三大系统,零代码+脚本双模式

系统覆盖:支持 Windows、macOS、Linux 三大桌面操作系统,可以驱动原生键盘与鼠标,操作任意桌面应用,适配桌面应用自动化测试。

开发者可以:

  • 零代码验证:通过@midscene/computer-playground 快速可视化验证自动化流程;

  • 脚本开发:基于@midscene/computer 编写 JavaScript 脚本,支持在 Linux CI 环境中通过 Xvfb 运行无头桌面自动化。

import { agentFromComputer } from '@midscene/computer';

const agent = await agentFromComputer({
  aiActionContext: '你正在控制一台桌面计算机',
});

await agent.aiAct('将鼠标移动到屏幕中心');
await agent.aiAssert('屏幕有可见内容');

2. 鸿蒙端自动化:填补生态空白,标准接入兼容统一

  • 连接方式:Midscene 提供 @midscene/harmony,依托 HDC 连接鸿蒙设备,将鸿蒙纳入统一自动化体系;

  • 接口复用:直接沿用aiAct/aiQuery/aiAssert等核心统一接口,无需重新学习;

  • 报告能力:执行后输出 HTML 报告,支持回放与调试,完美适配鸿蒙应用开发测试需求。

await agent.launch('com.huawei.hmos.settings');
await agent.aiAct('scroll down one screen');
const items = await agent.aiQuery('string[], 列表中可见的所有设置项名称');

至此,Midscene 实现一次开发、全端运行,彻底消除多设备重复适配成本。

详情参考:PC 桌面入门指南[1]、HarmonyOS 开始使用[2]、iOS 开始使用[3]、Android 开始使用[4]


面向开放:MCP+Skills双路径,融入AI Agent生态

Midscene 从 “自研自用工具” 转向开放式能力平台,提供两种标准化接入方式,支持上层 Agent、研发平台、AI 助手直接调用。

1. MCP(Midscene Control Protocol):设备能力服务化

能力封装:将浏览器、Android、iOS、PC 设备能力封装为标准化 MCP 服务,提供官方封装包:

  • @midscene/android-mcp

  • @midscene/ios-mcp

  • @midscene/computer-mcp

  • @midscene/web-bridge-mcp

自定义扩展:开发者可基于 mcpKitForAgent 搭建专属 MCP Server,将截图、点击、滚动等原子操作接入自有 Agent 体系。

2. Skills:AI 编程助手直连调用

借助 Skills 能力,Claude Code、OpenClaw 等 AI 编程助手能够直接调用 Midscene CLI,实现浏览器、桌面、Android、iOS 与 HarmonyOS 设备的操控。

安装方式例如:

npx skills add web-infra-dev/midscene-skills -a claude-code

安装后,AI 助手就可以通过自然语言直接触发设备操作,示例指令:

Open photo app, see what is the first photo in the album.

详情参考:MCP[7]、Skills[8]


报告能力升级:从 “人工查看” 到 “工具可消费”,支持拆分与Markdown导出

Midscene 将报告从仅用于人工调试的 HTML 页面,升级为可被二次处理的标准化数据产物,打自动化结果全链路复用。

核心能力

  1. 数据提取:支持导出报告内原始截图、JSON 结构化数据;

  2. 格式转换:可直接将 HTML 报告转换为 Markdown 格式,适配文档系统、知识库、测试归档;

  3. 生态联动:转换后的 Markdown 可结合 Remotion Skill 生成自动化执行回放视频。

报告示例

开发者可以把 HTML 报告文件解析为这样一份 Markdown 文件:

图片

在此基础上,还可结合 Remotion Skill 对该 Markdown 文件进行解析,进而生成个性化的回放视频。

视频生成结果如下:

以下视频来源于

详情参考:解析报告文件[9]


新模式支持:兼容智谱、千问、豆包多款视觉大模型

Midscene 持续完善模型适配,新增 4 款高性能视觉大模型,支持操作与理解模型分离配置,满足不同精度、成本需求。

新增支持模型包括:

  • 智谱 GLM-V 系列 glm-5v-turbo,glm-4.6v

  • 智谱开源手机自动化模型 auto-glm

  • 千问qwen3.6-plus

  • 豆包doubao-seed-2.0

配置方式(以智谱 GLM-V 为例)

通过环境变量快速配置,需注意区分 MIDSCENE_MODEL_FAMILY  字段:
glm-4.6vglm-5v-turbo都应配置为glm-v :

MIDSCENE_MODEL_BASE_URL="https://open.bigmodel.cn/api/paas/v4"MIDSCENE_MODEL_API_KEY="..."MIDSCENE_MODEL_NAME="glm-4.6v"MIDSCENE_MODEL_FAMILY="glm-v"

灵活拆分:可单独配置 Insight 模型,将 “设备操作” 与 “页面理解” 任务分离,提升执行效率。

详情参考:模型策略[5]、常用模型配置[6]


核心能力强化:aiAct 支持深度思考,复杂任务规划准确率跃升

Midscene 为核心接口aiAct新增 deepThink(深度思考) 能力,针对复杂场景优化任务规划逻辑。

适用场景:

目标驱动任务、复杂表单填写、多步骤流程执行、条件分支判断等传统自动化难以处理的场景。

使用方式:

通过deepThink: true参数开启,模型在规划阶段完成充分推理:

图片

特性说明:开启后可显著提升规划准确率,会小幅增加执行耗时,建议在关键核心流程中按需启用。

详情参考:关于-aiact-方法的-deepthink-参数[10]


其他新增特性

  • 文件上传支持:完善文件操作能力,适配含上传流程的自动化场景;

  • CDP 浏览器连接模式:新增 YAML 脚本运行器的 CDP 连接方式,提升浏览器自动化稳定性;

  • deepLocate 深度定位:强化界面元素定位能力,进一步降低识别误差,提升执行成功率。

官方参考资料

本次更新所有功能均提供完整官方文档,开发者可快速上手:

[1] PC 桌面入门指南:

 https://midscenejs.com/zh/computer-getting-started

[2] HarmonyOS 开始使用: 

https://midscenejs.com/zh/harmony-getting-started

[3] iOS 开始使用: 

https://midscenejs.com/zh/ios-getting-started

[4] Android 开始使用:

 https://midscenejs.com/zh/android-getting-started

[5] 模型策略: 

https://midscenejs.com/zh/model-strategy

[6] 常用模型配置: 

https://midscenejs.com/zh/model-common-config

[7] MCP: 

https://midscenejs.com/zh/mcp

[8] Skills: 

https://midscenejs.com/zh/skills

[9] 解析报告文件: 

https://midscenejs.com/zh/consume-report-file

[10] 关于-aiact-方法的-deepthink-参数: 

https://midscenejs.com/zh/model-strategy#关于-aiact-方法的-deepthink-参数

[11] 文件上传支持: 

https://midscenejs.com/zh/api#agentaitap

[12] CDP 浏览器连接模式: 

https://midscenejs.com/zh/yaml-script-runner#使用-cdp-连接模式

[13] deepLocate 深度定位: 

https://midscenejs.com/zh/api#深度定位deeplocate


行业价值与未来展望

本次迭代让 Midscene 实现三大突破:

  • 国产化适配:填补鸿蒙生态标准化自动化工具空白,助力国产化应用开发测试;

  • 效率革命:全端统一接口 + 自然语言驱动,大幅降低脚本开发与维护成本;

  • 生态融合:MCP+Skills 开放接入,让自动化能力深度融入 AI Agent、企业工作流、RPA 等多元场景。

作为 AI 驱动的跨端自动化工具,Midscene 正从研发测试工具,向全场景智能自动化基础设施演进,未来有望拓展物联网、车机等更多设备场景,重新定义 AI 自动化的技术标准与使用边界。

最后: 下方这份完整的软件测试视频教程已经整理上传完成,需要的朋友们可以自行领取【保证100%免费】

​​

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐