具身智能学习(Task1--具身智能基础与机器人控制)

weixin_57207025

589人浏览 · 2026-02-12 13:54:06

weixin_57207025 · 2026-02-12 13:54:06 发布

1 课程介绍

今天开始学习datawhale【AI硬件与机器人技术教程】啦！

本次组队学习的内容是【系统学习AI硬件与机器人技术，涵盖具身智能、机器人控制、计算机视觉、强化学习和仿真等核心技术，理论与实践相结合。】

既有数学模型知识、又有硬件开发的知识，感觉太难了！！！

希望学习之后可以入门吧，可以对具身智能技术有一些初步的了解，以后可以DIY具身智能模型。

课程内容非常详细，有具身智能发展历史、软件原理、硬件原理、仿真系统、居然还有PCB的设计教学，真的是太强大了！

但是，要注意学习的顺序，

【注意】本期的学习的顺序并不是按照课程的目录顺序进行的，而是跳跃进行的。所以要按照学习任务的连接进行学习、打卡！

课程地址：https://datawhaler.feishu.cn/wiki/QIE7wsNI2iqb91k5kR8c3L1in6ehttps://datawhaler.feishu.cn/wiki/QIE7wsNI2iqb91k5kR8c3L1in6e课程有软件的内容，也有硬件内容（硬件RDK X5可以不用购买，不是必学内容），机械臂的操作可以使用仿真系统进行学习，课程内容有详细的介绍。

2 关于人工智能的思考

现在的人工智能在文字创作、语言方面表现得非常优秀。还可以识别、判断事物。但是在艺术创作和学习方面还不如人类高效。比如，音乐、视频创作方面还不如专业的人类，可能是人工智能还没有学会人类的情感。再比如学习，人类看一张狗的照片就可以学会认识不同种类的狗，但是人工智能需要学习大量的不同种类狗的照片。

就目前而言，碳基生命显然比硅基生命高级得多。人类可以用大脑结合触觉、视觉、听觉、嗅觉、味觉感知环境的变化，而现在的人工智能在触觉、视觉和听觉方面还没有达到人类的水平，嗅觉和味觉现在还没有。还有人类大脑强大的记忆力，人类大脑太复杂了，是人类最宝贵的财富。我的直觉是人工智能要进化成人类这般强大，还是要模仿人类的大脑来构造。

关于具身智能的发展，觉得人类不应该制造像人类这样可以适应任何复杂场景的机器人。而是，让机器人只会一种专业的技能就好。让机器人只可以服务于人类，不要在综合方面超越人类。

3 Task1的作业---具身导航基础

主要是使用“算力自由”这个平台，通过虚拟环境，创建虚拟3D场景。

3-1 本地部署VS虚拟平台部署

个人觉得平台部署比本地部署要好，理由如下：

理由1：本地部署需要较高的硬件支持，需要高性能的显卡（硬件成本太高了）

理由2：本地存储空间有限，我1T的电脑，安装了很多环境和软件，现在存储空间也告急了，像腾出些空间都很难。

理由3：租赁平台不受终端设备的限制，可以在任何电脑和任何地点使用，非常方便。

（虽然云平台也有一些不方便的地方，可能每次都需配置一下环境，但是只要整理好手顺，每次配置环境也是很快的）

平台使用方法的教学视频和网站地址的连接如下：

【注意】在视频连接页面，要先扫码领取优惠券，再注册“算力自由”的账号，这样可以节省5元的成本。我就是忽略了这一点，先注册了，才看到这个优惠码，结果自己充了5元。

AI通识课：AI+具身智能-课程详情 | Datawhalehttps://www.datawhale.cn/learn/content/258/6154 算力市场https://www.gpufree.cn/market

下面是按照视频的方法运行的画面

这是进入一个虚拟的空间，按键盘"w"-前进，"a"-左转，"d"-右转，可以在空间内自由行走。

3-2 Habitat-Lab 和 Habitat-Sim 的区别

教程里介绍了Habitat-Sim的环境搭建及数据集介绍和基础实践，视频里的运行的项目是Habitat-Lab ，那么Habitat-Lab 和 Habitat-Sim 是什么关系呢，有什么区别呢?

Habitat-Lab 和 Habitat-Sim 是 Facebook AI Habitat 平台的两个核心组件，但它们的定位和功能不同，通常配合使用来完成具身智能（Embodied AI）的研究与开发。

Habitat-Lab

定位：高层次的任务与训练框架。
功能：提供模块化接口，用于定义任务（如导航、物体重排、视觉语言导航、具身问答等）、配置智能体（机器人模型、传感器类型）、运行强化学习或模仿学习训练，并进行评估。
特点：支持多智能体与多模态任务。内置 PPO 等强化学习算法，支持分布式与多 GPU 训练。提供丰富的评估指标（成功率、路径长度、导航误差等）。可与 VR/AR、人机交互等扩展集成。
作用：相当于AI 任务的大脑与训练管理系统，负责“做什么任务、如何训练、如何评估”。

Habitat-Sim

定位：底层的高性能 3D 仿真引擎。
功能：负责物理仿真、渲染和场景管理，为 Habitat-Lab 提供虚拟环境。
特点：支持多种 3D 数据集（HM3D、MatterPort3D、Replica 等）。高帧率渲染（单 GPU 可达 10,000 FPS）。集成 Bullet 物理引擎，支持刚体/关节动力学、碰撞检测。可配置多种传感器（RGB、深度、语义分割等）。
作用：相当于虚拟世界的物理与视觉引擎，负责“环境长什么样、物理如何运作”。

总结关系

Habitat-Lab = 高层任务定义与训练框架（AI 逻辑层）。
Habitat-Sim = 底层物理与渲染引擎（环境模拟层）。
配合方式：Habitat-Lab 调用 Habitat-Sim 提供的仿真能力，在虚拟环境中训练和测试智能体。

可以看看下面这篇文章，有更具体的动画展示：

Habitat-Lab与Habitat-Sim集成指南：构建逼真3D仿真环境的终极教程-CSDN博客https://blog.csdn.net/gitblog_00256/article/details/154773476

4 课程02-机器人基础和控制、手眼协调：该章节涵盖了“机器人基础”（运动学）和“控制”（PID算法）

这一部分，对于没有任何基础的我来说太难了，所以我阅读了一遍课程试图潜入理解一下，利用豆包整理的一下知识点。希望随着学习的进行，后面可以理解的更深刻一下吧！

提问：PID、LQR、MPC控制算法的原理和作用是什么？

回答：

我用最通俗、不绕弯的方式，一次性讲清 PID、LQR、MPC 三种主流控制算法的原理、区别和用途，方便你直接对比理解。

4-1 PID 控制

全称：比例 - 积分 - 微分控制

地位：工业最常用、最简单、最经典的闭环控制

原理：

根据当前误差，用三项叠加输出控制量：

P（比例）：误差越大，出力越大
I（积分）：消除静差，慢慢把误差 “磨平”
D（微分）：预测趋势，提前刹车、防超调

公式（简化）： $u = K_p e + K_i\int e dt + K_d \dot{e}$

作用 / 特点：

只看现在和过去，不看未来
不需要模型，调参就能用
适合单输入单输出、线性、简单系统
鲁棒性强，抗干扰好

典型应用：

无人机姿态
电机速度 / 位置
温度控制
小车循迹、平衡车

4-2 LQR 控制

全称：线性二次调节器

地位：最优控制里最基础、工程最实用的

原理：

建立系统状态空间模型
设计一个代价函数（误差 + 控制量都要小） $J = \int (x^T Q x + u^T R u) dt$
数学求解出最优反馈矩阵 K
直接用 $u = -Kx$ 控制

作用 / 特点

天生最优：让误差和能耗综合最小
适合多变量系统
必须有系统模型
只对线性系统最优

典型应用

无人机 / 机器人姿态与位置
倒立摆
伺服系统、飞行器控制

4-3 MPC 控制

全称：模型预测控制地位：复杂系统、有约束时的王者

原理

三步循环：

预测：用模型预测未来一段时域的状态
优化：在约束（最大速度、最大力、角度限制）下求最优控制序列
滚动：只执行第一步，下一时刻重新算

本质：一边预测未来，一边实时最优规划。

作用 / 特点

能处理多变量、强约束、非线性
计算量大，需要高性能芯片
效果最好，但最复杂

典型应用

自动驾驶车辆
工业过程控制（化工、电厂）
机器人轨迹跟踪
高级无人机、飞行器

一句话总结（超级好记）

PID：凭经验反馈，简单万能
LQR：线性系统最优，一步到位
MPC：看未来、带约束、全局最优，最智能

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

【flutter for open harmony】第三方库Flutter 鸿蒙版签到打卡实战指南（适配 1.0.0）✨

签到打卡是培养习惯的有效方式，广泛应用于健身、学习等场景。本文将介绍如何在Flutter鸿蒙应用中实现签到打卡功能。签到打卡使用Set存储签到日期，通过日期计算统计连续签到天数。本文详细介绍了Flutter鸿蒙签到打卡功能的实现过程，包括签到记录、连续统计和日历展示。通过本实例，开发者可以掌握Flutter日期处理、集合操作、日历布局等关键技术点。