具身智能学习(Task1--具身智能基础与机器人控制)
1 课程介绍
今天开始学习datawhale【AI硬件与机器人技术教程】啦!
本次组队学习的内容是【系统学习AI硬件与机器人技术,涵盖具身智能、机器人控制、计算机视觉、强化学习和仿真等核心技术,理论与实践相结合。】
既有数学模型知识、又有硬件开发的知识,感觉太难了!!!
希望学习之后可以入门吧,可以对具身智能技术有一些初步的了解,以后可以DIY具身智能模型。
课程内容非常详细,有具身智能发展历史、软件原理、硬件原理、仿真系统、居然还有PCB的设计教学,真的是太强大了!
但是,要注意学习的顺序,
【注意】本期的学习的顺序并不是按照课程的目录顺序进行的,而是跳跃进行的。所以要按照学习任务的连接进行学习、打卡!
课程地址:https://datawhaler.feishu.cn/wiki/QIE7wsNI2iqb91k5kR8c3L1in6e
https://datawhaler.feishu.cn/wiki/QIE7wsNI2iqb91k5kR8c3L1in6e课程有软件的内容,也有硬件内容(硬件RDK X5可以不用购买,不是必学内容),机械臂的操作可以使用仿真系统进行学习,课程内容有详细的介绍。
2 关于人工智能的思考
现在的人工智能在文字创作、语言方面表现得非常优秀。还可以识别、判断事物。但是在艺术创作和学习方面还不如人类高效。比如,音乐、视频创作方面还不如专业的人类,可能是人工智能还没有学会人类的情感。再比如学习,人类看一张狗的照片就可以学会认识不同种类的狗,但是人工智能需要学习大量的不同种类狗的照片。
就目前而言,碳基生命显然比硅基生命高级得多。人类可以用大脑结合触觉、视觉、听觉、嗅觉、味觉感知环境的变化,而现在的人工智能在触觉、视觉和听觉方面还没有达到人类的水平,嗅觉和味觉现在还没有。还有人类大脑强大的记忆力,人类大脑太复杂了,是人类最宝贵的财富。我的直觉是人工智能要进化成人类这般强大,还是要模仿人类的大脑来构造。
关于具身智能的发展,觉得人类不应该制造像人类这样可以适应任何复杂场景的机器人。而是,让机器人只会一种专业的技能就好。让机器人只可以服务于人类,不要在综合方面超越人类。
3 Task1的作业---具身导航基础
主要是使用“算力自由”这个平台,通过虚拟环境,创建虚拟3D场景。
3-1 本地部署VS虚拟平台部署
个人觉得平台部署比本地部署要好,理由如下:
理由1:本地部署需要较高的硬件支持,需要高性能的显卡(硬件成本太高了)
理由2:本地存储空间有限,我1T的电脑,安装了很多环境和软件,现在存储空间也告急了,像腾出些空间都很难。
理由3:租赁平台不受终端设备的限制,可以在任何电脑和任何地点使用,非常方便。
(虽然云平台也有一些不方便的地方,可能每次都需配置一下环境,但是只要整理好手顺,每次配置环境也是很快的)
平台使用方法的教学视频和网站地址的连接如下:
【注意】在视频连接页面,要先扫码领取优惠券,再注册“算力自由”的账号,这样可以节省5元的成本。我就是忽略了这一点,先注册了,才看到这个优惠码,结果自己充了5元。
AI通识课:AI+具身智能-课程详情 | Datawhale
https://www.datawhale.cn/learn/content/258/6154算力市场
https://www.gpufree.cn/market
下面是按照视频的方法运行的画面
这是进入一个虚拟的空间,按键盘"w"-前进,"a"-左转,"d"-右转,可以在空间内自由行走。
3-2 Habitat-Lab 和 Habitat-Sim 的区别
教程里介绍了Habitat-Sim的环境搭建及数据集介绍和基础实践,视频里的运行的项目是Habitat-Lab ,那么Habitat-Lab 和 Habitat-Sim 是什么关系呢,有什么区别呢?
Habitat-Lab 和 Habitat-Sim 是 Facebook AI Habitat 平台的两个核心组件,但它们的定位和功能不同,通常配合使用来完成具身智能(Embodied AI)的研究与开发。
Habitat-Lab
-
定位:高层次的任务与训练框架。
-
功能:提供模块化接口,用于定义任务(如导航、物体重排、视觉语言导航、具身问答等)、配置智能体(机器人模型、传感器类型)、运行强化学习或模仿学习训练,并进行评估。
-
特点: 支持多智能体与多模态任务。 内置 PPO 等强化学习算法,支持分布式与多 GPU 训练。 提供丰富的评估指标(成功率、路径长度、导航误差等)。 可与 VR/AR、人机交互等扩展集成。
-
作用:相当于AI 任务的大脑与训练管理系统,负责“做什么任务、如何训练、如何评估”。
Habitat-Sim
-
定位:底层的高性能 3D 仿真引擎。
-
功能:负责物理仿真、渲染和场景管理,为 Habitat-Lab 提供虚拟环境。
-
特点: 支持多种 3D 数据集(HM3D、MatterPort3D、Replica 等)。 高帧率渲染(单 GPU 可达 10,000 FPS)。 集成 Bullet 物理引擎,支持刚体/关节动力学、碰撞检测。 可配置多种传感器(RGB、深度、语义分割等)。
-
作用:相当于虚拟世界的物理与视觉引擎,负责“环境长什么样、物理如何运作”。
总结关系
-
Habitat-Lab = 高层任务定义与训练框架(AI 逻辑层)。
-
Habitat-Sim = 底层物理与渲染引擎(环境模拟层)。
-
配合方式:Habitat-Lab 调用 Habitat-Sim 提供的仿真能力,在虚拟环境中训练和测试智能体。
可以看看下面这篇文章,有更具体的动画展示:
4 课程02-机器人基础和控制、手眼协调:该章节涵盖了“机器人基础”(运动学)和“控制”(PID算法)
这一部分,对于没有任何基础的我来说太难了,所以我阅读了一遍课程试图潜入理解一下,利用豆包整理的一下知识点。希望随着学习的进行,后面可以理解的更深刻一下吧!
提问:PID、LQR、MPC控制算法的原理和作用是什么?
回答:
我用最通俗、不绕弯的方式,一次性讲清 PID、LQR、MPC 三种主流控制算法的原理、区别和用途,方便你直接对比理解。
4-1 PID 控制
全称:比例 - 积分 - 微分控制
地位:工业最常用、最简单、最经典的闭环控制
原理:
根据当前误差,用三项叠加输出控制量:
- P(比例):误差越大,出力越大
- I(积分):消除静差,慢慢把误差 “磨平”
- D(微分):预测趋势,提前刹车、防超调
公式(简化):
作用 / 特点:
- 只看现在和过去,不看未来
- 不需要模型,调参就能用
- 适合单输入单输出、线性、简单系统
- 鲁棒性强,抗干扰好
典型应用:
- 无人机姿态
- 电机速度 / 位置
- 温度控制
- 小车循迹、平衡车
4-2 LQR 控制
全称:线性二次调节器
地位:最优控制里最基础、工程最实用的
原理:
- 建立系统状态空间模型
- 设计一个代价函数(误差 + 控制量都要小)
- 数学求解出最优反馈矩阵 K
- 直接用
控制
作用 / 特点
- 天生最优:让误差和能耗综合最小
- 适合多变量系统
- 必须有系统模型
- 只对线性系统最优
典型应用
- 无人机 / 机器人姿态与位置
- 倒立摆
- 伺服系统、飞行器控制
4-3 MPC 控制
全称:模型预测控制地位:复杂系统、有约束时的王者
原理
三步循环:
- 预测:用模型预测未来一段时域的状态
- 优化:在约束(最大速度、最大力、角度限制)下求最优控制序列
- 滚动:只执行第一步,下一时刻重新算
本质:一边预测未来,一边实时最优规划。
作用 / 特点
- 能处理多变量、强约束、非线性
- 计算量大,需要高性能芯片
- 效果最好,但最复杂
典型应用
- 自动驾驶车辆
- 工业过程控制(化工、电厂)
- 机器人轨迹跟踪
- 高级无人机、飞行器
一句话总结(超级好记)
- PID:凭经验反馈,简单万能
- LQR:线性系统最优,一步到位
- MPC:看未来、带约束、全局最优,最智能
更多推荐




所有评论(0)