1  课程介绍

今天开始学习datawhale【AI硬件与机器人技术教程】啦!

本次组队学习的内容是【系统学习AI硬件与机器人技术,涵盖具身智能、机器人控制、计算机视觉、强化学习和仿真等核心技术,理论与实践相结合。】

既有数学模型知识、又有硬件开发的知识,感觉太难了!!!

希望学习之后可以入门吧,可以对具身智能技术有一些初步的了解,以后可以DIY具身智能模型。

课程内容非常详细,有具身智能发展历史、软件原理、硬件原理、仿真系统、居然还有PCB的设计教学,真的是太强大了!

但是,要注意学习的顺序,

【注意】本期的学习的顺序并不是按照课程的目录顺序进行的,而是跳跃进行的。所以要按照学习任务的连接进行学习、打卡!

课程地址:https://datawhaler.feishu.cn/wiki/QIE7wsNI2iqb91k5kR8c3L1in6ehttps://datawhaler.feishu.cn/wiki/QIE7wsNI2iqb91k5kR8c3L1in6e课程有软件的内容,也有硬件内容(硬件RDK X5可以不用购买,不是必学内容),机械臂的操作可以使用仿真系统进行学习,课程内容有详细的介绍。

2  关于人工智能的思考

       现在的人工智能在文字创作、语言方面表现得非常优秀。还可以识别、判断事物。但是在艺术创作和学习方面还不如人类高效。比如,音乐、视频创作方面还不如专业的人类,可能是人工智能还没有学会人类的情感。再比如学习,人类看一张狗的照片就可以学会认识不同种类的狗,但是人工智能需要学习大量的不同种类狗的照片。

       就目前而言,碳基生命显然比硅基生命高级得多。人类可以用大脑结合触觉、视觉、听觉、嗅觉、味觉感知环境的变化,而现在的人工智能在触觉、视觉和听觉方面还没有达到人类的水平,嗅觉和味觉现在还没有。还有人类大脑强大的记忆力,人类大脑太复杂了,是人类最宝贵的财富。我的直觉是人工智能要进化成人类这般强大,还是要模仿人类的大脑来构造。

        关于具身智能的发展,觉得人类不应该制造像人类这样可以适应任何复杂场景的机器人。而是,让机器人只会一种专业的技能就好。让机器人只可以服务于人类,不要在综合方面超越人类。

3  Task1的作业---具身导航基础

主要是使用“算力自由”这个平台,通过虚拟环境,创建虚拟3D场景。

3-1  本地部署VS虚拟平台部署

个人觉得平台部署比本地部署要好,理由如下:

理由1:本地部署需要较高的硬件支持,需要高性能的显卡(硬件成本太高了)

理由2:本地存储空间有限,我1T的电脑,安装了很多环境和软件,现在存储空间也告急了,像腾出些空间都很难。

理由3:租赁平台不受终端设备的限制,可以在任何电脑和任何地点使用,非常方便。

(虽然云平台也有一些不方便的地方,可能每次都需配置一下环境,但是只要整理好手顺,每次配置环境也是很快的)

平台使用方法的教学视频网站地址的连接如下:

【注意】在视频连接页面,要先扫码领取优惠券,再注册“算力自由”的账号,这样可以节省5元的成本。我就是忽略了这一点,先注册了,才看到这个优惠码,结果自己充了5元。

AI通识课:AI+具身智能-课程详情 | Datawhalehttps://www.datawhale.cn/learn/content/258/6154算力市场https://www.gpufree.cn/market

下面是按照视频的方法运行的画面

这是进入一个虚拟的空间,按键盘"w"-前进,"a"-左转,"d"-右转,可以在空间内自由行走。

3-2  Habitat-Lab 和 Habitat-Sim 的区别

教程里介绍了Habitat-Sim的环境搭建及数据集介绍和基础实践,视频里的运行的项目是Habitat-Lab ,那么Habitat-Lab 和 Habitat-Sim 是什么关系呢,有什么区别呢?

Habitat-Lab 和 Habitat-Sim 是 Facebook AI Habitat 平台的两个核心组件,但它们的定位和功能不同,通常配合使用来完成具身智能(Embodied AI)的研究与开发。

Habitat-Lab

  • 定位:高层次的任务与训练框架

  • 功能:提供模块化接口,用于定义任务(如导航、物体重排、视觉语言导航、具身问答等)、配置智能体(机器人模型、传感器类型)、运行强化学习或模仿学习训练,并进行评估。

  • 特点: 支持多智能体与多模态任务。 内置 PPO 等强化学习算法,支持分布式与多 GPU 训练。 提供丰富的评估指标(成功率、路径长度、导航误差等)。 可与 VR/AR、人机交互等扩展集成。

  • 作用:相当于AI 任务的大脑与训练管理系统,负责“做什么任务、如何训练、如何评估”。

Habitat-Sim

  • 定位:底层的高性能 3D 仿真引擎

  • 功能:负责物理仿真、渲染和场景管理,为 Habitat-Lab 提供虚拟环境。

  • 特点: 支持多种 3D 数据集(HM3D、MatterPort3D、Replica 等)。 高帧率渲染(单 GPU 可达 10,000 FPS)。 集成 Bullet 物理引擎,支持刚体/关节动力学、碰撞检测。 可配置多种传感器(RGB、深度、语义分割等)。

  • 作用:相当于虚拟世界的物理与视觉引擎,负责“环境长什么样、物理如何运作”。

总结关系

  • Habitat-Lab = 高层任务定义与训练框架(AI 逻辑层)。

  • Habitat-Sim = 底层物理与渲染引擎(环境模拟层)。

  • 配合方式:Habitat-Lab 调用 Habitat-Sim 提供的仿真能力,在虚拟环境中训练和测试智能体。

可以看看下面这篇文章,有更具体的动画展示:

Habitat-Lab与Habitat-Sim集成指南:构建逼真3D仿真环境的终极教程-CSDN博客https://blog.csdn.net/gitblog_00256/article/details/154773476

4  课程02-机器人基础和控制、手眼协调:该章节涵盖了“机器人基础”(运动学)和“控制”(PID算法)

这一部分,对于没有任何基础的我来说太难了,所以我阅读了一遍课程试图潜入理解一下,利用豆包整理的一下知识点。希望随着学习的进行,后面可以理解的更深刻一下吧!

提问:PID、LQR、MPC控制算法的原理和作用是什么?

回答:

我用最通俗、不绕弯的方式,一次性讲清 PID、LQR、MPC 三种主流控制算法的原理、区别和用途,方便你直接对比理解。

4-1 PID 控制

全称:比例 - 积分 - 微分控制

地位:工业最常用、最简单、最经典的闭环控制

原理:

根据当前误差,用三项叠加输出控制量:

  • P(比例):误差越大,出力越大
  • I(积分):消除静差,慢慢把误差 “磨平”
  • D(微分):预测趋势,提前刹车、防超调

公式(简化):u = K_p e + K_i\int e dt + K_d \dot{e}

作用 / 特点:
  • 只看现在和过去,不看未来
  • 不需要模型,调参就能用
  • 适合单输入单输出、线性、简单系统
  • 鲁棒性强,抗干扰好
典型应用:
  • 无人机姿态
  • 电机速度 / 位置
  • 温度控制
  • 小车循迹、平衡车

4-2  LQR 控制

全称:线性二次调节器

地位:最优控制里最基础、工程最实用的

原理:
  • 建立系统状态空间模型
  • 设计一个代价函数(误差 + 控制量都要小)J = \int (x^T Q x + u^T R u) dt
  • 数学求解出最优反馈矩阵 K
  • 直接用 u = -Kx控制
作用 / 特点
  • 天生最优:让误差和能耗综合最小
  • 适合多变量系统
  • 必须有系统模型
  • 只对线性系统最优
典型应用
  • 无人机 / 机器人姿态与位置
  • 倒立摆
  • 伺服系统、飞行器控制

4-3  MPC 控制

全称:模型预测控制地位:复杂系统、有约束时的王者

原理

三步循环:

  1. 预测:用模型预测未来一段时域的状态
  2. 优化:在约束(最大速度、最大力、角度限制)下求最优控制序列
  3. 滚动:只执行第一步,下一时刻重新算

本质:一边预测未来,一边实时最优规划

作用 / 特点
  • 能处理多变量、强约束、非线性
  • 计算量大,需要高性能芯片
  • 效果最好,但最复杂
典型应用
  • 自动驾驶车辆
  • 工业过程控制(化工、电厂)
  • 机器人轨迹跟踪
  • 高级无人机、飞行器

一句话总结(超级好记)

  • PID:凭经验反馈,简单万能
  • LQR:线性系统最优,一步到位
  • MPC:看未来、带约束、全局最优,最智能

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐