【Atlas 300V Pro支持软切分和硬切分,最大切分规格为7个分片】

Atlas 300V Pro是华为推出的一款面向视频处理场景的AI加速卡。“支持软切分和硬切分,最大切分规格为7个分片”这一特性,主要是指该设备在处理视频分析(尤其是AI推理或转码)时,对单个视频流或单个图片的处理能力。

为了方便理解,我们可以将这个过程类比为“切蛋糕” ,一张大蛋糕(高分辨率视频流)需要分给7个人(7个处理单元或者7个逻辑分片)来同时处理。

以下是详细的通俗解释和专业解读:

1. 什么是“切分”?

在视频分析场景中,随着摄像头(如4K、8K)分辨率的提升,单张图片的数据量巨大。如果直接塞给AI模型去跑,可能会因为显存不够、算力瓶颈导致延迟很高,甚至跑不动。

为了解决这个问题,系统会将一张大图“切成”几个小块,并行送到芯片的算力核心上去处理,最后再把结果拼起来。这就是“切分”。

  • 通俗例子: 原本一张4K的大图由一个人慢慢看;现在切成7块,分给7个人同时看,最后汇总谁看到了什么(比如某个人在哪一块里),速度就快多了。

2. 什么是“软切分”与“硬切分”?

这两个词描述的是“在哪里” 以及“用什么方式” 进行切割。

软切分
  • 定义: 切分动作由软件(CPU或AI框架)完成。
  • 工作流程: 视频流解码成图片后,CPU先将大图裁剪成多个小块,然后将这些小块分别作为独立的输入数据,发送给Atlas 300V Pro的AI核心进行推理。
  • 特点: 灵活性高,理论上切分形状和大小可以任意调整。但因为需要CPU参与数据拷贝和分发,可能会增加CPU的负载和内存带宽压力。
  • 适用场景: 算法比较特殊,需要不规则的切分,或者硬件加速器不支持硬切分时的通用方案。
硬切分
  • 定义: 切分动作由硬件(Atlas卡的专用处理单元)自动完成。
  • 工作流程: 数据进入加速卡后,卡上的硬件逻辑(通常是DVPP或专门的预处理单元)直接将大图按规则切分,并直接分发给不同的AI核心。
  • 特点: 速度快,效率高,不占用CPU资源,数据搬运少。这是硬件厂商为了优化性能而设计的“加速车道”。
  • 适用场景: 标准化的视频分析任务,追求极致的吞吐量和低延迟。

3. “最大切分规格为7个分片”怎么理解?

这句话包含两个关键信息:上限是7最小单位是分片

  • 上限为7: 这意味着一张大图(比如一个4K视频帧)最多只能被切成7份并发处理。如果你把它切成8份或10份,硬件或驱动可能不支持,或者性能反而会下降。

    • 为什么是7? 通常与芯片内部的AI核心数量、拓扑结构或内存通道带宽有关。华为昇腾芯片的架构设计决定了7是一个既能利用并行性,又不会导致调度开销过大的最佳平衡点。
  • 分片: 指的是切分后的每一个小块。系统允许将1个视频流切分为1~7个分片。

4. 举个实战例子

假设您有一路 4K(3840x2160) 的摄像头视频,需要做行人检测:

  • 如果不切分(1个分片): 芯片必须一次性处理3840x2160的像素。如果显存不够,或者算法太慢,帧率会很低(比如只有5 FPS)。
  • 使用软/硬切分(7个分片):
    1. 将4K图片横向切成7个长条(每个大约3840x308像素)。
    2. 同时启动7个AI核心,每人处理一个长条。
    3. 因为每个长条的像素量大大减少,处理速度极快。
    4. 最终汇总结果,整体帧率可能提升到30 FPS甚至更高。

总结

  • 支持软切分和硬切分: 说明该设备提供了灵活的“分工协作”模式,既可以用硬件极速切分(省电、高效),也可以用软件灵活切分(兼容性好)。
  • 最大切分规格为7个分片: 说明它的一张大图最多能分给7个“工人”同时干活,这是单张图处理的并行上限。这个参数主要用于评估该卡能否高效处理高分辨率(如4K/8K)视频流的性能指标。

【扩展问题】

Atlas 300V Pro支持软切分和硬切分,最大切分规格为7个分片,那可以切分为5个分片吗

答案是:可以的。

“最大切分规格为7个分片”中的“最大” 二字是关键,它设定的是一个上限(Ceiling) ,而不是固定值。

以下是详细的解释:

1. 理解范围的含义

这句话可以理解为:

该设备支持将 1 个视频流切分为 1 到 7 之间的任意整数个分片。

只要你的切分数量 N 满足条件: 1 ≤ N ≤ 7 都是被支持的。

  • N=1: 不切分,直接处理整张图。
  • N=5: 切成5块,完全支持
  • N=7: 切成7块,达到硬件支持的极限。
  • N=8: 不支持,超过了上限。

2. 实际应用中为什么选5个而不是7个?

既然设备支持到7个,为什么不总是用最大的,有时候反而会选择切成5个?主要取决于图像尺寸算法模型

  • 分片太小会导致算力浪费: 假设你处理的图像是 3000 像素宽。

    • 如果切成7片,每片大约 428 像素宽。
    • 如果切成5片,每片是 600 像素宽。

    有些AI模型在处理非常小的图片(如428宽)时,由于边界填充、上下文信息不足等原因,识别准确率可能下降,或者无法发挥AI核心的最大效能。这时候切成5片效果反而更好。

  • 特定的分辨率除尽: 有时为了方便后续的数据拼接或对齐,开发者会根据图像的宽度选择能整除的数字。例如图像宽度为 2500 像素,切成 5 份刚好每份 500 像素,非常工整;切成 7 份则会有小数,边缘处理更麻烦。

3. 总结

Atlas 300V Pro 提供了从 1 到 7 的弹性能力,您可以根据实际的视频分辨率、算力负载需求和算法效果,自主配置切分为 2、3、4、5、6 或 7 个分片。切成 5 个分片是完全合规且常见的操作。

Logo

作为“人工智能6S店”的官方数字引擎,为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐