登录社区云,与社区用户共同成长
邀请您加入社区
暂无图片
为遵守国家网络实名制规定,未绑定将限制内容发布与互动
文章摘要 本文是《大模型知识与部署》系列第21篇,聚焦AI硬件选型中的GPU选择策略。作者指出GPU采购占大模型团队70-90%的成本,错误决策可能导致百万级损失。文章系统分析了主流GPU(A100/H100/H200/B200/4090/910B等)在算力、显存、互联、功耗和价格五个维度的关键参数,并给出典型选型场景建议:H100当前性价比最优,H200适合长上下文推理,B200面向未来训练,4
YLB3118芯片为物理AI终端提供国产化大容量存储解决方案。该PCIe3.0转8口SATA3.0控制芯片具备三大技术优势:支持8路6Gbps满速扩展,总带宽12Gbps,存储容量较竞品ASM1166提升33%;工业级低功耗设计(1.15-2.16W),运行温度降低10℃;100%国产化,适配信创需求。在物理AI模型训练、工业质检等场景中,其高并发读写、稳定性和自主可控特性表现突出,完美解决海量数
【摘要】"九章排错法"公开测试招募开启,提供标准化代码排错解决方案。该方法宣称不依赖经验,通过统一规则覆盖所有编程语言(C/C++/Python等)、代码类型(内核/框架/应用)和问题类型(架构/内存/数值等),10倍于人工的排错效率,3分钟完成千行代码分析。已成功验证于龙芯内核、昇腾算子等复杂场景,可生成带修复建议的标准化报告,区分代码缺陷与外部问题。测试免费开放,支持脱敏代码提交,承诺无死角定
理论上,由于众所周知的历史原因,鸿蒙设备无法安装谷歌的 ARCore 框架。推测是早年 ARCore 曾对 P30 做过专项适配,而在华为后续的新机型中才彻底切断了支持。这种由于历史遗留问题导致的兼容性断层,确实给开发者的环境搭建带来了不少困扰。在近期开发 AR 程序时,受限于公司测试设备的匮乏,笔者只能使用一台多年前的旧机型 Huawei P30 进行真机调试。相比之下,我个人的 vivo X
本文详细介绍了在昇腾 CANN 的 ops-nn 仓库中新增 SwiGLU 激活函数算子的完整流程。首先分析了 ops-nn 的架构定位与算子注册机制,然后基于 SwiGLU 的数学定义设计了前向计算和反向梯度推导方案,进而拆解出从算子注册、Shape 推导到 Tiling 策略、Ascend C 实现等七个关键开发步骤。重点探讨了 Tiling 策略的设计原理与实现细节,并提供了完整的代码实现框
摘要 catlass是一个专为昇腾NPU设计的GEMM模板库,灵感源自NVIDIA CUTLASS,通过分层模板设计封装硬件细节,实现高性能矩阵运算。其核心架构包含四层:1) TilePolicy定义分块策略,匹配昇腾张量核心特性;2) ThreadMap优化数据映射,确保高效内存访问;3) Mainloop实现流水线计算,支持多级并行;4) Epilogue链式后处理,支持算子融合。开发者通过组
FlashAttention 在昇腾 NPU 上的工程实践 摘要:本文详细介绍了在华为昇腾 NPU 上部署和优化 FlashAttention 算子的全流程实践。通过分析 ops-transformer 仓库的实现架构,阐述了 FlashAttention 三个版本(v1/v2/v3)的核心差异及适用场景,并针对不同昇腾硬件(910/910B/910C)的特性给出了优化建议。文章重点讲解了编译环境
本文介绍了华为昇腾 CANN 官方示例库 cann-samples 的基本结构和使用方法,重点解析了 AscendCL(Ascend Computing Language)的核心调用流程。文章首先概述了 cann-samples 的项目结构,包括推理、算子开发、媒体处理等不同场景的示例分类。随后详细阐述了 AscendCL 的 7 个关键步骤生命周期管理,从初始化到资源释放的完整过程,并深入解读了
本文介绍了在华为小艺开放平台开发工作流的完整流程。工作流是处理功能类请求的核心能力,通过可视化节点实现结构化任务处理。文章以"笑话生成助手"为例,详细演示了从创建工作流、配置提问器节点(收集用户偏好)、设置大模型节点(根据输入生成笑话)到连接结束节点的全过程。关键步骤包括节点连接、变量引用、Prompt优化以及试运行调试,最终实现一个可根据用户选择生成不同类型笑话的智能流程。该示例展示了如何将大模