登录社区云,与社区用户共同成长
邀请您加入社区
DeepSeek发布V4系列MoE模型引发国产AI芯片适配热潮。V4采用双轴稀疏架构等技术,推理效率显著提升,但训练仍依赖英伟达。8家国产芯片厂商完成推理适配,其中华为昇腾实现深度移植,其他厂商适配程度尚不明确。尽管国产芯片在推理端取得突破,但训练端仍存在明显差距。此次事件展示了“开源模型+国产芯片+性价比”的产业路径,但可持续性取决于训练国产化进度、昇腾950交付及软件生态建设。国产芯片首次在A
两台8*64的昇腾910b4服务器物理机,未做任何虚拟化,已经通过交换机进行互联。
昇思大模型是基于MindSpore框架构建的生成式AI模型,支持从预训练到部署的全流程开发。其核心优势在于深度适配昇腾硬件,支持分布式训练,无需复杂改造即可完成模型开发。关键技术包括:1)基于大规模无标注数据的Transformer架构预训练;2)支持全参数和LoRA两种指令微调方式;3)采用RLHF技术实现模型输出与人类偏好的对齐。通过MindFormers工具套件,开发者可以高效完成大模型训练
昇思大模型(MindSpore)基于昇腾NPU与鲲鹏架构,通过自动并行、图算融合等技术实现高效多模态内容生成。其核心技术包括MindSpore框架、昇腾硬件加速和多模态融合,支持文本、图像、音视频的智能生成与理解。应用覆盖内容创作、医疗、工业等领域,典型案例包括智能分诊系统和新能源预测。实操指南涵盖环境搭建、模型训练及部署优化。未来将聚焦技术演进、生态拓展和伦理规范,推动智能内容生产发展。
本文介绍了昇腾AI平台在计算机视觉(CV)和自然语言处理(NLP)模型微调方面的全栈解决方案。平台基于DaVinci架构、CANN异构计算架构和昇思MindSpore框架,提供硬件加速、异构调度和轻量化微调等优势。文章详细讲解了环境配置、数据处理、模型加载和微调训练的全流程,包括ResNet50图像分类和BERT文本分类的具体实现。重点介绍了混合精度训练、数据集下沉模式、算子融合优化等关键优化策略
本文系统介绍了昇腾AI处理器上GEMM(通用矩阵乘法)算子的性能优化方法。通过分析昇腾DaVinci架构的硬件特性,提出六大优化维度:1)利用专用矩阵计算单元和多级缓存架构;2)采用MC=128/KC=128/NC=256的分块策略;3)优化数据排布提升缓存命中率;4)实现向量化指令并行计算;5)多核任务调度;6)编译调优。文章提供了完整的AscendCL实现代码,通过分块循环、数据重排和SIMD
摘要:MindSpeed RL是昇腾推出的强化学习加速套件,专为提升大模型对齐和智能体训练效率而设计。基于CANN和昇腾NPU集群,该套件通过分布式数据流、训推共卡等技术解决传统RL训练扩展性差、算力利用率低等问题,可将训练吞吐量提升1.42-3.97倍。支持PPO、GRPO等主流算法,覆盖7B至671B全规模模型,并提供开箱即用的配置化驱动方案。其核心技术包括分布式数据流架构、AllGather
摘要:模型量化技术通过将高精度浮点模型转为低精度定点(如FP32→INT8),实现显存减半、吞吐翻倍和延迟降低。昇思MindSpore提供训练感知量化、静态量化和动态量化三种方式,支持CV、NLP及多模态大模型的一键量化。量化核心是将权重和激活值线性映射到低精度,同时保持精度无损。MindSpore量化流程包括加载浮点模型、配置策略、转换网络和部署推理,特别适配昇腾NPU硬件加速。实践表明,INT
摘要:本文系统介绍了将深度学习模型从x86/GPU迁移到昇腾NPU的标准化流程和方法论。重点阐述了三种主流迁移方案:PyTorch转MindSpore+Ascend(精度最稳)、ONNX转OM(通用部署)和Torch-NPU(最小代码改动)。通过ResNet50实例演示了权重转换、精度对齐和NPU推理全流程,提供可直接运行的完整代码。文章还总结了迁移过程中的常见问题解决方案,如算子替换、精度调优等
摘要:Safetensors是Hugging Face推出的新一代张量存储格式,具有安全、高速、零拷贝和跨框架兼容等优势。MindSpore Transformers全面支持Safetensors权重的保存、加载、转换及分布式处理,并针对昇腾NPU进行优化。该格式采用纯二进制存储,避免了Pickle的安全风险,加载速度比传统格式快50-100倍。MindSpore通过内存映射、NPU直连等技术实现