昇腾生态专栏_人工智能6S服务平台

昇腾生态

你是否好奇，支撑起大模型时代的澎湃算力来自何方？你是否想知道，AI如何从云端走向边缘，改变我们的生活？欢迎来到昇腾社区专栏！这里是了解昇腾AI生态、发现创新机遇的窗口。无论你是资深开发者、高校学生，还是对AI充满热情的行业探索者，这里都有属于你的精彩！

1234篇内容

开源大模型加国产芯片：正在成形的组合拳

DeepSeek发布V4系列MoE模型引发国产AI芯片适配热潮。V4采用双轴稀疏架构等技术，推理效率显著提升，但训练仍依赖英伟达。8家国产芯片厂商完成推理适配，其中华为昇腾实现深度移植，其他厂商适配程度尚不明确。尽管国产芯片在推理端取得突破，但训练端仍存在明显差距。此次事件展示了“开源模型+国产芯片+性价比”的产业路径，但可持续性取决于训练国产化进度、昇腾950交付及软件生态建设。国产芯片首次在A

563 

方寸智见 · 2026-05-08 19:56:31

#人工智能

如何两台atlas-a2服务器物理机，基于vllm-ascend部署qwen3.5 397b-w8a8-mtp大模型

两台8*64的昇腾910b4服务器物理机，未做任何虚拟化，已经通过交换机进行互联。

581 

xyhshen · 2026-05-08 16:50:03

昇思大模型大规模无标注数据预训练+指令微调+对齐

昇思大模型是基于MindSpore框架构建的生成式AI模型，支持从预训练到部署的全流程开发。其核心优势在于深度适配昇腾硬件，支持分布式训练，无需复杂改造即可完成模型开发。关键技术包括：1）基于大规模无标注数据的Transformer架构预训练；2）支持全参数和LoRA两种指令微调方式；3）采用RLHF技术实现模型输出与人类偏好的对齐。通过MindFormers工具套件，开发者可以高效完成大模型训练

29 

昇思MindSpore · 2026-05-08 15:34:09

#语言模型 #自然语言处理 #深度学习

昇思大模型驱动的内容智能：原理、应用与实操

昇思大模型（MindSpore）基于昇腾NPU与鲲鹏架构，通过自动并行、图算融合等技术实现高效多模态内容生成。其核心技术包括MindSpore框架、昇腾硬件加速和多模态融合，支持文本、图像、音视频的智能生成与理解。应用覆盖内容创作、医疗、工业等领域，典型案例包括智能分诊系统和新能源预测。实操指南涵盖环境搭建、模型训练及部署优化。未来将聚焦技术演进、生态拓展和伦理规范，推动智能内容生产发展。

55 

昇思MindSpore · 2026-05-08 15:29:37

#性能优化 #语言模型 #深度学习 +1

基于昇腾平台的 CV 与 NLP 模型微调实践

本文介绍了昇腾AI平台在计算机视觉（CV）和自然语言处理（NLP）模型微调方面的全栈解决方案。平台基于DaVinci架构、CANN异构计算架构和昇思MindSpore框架，提供硬件加速、异构调度和轻量化微调等优势。文章详细讲解了环境配置、数据处理、模型加载和微调训练的全流程，包括ResNet50图像分类和BERT文本分类的具体实现。重点介绍了混合精度训练、数据集下沉模式、算子融合优化等关键优化策略

22 

昇思MindSpore · 2026-05-08 15:26:19

#自然语言处理 #人工智能 #算法 +1

昇腾平台 GEMM 类算子性能优化方法

本文系统介绍了昇腾AI处理器上GEMM（通用矩阵乘法）算子的性能优化方法。通过分析昇腾DaVinci架构的硬件特性，提出六大优化维度：1）利用专用矩阵计算单元和多级缓存架构；2）采用MC=128/KC=128/NC=256的分块策略；3）优化数据排布提升缓存命中率；4）实现向量化指令并行计算；5）多核任务调度；6）编译调优。文章提供了完整的AscendCL实现代码，通过分块循环、数据重排和SIMD

29 

昇思MindSpore · 2026-05-08 15:22:31

#性能优化 #架构 #算法 +1

MindSpeed RL：昇腾强化学习解决方案

摘要：MindSpeed RL是昇腾推出的强化学习加速套件，专为提升大模型对齐和智能体训练效率而设计。基于CANN和昇腾NPU集群，该套件通过分布式数据流、训推共卡等技术解决传统RL训练扩展性差、算力利用率低等问题，可将训练吞吐量提升1.42-3.97倍。支持PPO、GRPO等主流算法，覆盖7B至671B全规模模型，并提供开箱即用的配置化驱动方案。其核心技术包括分布式数据流架构、AllGather

47 

昇思MindSpore · 2026-05-08 15:20:11

#语言模型 #机器学习 #大数据 +1

昇思模型量化基础

摘要：模型量化技术通过将高精度浮点模型转为低精度定点（如FP32→INT8），实现显存减半、吞吐翻倍和延迟降低。昇思MindSpore提供训练感知量化、静态量化和动态量化三种方式，支持CV、NLP及多模态大模型的一键量化。量化核心是将权重和激活值线性映射到低精度，同时保持精度无损。MindSpore量化流程包括加载浮点模型、配置策略、转换网络和部署推理，特别适配昇腾NPU硬件加速。实践表明，INT

31 

昇思MindSpore · 2026-05-08 15:17:23

#人工智能 #自然语言处理 #深度学习

掌握模型迁移适配到昇腾 NPU 上的方法

摘要：本文系统介绍了将深度学习模型从x86/GPU迁移到昇腾NPU的标准化流程和方法论。重点阐述了三种主流迁移方案：PyTorch转MindSpore+Ascend（精度最稳）、ONNX转OM（通用部署）和Torch-NPU（最小代码改动）。通过ResNet50实例演示了权重转换、精度对齐和NPU推理全流程，提供可直接运行的完整代码。文章还总结了迁移过程中的常见问题解决方案，如算子替换、精度调优等

75 

昇思MindSpore · 2026-05-08 15:05:58

#深度学习 #算法 #性能优化 +1

MindSpore Transformers Safetensors 权重详解

摘要：Safetensors是Hugging Face推出的新一代张量存储格式，具有安全、高速、零拷贝和跨框架兼容等优势。MindSpore Transformers全面支持Safetensors权重的保存、加载、转换及分布式处理，并针对昇腾NPU进行优化。该格式采用纯二进制存储，避免了Pickle的安全风险，加载速度比传统格式快50-100倍。MindSpore通过内存映射、NPU直连等技术实现

148 

昇思MindSpore · 2026-05-08 15:02:51

#架构 #分布式 #算法 +1