深度学习笔试高频考点精解，鸿蒙：PersistenceV2页面间持久化存储数据。

梯度问题：消失/爆炸的成因及解决方案（权重初始化、归一化、残差连接）归一化技术：BatchNorm/LayerNorm的适用场景与数学形式注意力机制：复杂度分析与高效实现变体损失函数：分类任务中交叉熵与MSE的对比建议结合具体论文（如ResNet、Attention Is All You Need）深入理解设计动机。

2601_95801319

44人浏览 · 2026-04-12 00:50:16

2601_95801319 · 2026-04-12 00:50:16 发布

深度学习笔试选择题：题组2解析与知识点精讲

题目1：关于反向传播算法的描述，以下哪项是错误的？

A. 反向传播通过链式法则计算梯度
B. 反向传播必须在前向传播完成后执行
C. 反向传播可以独立于优化算法使用
D. 反向传播的时间复杂度与网络层数成线性关系

解析
反向传播的核心是链式法则（A正确），且必须在前向传播后执行（B正确）。时间复杂度与层数线性相关（D正确）。错误选项是C，反向传播本质是梯度计算工具，需配合优化算法（如SGD）使用。

知识点延伸
链式法则的数学表达：
$$ \frac{\partial L}{\partial w} = \frac{\partial L}{\partial z} \cdot \frac{\partial z}{\partial w} $$ 其中 $L$ 为损失函数，$z$ 为层输出。

题目2：以下哪种激活函数容易导致“梯度消失”问题？

A. ReLU
B. Leaky ReLU
C. Sigmoid
D. Swish

解析
Sigmoid函数将输入压缩到(0,1)，其导数最大值为0.25（当输入为0时）。多层叠加时梯度会指数级衰减，故C正确。ReLU族（A、B、D）在正区间梯度为1，缓解了该问题。

实验建议
可通过PyTorch代码观察梯度变化：

x = torch.linspace(-5, 5, 100, requires_grad=True)
y = torch.sigmoid(x).sum()
y.backward()
plt.plot(x.detach(), x.grad)  # 显示梯度曲线

题目3：批归一化（BatchNorm）在测试阶段的处理方式是？

A. 使用当前批次的均值和方差
B. 使用训练集全体数据的固定统计量
C. 使用指数移动平均（EMA）保存的统计量
D. 关闭归一化

解析
BatchNorm在训练时计算批次统计量并更新EMA，测试阶段使用EMA保存的$\mu$和$\sigma$（C正确）。选项A是训练时的行为，B通常不可行（数据量大时无法全量计算）。

代码实现
TensorFlow中training=False时的行为：

bn_layer = tf.keras.layers.BatchNormalization()
test_output = bn_layer(test_input, training=False)  # 使用EMA参数

题目4：ResNet中残差连接的主要作用是？

A. 降低计算复杂度
B. 缓解深层网络梯度消失
C. 减少参数数量
D. 提高模型非线性能力

解析
残差连接通过恒等映射（$F(x)+x$）使得梯度可直接回传至浅层（B正确）。其设计初衷是解决深度网络的退化问题，而非直接降低计算量（A错误）或参数（C错误）。

结构对比
普通网络与ResNet的梯度流动差异：

普通网络：$\frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \cdot W$
ResNet：$\frac{\partial L}{\partial x} = \frac{\partial L}{\partial y} \cdot (W + I)$

题目5：Transformer中Multi-Head Attention的计算复杂度是？

A. $O(n^2 \cdot d)$
B. $O(n \cdot d^2)$
C. $O(n^2 \cdot d^2)$
D. $O(n \cdot d)$

解析
设序列长度$n$，特征维度$d$。QKT乘法复杂度$O(n^2 \cdot d)$，与Value相乘$O(n^2 \cdot d)$，总复杂度为$O(n^2 \cdot d)$（A正确）。多头机制不改变渐进复杂度。

优化技巧
工业界常用方法：

使用稀疏注意力（如Longformer）
分块计算（Reformer的LSH注意力）

高频考点总结

梯度问题：消失/爆炸的成因及解决方案（权重初始化、归一化、残差连接）
归一化技术：BatchNorm/LayerNorm的适用场景与数学形式
注意力机制：复杂度分析与高效实现变体
损失函数：分类任务中交叉熵与MSE的对比

建议结合具体论文（如ResNet、Attention Is All You Need）深入理解设计动机。

https://github.com/PigouMay/dpy_xped/blob/main/README.md
https://raw.githubusercontent.com/PigouMay/dpy_xped/main/README.md
https://github.com/Salomedodd/9bk_u57u
https://github.com/Salomedodd/9bk_u57u/blob/main/README.md
https://raw.githubusercontent.com/Salomedodd/9bk_u57u/main/README.md

人工智能6S服务平台

作为“人工智能6S店”的官方数字引擎，为AI开发者与企业提供一个覆盖软硬件全栈、一站式门户。

更多推荐

鸿蒙运动健康实战：手把手打造高清顺滑的运动轨迹（基于Map Kit + Location Kit）

人工智能6S服务平台

零基础鸿蒙应用开发第三十二节：JSON核心基础与文件的读写

本文介绍了鸿蒙开发中JSON数据的处理与应用，主要内容包括：1) 掌握JSON核心语法规则与数据结构；2) 学习ArkTS中JSON模块的序列化/反序列化操作；3) 实现鸿蒙应用中本地JSON文件的创建、读取与写入流程。文章详细讲解了工程目录结构设计，提供了简单、中等、复杂三种JSON数据示例，并封装了JSON工具类实现rawfile和沙箱目录的文件读写功能。通过本教程，开发者可掌握完整的JSON

人工智能6S服务平台

鸿蒙flutter第三方库适配 - 快捷拨号一键拨打电话

运行效果图快捷拨号应用是一款便捷高效的电话拨号工具，通过简洁直观的界面设计，让用户能够快速拨打常用联系人电话。应用采用清新的绿色作为主色调，象征便捷与高效。核心功能涵盖联系人管理、一键拨号、搜索筛选、数据持久化四大模块，为用户提供流畅的拨号体验。应用支持添加、编辑、删除联系人，点击联系人卡片即可一键拨打电话。内置搜索功能，可快速定位目标联系人。所有数据自动保存到本地存储，重启应用后数据不丢失。预置