假设在一个深度学习网络中批处理梯度下降花费了太多的时间来找到一个值的参数值,该值对于成本函数J(W[1],b[1],…,W[L],b[L])来说是很小的值。以下哪些方法可以帮助找到J值较小的参数值()
A.尝试使用Adam算法
B.尝试对权重进行更好的随机初始化
C.尝试调整学习率α
D.尝试mini-batch梯度下降
A.尝试使用Adam算法
B.尝试对权重进行更好的随机初始化
C.尝试调整学习率α
D.尝试mini-batch梯度下降
第1题
A.如果训练样本量较大,可选用随机梯度下降(SGD),它考虑历史梯度信息,更容易跳出局部极小值点
B.在高度非凸的深度网络优化过程,主要难点是鞍点
C.用无监督数据作分层预训练(Layer-wisePre-train)有助于解决梯度饱和问题
D.Sigmoid交叉熵损失函数适合于多标签学习,每一维彼此独立
第2题
A.减少了计算量
B.ResNet的梯度通过shortcut回到更早的层,缓解了网络因为深度增大导致的梯度消失
C.引入残差模块,简化了学习
D.改善了网络的特征获取能力
第4题
A.网中网(NIN)结构用全连接的多层感知机去代替传统的卷积,提升了模型的计算性能,但计算量显著增加
B.网络层数越多,学习率可设置偏大,否则容易引起梯度消失
C.VGG只要很少的迭代次数就会收敛,这是因为小的过滤尺寸起到了隐式的正则化的作用
D.Bagging中每个训练集互不相关,而Boosting中训练集要在上一轮的结果上进行调整,所以不能并行计算
第5题
A.梯度消失问题
B.过拟合问题
C.数据不平衡问题
D.梯度爆炸问题
第6题
A.先反向传播计算出误差,再正向传播计算梯度
B.只有反向传播计算梯度
C.只有反向传播计算输出结果
D.先正向传播计算出误差,再反向传播计算梯度
第9题
A.深度思考有助于提出一个好问题,更有助于发现知识缺陷
B.结构化思维促进构建知识的关联,形成成体系的知识架构
C.从不同的视角认识分析病例的变化,有助于构建临床药学思维
D.专注于学习本专业临床常见用药,剔除非本专业的用药,以提高专注度
第10题
A.要运行的迭代次数
B.梯度下降的步长
C.是否给数据加干扰特征或者偏差特征
D.Lasso和ridge的正规化参数