【ML】斯坦福Machine Learning反向传播(Backpropagation)的数学推导
疫情在家闲着没事把斯坦福Andrew Ng的机器学习里面的数学公式都推导了一遍。其中我发现视频中反向传播的数学跳过了一些步骤且所用的数学符号跟其他地方不太一样。今天来分享一下视频中反向传播的数学推导。
如果你喜欢看更直观的视频推导,请移步这里:
B站: https://www.bilibili.com/video/BV1GK4y1s76c/
Youtube: https://www.youtube.com/watch?v=9OzLcgy1bjs
原视频中介绍反向传播的有这两页:


有没有一种好像看懂又好像有点迷糊的感觉?我反正是的。。于是经过仔细看了之后我把我的纠结总结成了下面5个问题:
1. 为什么
?
2. 为什么下面一个视频内容说
,但是却从
开始推导。这样的简化可以吗?
3. 就算2是可以的,那为什么
?
4. 为什么
?
5. 为什么
?
推导之前我们先来看看一些基本定义:
: 第l层的第j个node的输出
: 第l层的第j个node的输入
: 第l层的第j个delta值
: 第l层的i行j列的theta值(权重值)



下面开始推导:
1. 为什么
?
- 因为分式函数求导为
,所以 
- 因为
,所以 
- 所以
。同理
。
2. 为什么下面一个视频内容说
,但是却从
开始推导。这样的简化可以吗?
原来这并不是简化,推导如下:
- 因为
, 
- 所以



值得注意的一点是在机器学习里面(特别是在斯坦福这门课里面logx这个表达方式底数是e,而不是通常我们看到的logx相当于底数是10。所以上面推导中有
。)
3. 就算2是可以的,那为什么
?
(这里还是用链式法则求导,只是多了一步加总。如果不好理解请参考本文最上方视频中的动画演示)

向量化:


4. 为什么
?

5. 为什么
?
注意第四问跟这里的区别在于第四问是针对单个样本(sample)来说的,而这里相当于对所有样本的
加总取平均。
加总: 
取平均: 
以上算出了j=0时的情况(也就是bias项)。对于非bias项,由于在最开始的cost function里面还有一个正则项
,所以还必须加上一个正则项的偏导,也就是
,所以,对于非bias项 (j不等于0) 我们有:

(细心的同学会发现ppt里面这里第二项没有除以m。我觉得这里应该是原视频里面写错了,或者由于除不除都是一个让你自己调的参数,所以就合并到一起考虑了。)
完结!第一次录制这种推导视频,如果对你有帮助麻烦点赞转发给需要的小伙伴啊。 :)
