李宏毅机器学习作业1

阅读量：

学习打卡任务内容：

了解什么是Machine learning
学习中心极限定理，学习正态分布，学习最大似然估计
- 推导回归Loss function
- 学习损失函数与凸函数之间的关系
- 了解全局最优和局部最优
学习导数，泰勒展开
- 推导梯度下降公式
- 写出梯度下降的代码
学习L2-Norm，L1-Norm，L0-Norm
- 推导正则化公式
- 说明为什么用L1-Norm代替L0-Norm
- 学习为什么只对w/Θ做限制，不对b做限制

machine learning

机器学习，就是“根据所给数据，寻找一个函数，给出适当输出”。通过这个函数，我们可以给它一个输入，得到理想的、正确的输出。我们通常需要给它数据，训练一个机器的学习能力。

机器学习三部曲

Step1： model --a set of function
建立一个模型，该模型中会包含成千上万的function
Step2: Goodness of function
根据某个规则来评价模型的好坏
Step3: pick a best of function
挑选一个最好的模型

Regression

线性回归的定义是：对应输入的数据，能够找到一个函数使得输出值与原来输出值非常接近，输出值是数值型的。

中心极限定理

中心极限定理：
样本的平均值约等于总体的平均值。
不管总体是什么分布，任意一个总体的样本平均值都会围绕在总体的整体平均值周围，并且呈正态分布。

线性回归的loss function推导

假设线性回归的方程式为 $y^{(i)} = \theta^Tx^{(i)}+\varepsilon^{(i)}$ 其中 $y^{(i)}$ 为第 $i$ 个样本预测值， $x^{(i)}$ 为第 $i$ 个样本输入值， $\theta^T$ 为参数， $\varepsilon^{(i)}$ 为第 $i$ 个样本误差项。
我们假设误差 $\varepsilon^{(i)}$ 是独立同分布的，服从均值为0，方差 $\sigma$ 为的Gaussion分布。则有 $\varepsilon^{(i)} \sim N(0,\sigma^2)$ ，则 $\varepsilon^{(i)}$ 的密度函数为 $p(\varepsilon^{(i)}) =\dfrac{1}{\sqrt{2\pi}\sigma} exp(-\dfrac{(\varepsilon^{(i)})^2}{2\sigma^2})$ 由于 $\varepsilon^{(i)}=y^{(i)}-\theta^Tx^{(i)}$ ，则有 $p(y^{(i)}|x^{(i)};\theta) =\dfrac{1}{\sqrt{2\pi}\sigma} exp(-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})$
由于每个样本是独立同分布的，下面采用极大似然估计来估计 $\theta$ 值，
则有似然函数为
$L(\theta)=p(Y|X;\theta)=\prod_{i=1}^n \dfrac{1}{\sqrt{2\pi}\sigma} exp(-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2})$ ,
对两边取log有：
$\begin{aligned} l(\theta)&=lnL(\theta) \\ &= ln \prod_{i=1}^np(y^{(i)}|x^{(i)};\theta) \\ &=\sum_{i=1}^n \dfrac{1}{\sqrt{2\pi}\sigma} exp(-\dfrac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \\ &=nln\dfrac{1}{\sqrt{2\pi}\sigma} -\dfrac{1}{\sigma^2}* \dfrac{1}{2}\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2 \end{aligned}$

则对 $l(\theta)$ 最大化转换成对 $\dfrac{1}{2}\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2$ 的最小化。记 $J(\theta) = \dfrac{1}{2}\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)})^2$ 为线性回归的损失函数。

求gradient descent

根据题图下降的公式可以得出： $\theta_j :=\theta_j - \alpha \dfrac{\partial}{\partial x}J(\theta)$
这里需要对损失函数求偏导数
$\begin{aligned} \dfrac{\partial}{\partial \theta_j}J(\theta) &= \dfrac{1}{2} *\sum_{i=1}^n2(y^{(i)}-\theta^Tx^{(i)}) x_j^{(i)} \\ & =\sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)}) x_j^{(i)} \end{aligned}$
带入上面梯度下降的公式可得：
$\theta_j :=\theta_j - \alpha \sum_{i=1}^n(y^{(i)}-\theta^Tx^{(i)}) x_j^{(i)}$

logistic Regression的loss function推导

linear Regression得到的预测值是连续的，即 $y \in(-\infty,\infty)$ ,而对于分类问题不适用，为了解决这个问题，我们引入sigmoid函数： $g(z) = \frac{1}{1+e^{-z}}, \forall z \in(-\infty,\infty)$ 令 $z = \vec{w}\cdot \vec x+b=\sum_{i=1}^nw_ix_i+b$ 有 $h_{\theta}(x)=g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}$
假设 $p(y=1|x;\theta) = h_{\theta}(x)$ $p(y=0|x;\theta) = 1-h_{\theta}(x)$ 则有 $p(y|x;\theta) =(h_{\theta}(x))^y(1-h_{\theta}(x))^{1-y}$ 我们可以写出似然函数： $L(\theta) = \prod_{i=1}^np(y^{(i)}|x^{(i)};\theta) = \prod_{i=1}^n(h_{\theta}(x^{(i)}))^{y^{(i)}}(1-h_{\theta}(x^{(i)}))^{1-y^{(i)}}$
对上面式子两边求 $\ln$ :
$\begin{aligned}l(\theta) &= lnL(\theta) \\ &= \sum_{i=1}^n[{y^{(i)}}ln(h_{\theta}(x^{(i)}))+{(1-y^{(i)})(1-h_{\theta}(x^{(i)}))}] \end{aligned}$
对 $l(\theta)$ 求最大化可以转化成对 $-l(\theta)$ 求最小化：
$arg\max_{\theta}l(\theta) = arg\min_{\theta}-l(\theta)$
因此可以定义损失函数： $J(\theta) =- \sum_{i=1}^n[{y^{(i)}}ln(h_{\theta}(x^{(i)}))+{(1-y^{(i)})(1-h_{\theta}(x^{(i)}))}]$

求梯度下降

损失函数：
$L(\theta) = -\sum_{i=1}^n [y^{(i)}lnh_\theta(x^{(i)}) + (1-y^{(i)})ln(1-h_\theta(x^{(i)}))]$
下面对损失函数求导：
$\begin{aligned} \dfrac{\partial}{\partial \theta_j}J(\theta) &= -\sum_{i=1}^n[\dfrac{y^{(i)}}{g(\theta^Tx^{(i)})}*\dfrac{dg(\theta^Tx^{(i)})}{d\theta}-\dfrac{1-y^{(i)}}{1-g(\theta^Tx^{(i)})}*\dfrac{dg(\theta^Tx^{(i)})}{d\theta}] \\ &=-\sum_{i=1}^n[\dfrac{y^{(i)}}{g(\theta^Tx^{(i)})}-\dfrac{1-y^{(i)}}{1-g(\theta^Tx^{(i)})}]*\dfrac{dg(\theta^Tx^{(i)})}{d\theta} \\ &=-\sum_{i=1}^n[\dfrac{y^{(i)}}{g(\theta^Tx^{(i)})}-\dfrac{1-y^{(i)}}{1-g(\theta^Tx^{(i)})}]*g(\theta^Tx^{(i)})*(1-g(\theta^Tx^{(i)})) *x_j^{(i)}\\ &= -\sum_{i=1}^n[y^{(i)}*(1-g(\theta^Tx^{(i)}))-(1-y^{(i)})*g(\theta^Tx^{(i)})] *x_j^{(i)}\\ &= -\sum_{i=1}^n(y^{(i)}-g(\theta^Tx^{(i)}))*x_j^{(i)}\\ \end{aligned}$
则有梯度下降公式： $\theta_j :=\theta_j - \alpha \sum_{i=1}^n(y^{(i)}-g(\theta^Tx^{(i)})) x_j^{(i)}$

梯度下降代码实现：

复制代码

    def gd(x,y,n_iterations,alpha,learning_rate):
    W = np.random.randn(x.shape[1])
    for i in range(n_iterations): 
        # LINEAR REGRESSION
        y_pred = np.dot(x,W) 
        error = y_pred - y 
        # L2 LOSS,MSE
        loss = np.mean(0.5 *(error **2) + alpha * 0.5 * np.dot(W.T,W))
        print("Iteration {0} | loss is {1}".format(i,loss))
        # GRADIENT
        grad = np.dot(x.T,error) + alpha * W
        # UPDATE WEIGHTS
        W = W - learning_rate * grad
    return W

正则化

范数是衡量某个向量空间（或矩阵）中的每个向量以长度或大小。范数的一般化定义：对实数p>=1，范数定义如下： $\left \| x \right \|_p := (\sum_{i=1}^{n} \left | x_i \right |^p)^{\frac{1}{p}}$
当p=1时，是L1范数，其表示某个向量中所有元素绝对值的和。
当p=2时，是L2范数，表示某个向量中所有元素平方和再开根号。

L1 范数是指向量中各个元素绝对值之和，也叫“稀疏规则算子”（Lasso regularization）。范数作为正则项，会让模型参数θ稀疏化，既让模型参数向量里为0的元素尽量多。在支持向量机（support vector machine）学习过程中，实际是一种对于成本函数(cost function)求解最优，得出稀疏解。

L2 范数作为正则项式让模型参数尽量小，但不会为0，尽量让每个特征对预测值都有一些小的贡献，得出稠密解。
在梯度下降算法的迭代过程中，实际上是在成本函数的等高线上跳跃，并最终收敛在误差最小的点上（此处为未加正则项之前的成本误差）。而正则项的本质就是惩罚。模型在训练的过程中，如果没有遵守正则项所表达的规则，那么成本会变大，即受到了惩罚，从而往正则项所表达的规则处收敛。成本函数在这两项规则的综合作用下，正则化后的模型参数应该收敛在误差等值线与正则项等值线相切的点上。

正则化一般具有如下形式：
$\min \frac{1}{n}\sum_{i=1}{n}L(y^{(i)},f(x^{(i)}))+\lambda J(f)$

说明为什么用L1-Norm代替L0-Norm

一是因为L0范数很难优化求解（NP难问题），二是L1范数是L0范数的最优凸近似，而且它比L0范数要容易优化求解。

为什么只对w/Θ做限制，不对b做限制

首先正则化主要是为了防止过拟合，而过拟合一般表现为模型对于输入的微小改变产生了输出的较大差异，这主要是由于有些参数w过大的关系，通过对||w||进行惩罚，可以缓解这种问题。而如果对||b||进行惩罚，其实是没有作用的，因为在对输出结果的贡献中，参数b对于输入的改变是不敏感的，不管输入改变是大还是小，参数b的贡献就只是加个偏置而已。举个例子，如果你在训练集中，w和b都表现得很好，但是在测试集上发生了过拟合，b是不背这个锅的，因为它对于所有的数据都是一视同仁的（都只是给它们加个偏置），要背锅的是w，因为它会对不同的数据产生不一样的加权。或者说，模型对于输入的微小改变产生了输出的较大差异，这是因为模型的“曲率”太大，而模型的曲率是由w决定的，b不贡献曲率（对输入进行求导，b是直接约掉的）。

链接：https://www.zhihu.com/question/66894061/answer/653496474

全部评论 (0)

还没有任何评论哟~

李宏毅机器学习作业1

学习打卡任务内容：了解什么是Machinelearning 学习中心极限定理，学习正态分布，学习最大似然估计推导回归Lossfunction 学习损失函数与凸函数之间的关系了解全局最优和局部最优...

李宏毅机器学习——课后作业1

李宏毅机器学习视频地址：【李宏毅深度学习19（完整版）国语】第一次作业参考地址：线性回归预测PM2.5台大李宏毅机器学习作业1HW1 文章目录作业要求：作业分析：模型分析：代码分析：数...

李宏毅机器学习作业三

前言项目三是训练一个简单的卷积神经网络，实现食物图片的分类。现在还没有完成，在这里做一个记录。第三个作业比前面两个难了不少，遇到了很多困难，首先还是去理解老师已经给出的代码。

李宏毅机器学习 task3作业

李宏毅MachineLearning2019Task3 学习打卡内容大作业按照Homework1Introduction.txt的要求完成本次作业作业1：预测PM2.5的值在这个作业中，我们将...

李宏毅机器学习作业二

前言第二个作业是年收入判断，任务是做一个线性二元分类器，根据人们的个人资料来判断其年收入是否高于50000美元。这里用了逻辑回归和概率生成模型两种方法。数据集有Xtrain,Ytrain,Xtes...

李宏毅2020机器学习作业1——Linear Regression

————————————————————————————————————————————— 开始之前声明：本文参考了李宏毅机器学习作业说明（需翻墙）,基本上是将代码复现了一遍，说明中用的是google...

李宏毅的机器学习作业3

李宏毅的机器学习作业3 作业要求数据处理模型搭建作业所需数据akti 作业参考答案作业要求本次作业是一个图像识别任务，要将所给的食物图片分类，共有十一种，图片对应的食物编号在图片名字的前缀上...

李宏毅的机器学习作业4

李宏毅的机器学习作业4 作业任务数据处理 onehot wordembedding word2vec 模型构建模型原理训练参考作业所需数据akti 作业参考答案作业任务本次作业是一个文本...

李毅宏的机器学习作业5

李毅宏的机器学习作业5 作业要求 Task1——SailencyMap Task2——FilterVisualization 核心代码 Task3——LIME 参考资料作业所需数据akti 作业参考...

李毅宏的机器学习作业6

李毅宏的机器学习作业5 作业要求对抗攻击对抗攻击分类 FGSM 任务1示例代码任务2尝试代码尝试参考作业所需数据akti 作业参考答案作业要求本此作业是一个“adversarialat...

是否确定退出登录?

李宏毅机器学习作业1

学习打卡任务内容：

machine learning

机器学习三部曲

Regression

中心极限定理

线性回归的loss function推导

求gradient descent

logistic Regression的loss function推导

求梯度下降

正则化

说明为什么用L1-Norm代替L0-Norm

为什么只对w/Θ做限制，不对b做限制

全部评论 (0)

相关文章推荐

李宏毅机器学习作业1

李宏毅机器学习——课后作业1

李宏毅机器学习作业三

李宏毅机器学习 task3作业

李宏毅机器学习作业二

李宏毅2020机器学习作业1——Linear Regression

李宏毅的机器学习作业3

李宏毅的机器学习作业4

李毅宏的机器学习作业5

李毅宏的机器学习作业6