Advertisement

为什么 LR 模型要使用 sigmoid 函数

阅读量:

http://thomaslau.xyz/2017/08/04/2017-08-04-derivative-of-logistic-sigmoid-function/

分享一些在学习逻辑回归过程中的困惑与思考。
阅读西瓜书《机器学习》中的逻辑回归章节时发现,在模型推导中突然引入sigmoid函数显得有些突兀。
类似地提出这个问题后,在知乎上获得了很多讨论。
其中被广泛采纳的回答主要集中在模型优化的角度上。
然而正如科技公司的创始人马化腾先生所言:类似地提出这个问题后,在知乎上获得了很多讨论。
其中被广泛采纳的回答主要集中在模型优化的角度上。
然而类似地提出这个问题后,在知乎上获得了很多讨论。
其中被广泛采纳的回答主要集中在模型优化的角度上,
随后其他回答者提出了各种理由,
而匿名回答则提到了最大熵原理,
但这其实并不是主要原因,
甚至可以说这是一个推论或公理的结果。
换而言之,
一个分析问题的方法是从前一步的原因出发,
另一种分析问题的方法是从最初的起点出发。
对于数学专业的读者来说这可能让事情变得复杂,
甚至令人感到困惑。

那么让我们将问题拆开来看:

  1. 为何选择sigmoid函数作为逻辑回归的输出层激活函数?
  2. 探讨其意义及其为何在面对分类问题时相较于线性回归(linear regression)具有显著优势。

问题一

问题二

Y=Xβ+ϵ
J(θ)=∑i=1m(hθ(x(i))−y(i))2
Linear Regreesion的损失函数就是常见的均值方差也就是平方损失函数,最优求解即是使用高斯的最小二乘法,高中数学都会讲到,这里不详述。
那么,线性回归有什么问题嘛?线性回归适用于因变量(随自变量而变)是连续的模型,即特征和结果满足线性,但是实际有的因变量是离散型机率分布。如抛硬币,结果是正面或反面的二项分布问题。

该概率分布在统计学中被称为二元结果分布或简单随机变量模型。
其核心特征是一个随机变量X只能取两个可能的值:成功(通常记为1)与失败(通常记为0)。
每个实验仅能产生两种互斥的结果。
这些独立试验的结果之间不存在任何关联性。
当我们将n个这样的独立事件串联起来时就形成了n重贝努里过程。

以下是改写后的文本

f(x)等于F'(x),其值为指数负号乘以(x减去μ)除以γ之后的结果再除以括号中(1加上同样的指数项)平方后的数值;
该概率密度函数属于标准形式下的逻辑概率模型;
基于比例关系的标准累积逻辑分布在统计学中具有重要的应用;
该累积分布函数反映了数据点落在某一区间内的概率;
进一步地,在分类模型中,
P(Y=1|x)等于指数项乘以线性组合后的结果除以(1加上同样的指数项),其中线性组合涉及权重系数和截距项的具体计算。

P(Y=0|x)=11+ew⋅x+b(2)

又对一个二分类事件发生的几率odds的对数有
logit(P(Y=1|x))=logP(Y=1|x)1−P(Y=1|x)=w⋅x

我们可以通过以下方式建立LR模型:发生事件Y=1的概率对数是输入变量x的线性组合。

该文主要介绍了两种重要的分类模型:线性回归与逻辑回归。其中,
线性回归属于连续型模型,在处理分类问题时对噪声较为敏感。
相比之下,
逻辑回归作为一种非线性模型,
其独特之处在于通过附加一层非线性变换将输出值压缩至0至1区间内。
这种处理方式使得其输出结果具有概率解释意义。
具体而言,
逻辑回归通过附加一层函数映射并引入对数损失函数作为优化目标,
从而实现了特征到结果之间的概率预测。
如前所述,
该文旨在深入探讨这种设计背后的理论基础与数学原理。
具体推导过程可在《统计学习方法》第80-88页中找到详细说明。
进一步了解相关内容可参考:
逻辑回归和最大熵模型 ,The equivalence of logistic regression and maximum entropy models

参考:

维基百科上介绍的有三种相关的数学概念:logit函数、logistic分布以及 logistic 回归。
知乎上讨论的为何LR模型会选择sigmoid函数?
《统计学习方法》一书由李航著述。

全部评论 (0)

还没有任何评论哟~