似然与概率傻傻分不清楚?

188次阅读
没有评论

共计 1511 个字符,预计需要花费 4 分钟才能阅读完成。

似然与概率:傻傻分不清?统计和机器学习模型中的最大似然估计到底是什么?

一句话区分

概率是:已知模型,求统计结果的可能性有多大

似然是:已知结果,反推哪个模型,或者说一个模型的什么参数更可能产生它

从一个掷骰子的例子开始

假设我们有一个六面骰子,我们要研究它的行为。

场景一:已知骰子是公平的,问掷出“6”的概率是多少?

→ 这是概率问题。

→ 模型已知:公平骰子(每个点数的概率是 1/6)

→ 事件:掷出一个“6”

→ 概率:P(掷出6) = 1/6

场景二:你掷了 10 次骰子,结果是:6 出现了 5 次。

你开始怀疑这个骰子是不是“偏的”。你想比较两个假设:

H1:骰子是公平的;H2:骰子偏向 6(掷出6的概率是0.5)

→ 模型未知,数据已知:现在我们想知道哪个模型更可能“产生”这组结果。

→ 这是似然问题。

相同表达式,不同角色

在数学上我们经常看到这样的表达式:P(data | θ)

但含义根据已知和要求不同而不同:

– 如果已知 θ,求 data 的概率 ⇒ 这是概率

– 如果已知 data,比较不同 θ 哪个更可能 ⇒ 这是似然

在统计推断中的角色

概率的作用:构建模型、预测未来事件、衡量不确定性

似然的作用:参数估计(如最大似然估计MLE)、构建贝叶斯后验分布

一个简单类比:倒推 vs 正推

你看到路上有水坑,想知道是“下雨”还是“洒水”。

→ 如果你知道下雨概率70%,可以预测将看到水坑 ⇒ 概率

→ 如果你已经看到了水坑,想推断是下雨还是洒水 ⇒ 似然

总结一下

概率 (Probability): 面向数据,用于预测事件,是正向推理(模型 ➝ 数据)

似然 (Likelihood): 面向模型,用于估计参数,是反向推理(数据 ➝ 模型)

最大似然估计:从数据中“倒推”世界的方式

一句话定义

最大似然估计就是:

在所有可能的参数中,找到最有可能生成你观察到的数据的那一组。

用掷硬币举个简单例子

你怀疑一枚硬币可能不是公平的,于是你连续抛了10次,结果是:

正面:7 次,反面:3 次

你现在的问题是:这个硬币正面朝上的概率 p 是多少?

方法一:拍脑袋猜?

也许你想说,7/10 = 0.7,那 p=0.7 吧?

这其实就是最大似然估计给你的答案!

最大似然的数学想法

MLE 会问一个问题:

“如果硬币正面朝上的概率是某个值 p,那么看到 7 次正面、3 次反面的可能性有多大?”

这个可能性叫做“似然(Likelihood)”,我们可以写成:

L(p) = P(看到这个数据 | p) = C(10, 7) * p^7 * (1-p)^3

你会发现,这个式子在 p = 0.7 时取得最大值。也就是说:在所有可能的 p 值中,p = 0.7 最有可能生成我们观察到的结果。

图像理解:谁的“解释力”最强?

我们可以把似然函数画出来:横轴是不同的 p 值,纵轴是“看到这组数据”的可能性。

你会发现图像在 p = 0.7 处达到峰值。这一点,就是最大似然估计给出的答案。

见下图:

似然与概率傻傻分不清楚?
图示:似然函数在 p=0.7 处达到最大值

类比一下更好懂

想象你是侦探,现在案发现场有一组证据(数据)。你面前有几位嫌疑人(不同的参数)。你想问:

“哪位嫌疑人最可能制造了这些证据?”

最大似然估计 的作用就是:找出那个“最符合现场数据”的嫌疑人。

应用场景有哪些?

最大似然估计几乎在所有现代统计和机器学习模型中都被使用:

– 逻辑回归 / 线性回归

– 高斯混合模型

– 隐马尔可夫模型(HMM)

– 深度学习中的交叉熵损失

和贝叶斯方法的区别?

MLE 是只关心“哪个参数最有可能解释数据”,它不考虑先验知识。

而贝叶斯方法会说:

“我有点先验知识,再结合你给我的数据,一起算出‘后验’。”

方法比较:

– 最大似然 MLE:不考虑先验,输出最可能的参数点估计

– 贝叶斯估计:考虑先验,输出参数的概率分布(后验)

总结一句话

最大似然估计是一种强大而优雅的工具,它帮助我们从“已知的数据”中,反推最可能的“生成机制”。

正文完
 0
评论(没有评论)