概率统计:从随机到规律
约 921 字大约 3 分钟
2025-06-06
💡 古语云:知己知彼,百战不殆。在搜广推的世界里,概率统计就是我们洞察用户行为、预测未来趋势的神兵利器!
🎯 为什么要学概率统计?
在搜广推领域,我们每时每刻都在与不确定性打交道:
现实场景
- 🔍 搜索场景:用户会点击哪个搜索结果?
- 🎯 推荐场景:用户对这个商品的兴趣有多大?
- 💰 广告场景:这个广告的点击率会是多少?
所有这些问题的答案都不是绝对的,而是概率性的。掌握了概率统计,就掌握了量化和处理不确定性的能力!
📚 核心概念速成
1. 概率基础
概率 是衡量事件发生可能性的数值,取值范围为 [0,1]。
注
基本性质:
- P(A)≥0(非负性)
- P(S)=1,其中 S 是样本空间(归一性)
- 对于互斥事件:P(A∪B)=P(A)+P(B)(可加性)
条件概率
在已知事件 B 发生的条件下,事件 A 发生的概率:
P(A∣B)=P(B)P(A∩B)
重要应用
条件概率是推荐系统的核心!例如:
- P(用户点击∣商品特征)
- P(用户购买∣用户历史行为)
贝叶斯定理
P(A∣B)=P(B)P(B∣A)⋅P(A)
这是机器学习中的基石定理!
2. 随机变量与分布
离散分布
分布名称 | 概率质量函数 | 应用场景 |
---|---|---|
伯努利分布 | P(X=k)=pk(1−p)1−k | 点击/不点击 |
二项分布 | P(X=k)=(kn)pk(1−p)n−k | n次独立点击 |
泊松分布 | P(X=k)=k!λke−λ | 访问量统计 |
连续分布
正态分布(最重要!):
f(x)=2πσ21e−2σ2(x−μ)2
为什么正态分布如此重要?
- 中心极限定理:大量独立随机变量的和趋于正态分布
- 最大熵原理:在已知均值和方差的情况下,正态分布具有最大熵
- 计算便利:线性变换后仍为正态分布
3. 重要定理
大数定律
样本均值会收敛到总体均值:
n→∞limn1i=1∑nXi=μ
中心极限定理
无论原分布如何,样本均值的分布都趋于正态:
σ/nXˉ−μdN(0,1)
🛠️ 在搜广推中的应用
CTR 预估
点击率预估本质上是一个概率估计问题:
P(click=1∣features)=σ(wTx+b)
其中 σ 是 sigmoid 函数,将线性输出映射到概率空间 [0,1]。
A/B 测试
假设检验的经典应用:
A/B测试步骤
建立假设:
- H0: pA=pB(无差异)
- H1: pA=pB(有差异)
选择检验统计量:
Z=p^(1−p^)(nA1+nB1)pA^−pB^
判断显著性:比较 ∣Z∣ 与临界值 Zα/2
贝叶斯推荐
利用贝叶斯定理更新用户偏好:
P(喜欢∣新行为)=P(新行为)P(新行为∣喜欢)⋅P(喜欢)
📖 延伸阅读
推荐书籍
- 《概率论与数理统计》 - 陈希孺:经典教材,基础扎实
- 《贝叶斯方法》 - 茆诗松:贝叶斯统计的深入讲解
- 《统计学习方法》 - 李航:机器学习中的统计方法
📝 思考题:为什么说"概率统计是人工智能的数学基础"?试从贝叶斯角度解释机器学习的本质。