优化方法：让模型"更优"的秘密武器

约 1000 字大约 3 分钟

2025-06-06

💡 高斯说：没有优化，机器学习只是"调参游戏"。在搜广推领域，优化方法是模型训练、排序、广告竞价的灵魂。

🎯 为什么要学优化？

搜索排序模型如何找到最优参数？
推荐系统如何高效训练大规模Embedding？
广告竞价如何在预算约束下最大化ROI？

所有这些问题的本质，都是"在约束下寻找最优解"。优化方法就是解决这些问题的"内功心法"。

📚 核心概念速成

1. 优化问题的基本形式

目标函数： $f(\mathbf{x})$ ，希望最小化或最大化
约束条件： $g_i(\mathbf{x}) \leq 0, h_j(\mathbf{x}) = 0$
最优解：使目标函数取得最优值的 $\mathbf{x}^*$

2. 常见优化算法

梯度下降法（Gradient Descent）

原理：每次沿目标函数的负梯度方向更新参数
公式： $\mathbf{x}_{t+1} = \mathbf{x}_t - \eta \nabla f(\mathbf{x}_t)$ 其中 $\eta$ 为学习率
应用：线性回归、逻辑回归、神经网络训练

随机梯度下降（SGD）

原理：每次只用一个样本或小批量样本估算梯度，提升效率
优点：适合大规模数据，易于并行
缺点：收敛波动大，需要调参

动量法（Momentum）

原理：引入"惯性"，加速收敛，减少震荡
公式： $\mathbf{v}_{t+1} = \gamma \mathbf{v}_t + \eta \nabla f(\mathbf{x}_t) \\ \mathbf{x}_{t+1} = \mathbf{x}_t - \mathbf{v}_{t+1}$ 其中 $\gamma$ 为动量系数

Adam优化器

原理：自适应调整每个参数的学习率，结合动量和RMSProp思想
应用：深度学习模型训练的主流选择

牛顿法与拟牛顿法

原理：利用二阶导数（Hessian矩阵）加速收敛
优点：收敛速度快
缺点：计算和存储成本高，适合小规模问题

3. 正则化与泛化

L1正则化： $\lambda \|\mathbf{w}\|_1$ ，促使参数稀疏，特征选择
L2正则化： $\lambda \|\mathbf{w}\|_2^2$ ，防止过拟合，参数收缩
早停法：在验证集性能不再提升时提前终止训练，防止过拟合

4. 凸优化与非凸优化

凸优化：目标函数和约束都是凸的，只有一个全局最优解
非凸优化：可能有多个局部最优，深度学习/推荐系统常见
常用技巧：多次随机初始化、批量归一化、学习率衰减

🛠️ 在搜广推中的应用

搜索排序模型训练

RankNet、LambdaMART等排序模型本质上都是优化损失函数
损失函数设计直接影响排序效果

广告竞价与预算分配

预算约束下的最大化ROI问题
常用方法：线性规划、动态规划、贪心算法

超参数调优

学习率、正则化系数、批量大小等都需通过优化实验确定
常用方法：网格搜索、随机搜索、贝叶斯优化

📖 延伸阅读

推荐书籍

《最优化方法》 - 丁同仁：经典优化教材，理论与算法并重
《Convex Optimization》 - Boyd & Vandenberghe：凸优化圣经
《深度学习》 - Ian Goodfellow：深度学习中的优化方法

📝 思考题：为什么深度学习/推荐系统常常陷入局部最优？你如何设计优化流程来提升大规模模型的训练效率？

🎉 章节小结

优化方法是让模型"更优"的秘密武器。从梯度下降到牛顿法，从正则化到超参数调优，优化思想贯穿了搜广推系统的每一个环节。掌握优化，就是掌握了让算法持续进化的钥匙。

优化就像修炼内功——看不见却决定了你能走多远。

欢迎来到搜广推宇宙

核心概念连连看

评价驱动开发

兵器谱与内功心法

经典召回模型

推荐算法的门派

深度学习文艺复兴

推荐系统进阶话题

LLM迈向更懂你的个性化

优化方法：让模型"更优"的秘密武器

🎯 为什么要学优化？

📚 核心概念速成

1. 优化问题的基本形式

2. 常见优化算法

梯度下降法（Gradient Descent）

随机梯度下降（SGD）

动量法（Momentum）

Adam优化器

牛顿法与拟牛顿法

3. 正则化与泛化

4. 凸优化与非凸优化

🛠️ 在搜广推中的应用

搜索排序模型训练

推荐系统Embedding训练

广告竞价与预算分配

超参数调优

📖 延伸阅读