基于用户的协同过滤 (UserCF)

约 1980 字大约 7 分钟

2025-06-05

基于用户的协同过滤（User-based Collaborative Filtering, UserCF）是协同过滤算法家族中的经典成员，其核心理念是 "告诉我你的朋友是谁，我就知道你是什么样的人"。通过寻找兴趣相似的用户群体，为目标用户推荐其邻居用户喜欢但他尚未接触的物品。

🎯 UserCF的核心思想

邻里效应

UserCF基于社会学中的"邻里效应"理论：相似的人往往有相似的行为模式和偏好。

算法直觉

想象你在寻找一部好电影，你可能会：

询问与你品味相似的朋友
参考他们最近观看并推荐的电影
从中选择你还没看过的电影

UserCF就是这个过程的数学化实现！

数学表达

给定用户-物品评分矩阵 $R_{m \times n}$ ，UserCF的目标是预测用户 $u$ 对物品 $i$ 的评分 $\hat{r}_{u,i}$ ：

\hat{r}_{u,i} = \bar{r_u} + \frac{\sum_{v \in N_k(u)} sim(u,v) \cdot (r_{v,i} - \bar{r_v})}{\sum_{v \in N_k(u)} |sim(u,v)|}

其中：

$R_{m \times n}$ 是 $m$ 个用户对 $n$ 个物品的评分矩阵
$\hat{r}_{u,i}$ 是预测的用户 $u$ 对物品 $i$ 的评分
$\bar{r_u}$ 是用户 $u$ 的平均评分
$\bar{r_v}$ 是用户 $v$ 的平均评分
$r_{v,i}$ 是用户 $v$ 对物品 $i$ 的实际评分
$N_k(u)$ 是与用户 $u$ 最相似的 $k$ 个用户集合
$sim(u,v)$ 是用户 $u$ 和 $v$ 之间的相似度
$|sim(u,v)|$ 表示相似度的绝对值（用于归一化）

📏 UserCF的核心算法

参考协同过滤总览

详细的相似度计算方法请参考协同过滤总览中的完整对比分析。

UserCF的关键在于准确计算用户间相似度，推荐选择：

显式评分场景：优先使用皮尔逊相关系数
隐式反馈场景：优先使用余弦相似度
评分分布不均：考虑调整余弦相似度

💻 UserCF算法实现

UserCF核心算法框架

import numpy as np
from scipy.spatial.distance import cosine
from scipy.stats import pearsonr

class UserBasedCF:
    def __init__(self, similarity_method='pearson', k_neighbors=20):
        self.similarity_method = similarity_method
        self.k_neighbors = k_neighbors
        self.user_similarity_matrix = None
        
    def fit(self, user_item_matrix):
        """训练UserCF模型"""
        self.user_item_matrix = user_item_matrix.copy()
        self.user_mean_ratings = np.array([
            np.mean(row[row > 0]) if np.sum(row > 0) > 0 else 0 
            for row in user_item_matrix
        ])
        
        # 计算用户相似度矩阵
        self.user_similarity_matrix = self._compute_user_similarity()
        
    def predict_rating(self, user_id, item_id):
        """预测用户对物品的评分"""
        user_similarities = self.user_similarity_matrix[user_id]
        item_raters = np.where(self.user_item_matrix[:, item_id] > 0)[0]
        
        if len(item_raters) == 0:
            return self.user_mean_ratings[user_id]
            
        # 选择最相似的k个邻居
        similarities = user_similarities[item_raters]
        neighbor_indices = np.argsort(similarities)[-self.k_neighbors:]
        
        # 计算加权平均预测
        neighbor_similarities = similarities[neighbor_indices]
        neighbor_ratings = self.user_item_matrix[item_raters[neighbor_indices], item_id]
        neighbor_means = self.user_mean_ratings[item_raters[neighbor_indices]]
        
        valid_mask = neighbor_similarities > 0
        if np.sum(valid_mask) == 0:
            return self.user_mean_ratings[user_id]
            
        numerator = np.sum(
            neighbor_similarities[valid_mask] * 
            (neighbor_ratings[valid_mask] - neighbor_means[valid_mask])
        )
        denominator = np.sum(np.abs(neighbor_similarities[valid_mask]))
        
        return self.user_mean_ratings[user_id] + numerator / denominator
        
    def recommend_items(self, user_id, n_recommendations=10):
        """为用户推荐物品"""
        user_ratings = self.user_item_matrix[user_id]
        candidate_items = np.where(user_ratings == 0)[0]
        
        predictions = [(item_id, self.predict_rating(user_id, item_id)) 
                      for item_id in candidate_items]
        predictions.sort(key=lambda x: x[1], reverse=True)
        
        return predictions[:n_recommendations]

🎪 UserCF的应用场景与特点

适用场景分析

应用领域	适用原因	注意事项
社交媒体	用户兴趣相似度高	注意用户隐私保护
在线教育	学习路径相似	考虑学习能力差异
新闻推荐	关注热点相似	需要时效性处理
音乐推荐	品味群体性明显	考虑情境因素

UserCF的技术特点

优势特点：

社会化推荐：反映群体智慧和社会化兴趣
新颖性好：能推荐用户意想不到的内容
解释性强：可以解释为"喜欢类似内容的用户还喜欢..."
无内容依赖：不需要物品内容特征

劣势挑战：

实时性差：用户相似度需要频繁重计算
稀疏性敏感：新用户和活跃度低的用户推荐效果差
可扩展性问题：用户数量增长时计算复杂度激增
流行偏见：倾向于推荐热门内容

🚀 UserCF的优化策略

性能优化方法

预计算优化：
- 离线计算用户相似度矩阵
- 预计算每个用户的TOP-K邻居
- 使用增量更新策略
近似计算：
- LSH (Locality Sensitive Hashing)：快速找到相似用户
- 随机采样：降低计算复杂度
- 聚类预处理：先聚类再在类内计算相似度
稀疏矩阵优化：
- 使用 scipy.sparse 存储稀疏矩阵
- 只存储相似度大于阈值的用户对
- 采用分块计算策略

算法改进方向

时间衰减：
$sim_{time}(u,v) = sim(u,v) \cdot \exp(-\lambda \cdot \Delta t)$
其中：
- $sim(u,v)$ 是基础相似度
- $\lambda$ 是时间衰减系数（控制衰减强度）
- $\Delta t$ 是时间间隔（当前时间与交互时间的差值）
置信度加权：根据共同评分物品数量调整相似度权重
多级邻居：不仅考虑直接邻居，还考虑邻居的邻居