import re
import jieba

class SimplePreprocessor:
    def __init__(self):
        self.stop_words = {"的", "了", "和", "是"}
        self.alias_map = {"ip14pm": "iphone 14 pro max", "凤梨": "菠萝"}

    def clean(self, text: str) -> str:
        # 去除 HTML 和特殊符号，统一大小写
        text = re.sub(r"<[^>]+>", "", text)
        text = text.lower().strip()
        return text

    def normalize(self, text: str) -> str:
        # 别名替换
        for alias, standard in self.alias_map.items():
            text = text.replace(alias, standard)
        return text

    def process(self, query: str) -> list:
        cleaned = self.clean(query)
        normalized = self.normalize(cleaned)
        # 分词并去停用词
        tokens = [w for w in jieba.lcut(normalized) if w not in self.stop_words]
        return tokens

# 使用示例
pre = SimplePreprocessor()
print(pre.process("<b>买 ip14pm 的</b>")) # ['买', 'iphone 14 pro max']

🏭 生产实践与评估指标

在工业级搜索系统中，预处理的运维至关重要：

指标类型	核心指标	说明
质量指标	纠错准确率 (Acc)	纠错结果中正确的比例
	误纠率 (False Positive)	原本正确的词被改错的比例 (极其重要)
性能指标	平均耗时 (Latency)	通常需控制在 5ms - 20ms 以内
	缓存命中率	热门查询预处理结果的复用率
业务指标	NDCG / CTR 提升	预处理对最终搜索排序效果的贡献

🛠️ 调优经验谈

白名单策略：对于专有名词、热门新词，通过白名单防止纠错“误伤”。
优雅降级：如果纠错模块置信度不高，可以仅作为“搜索建议”提示用户，而非强制改写。
词典版本化：词典的更新必须经过离线回测，防止“修好一个，改坏一堆”。

🤔 思考题

如何平衡纠错的准确率和误纠率？在什么情况下你宁可不纠错？
对于 "我想买 50 元左右的苹果" 这个查询，预处理该如何处理 "苹果" 一词？
面对层出不穷的网络梗（如 "yyds"），预处理系统该如何保持时效性？

🎉 章节小结

预处理是搜索系统的“第一道过滤器”。通过清洗、标准化、分词、纠错与归一化，我们能够将“脏”输入转化为“净”信号。记住：垃圾进，垃圾出 (Garbage In, Garbage Out)。把预处理做扎实，能让后续的召回、排序系统事半功倍。

欢迎来到搜广推宇宙

核心概念连连看

评价驱动开发

兵器谱与内功心法

经典召回模型

学习排序LTR

查询理解与扩展

现代搜索技术一览

推荐算法的门派

深度学习文艺复兴

推荐系统进阶话题

核心概念与生态

实用Tricks经验宝库

LLM迈向更懂你的个性化

查询预处理：打磨搜索的"第一道关卡"

🧹 查询预处理：打通经脉的“基础功”

🎯 为什么需要预处理？

🔁 关键流程架构

🧩 核心模块详解

1) 字符清洗与规范化 (Cleaning)

2) 分词与停用词 (Tokenization)

3) 拼写纠错 (Spell Correction)

4) 单位与别名归一化 (Normalization)

🧱 核心逻辑示例 (Python)

🏭 生产实践与评估指标

🛠️ 调优经验谈

🤔 思考题