求推荐中小型项目敏感词检测 Python 案例

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 1028 天前的主题，其中的信息可能已经有所发展或是发生改变。

目前使用 re 去做，样本越来越大，效率逐渐降低很多

Python

中小型

样本

案例

27 条回复 • 2022-05-11 12:16:16 +08:00

Mohanson

2022-05-10 17:25:14 +08:00

一般用字典树

ila

2022-05-10 17:37:58 +08:00 via Android

如果是你负责，建议用 bat 的 API 。

shuax

2022-05-10 17:55:35 +08:00

Trie Tree

demonps

2022-05-10 18:06:06 +08:00

re + trie tree 因为要记录命中的敏感词，需要分组捕获。目前一个场景 build 出来的 pattern 大概有 300w 长，匹配一次感觉快要 1s ，用 bat 的 api 加上请求时间都比本地快好几倍。。。

demonps

2022-05-10 18:08:42 +08:00

@Mohanson 是的，我是正则字典树去搞的，但是词库太大，有点担忧

demonps

2022-05-10 18:09:43 +08:00

@ila 也有在用，本地做第一层拦截

fengjianxinghun

2022-05-10 18:18:33 +08:00

hyperscan

documentzhangx66

2022-05-10 19:30:14 +08:00

1.目前主流的做法是，先分词，然后再去匹配敏感词列表。优点是性能高，速度快。缺点是匹配覆盖率低。

2.但如果要保证匹配覆盖率，运算量必然超大，因为不能分词后再去匹配，而是反过来要用词库来匹配现有内容。可优化的就只有在匹配过程中对字典树进行剪枝了。

ipwx

2022-05-10 19:50:57 +08:00

https://zhuanlan.zhihu.com/p/146369212

AC 自动机？

LeegoYih

2022-05-10 19:52:31 +08:00

我之前写了个 AC 自动机用来匹配和过滤关键词，现在生产环境大概有 1 亿个关键词，性能非常好。
不过只有 Go 和 Java 版本，看看能不能帮到你，代码实现很简单，照着直接“翻译”成 Python 应该没啥问题。

Go： https://github.com/yihleego/trie
Java： https://github.com/yihleego/trie4j

demonps

2022-05-10 20:06:40 +08:00

@LeegoYih 感谢感谢，我去看看