v 友们对评论敏感词过滤有什么好的解决方案吗

过滤

敏感

主题

23 条回复 • 2017-08-04 20:11:26 +08:00

1

holyghost

2017-07-28 15:03:11 +08:00

DAT?

2

holyghost

2017-07-28 15:03:41 +08:00

@holyghost double array trie

3

Famio

2017-07-28 15:05:15 +08:00

感觉 GFW 可以放出一些 api 来…………无责任猜想

4

xshwy

2017-07-28 15:05:54 +08:00

@Famio 哈哈哈哈那就可以炸了

5

sparrww

OP

2017-07-28 15:08:25 +08:00

有什么好的库也可以推荐一下~~~

6

murmur

2017-07-28 15:26:31 +08:00

有关部门没有告诉你们该过滤哪些么

7

Mutoo

2017-07-28 15:27:33 +08:00

之前搞游戏开发的时候，有专门的词库，不知道同事哪里搞来的。

8

Light3

2017-07-28 15:30:56 +08:00

用付费的第三方把..自己搞那几个敏感词太累..

9

minuux

2017-07-28 15:34:54 +08:00

可以试试 https://github.com/nowgoo/dict

10

SourceMan

2017-07-28 15:38:45 +08:00

http://www.jianshu.com/p/ed3fe9f5badd 已经用上了，性能还好
主要是维护关键字而已，目前已经生成好了小几万的 keyword tree

11

XiaoFaye

2017-07-28 15:42:17 +08:00

2

先什么都不要过滤，很快应该就有人联系你要过滤什么了，如果很久都没人联系你？说明你的网站没人用，更不用担心了。

12

stabc

2017-07-28 15:46:54 +08:00

这东西官方是不可能给的，因为我们互联网是开放的。只有通过收集多家的库来实现。

13

holajamc

2017-07-28 15:52:27 +08:00

http://www.wusiwei.com/tag/%E7%99%BE%E5%BA%A6%E6%95%8F%E6%84%9F%E8%AF%8D

14

iyuli

2017-07-28 16:23:06 +08:00 via Android

像阿凡达那样创造全新的语言，就无法过滤了

15

ivechan

2017-07-28 16:25:02 +08:00

感觉都是词库式的把..

16

FanWall

2017-07-28 16:51:00 +08:00

我猜某些部门会主动给你的...

反编译某些程序的时候会看到一大堆...不忍直视= =然后保存下来疯狂搜索→ →

17

TimePPT

2017-07-28 21:35:59 +08:00 via iPhone

三方服务吧，安全省心，自己折腾维护成本太高。
比如网易易盾云安全解决方案还不错，老牌的也有一些，搜搜不少。

不过说实在的，现在市面上的商用解决方案对火星文这种特型垃圾评论效果都一般，其他还行。

18

TimePPT

2017-07-28 21:54:44 +08:00

1

说到这里多说两句吧。因为工作关系做过一段时间反垃圾的产品工作。

最先必须认识到一个问题：黄反过滤其实是一门技术加运营持续投入的工作。

首先看量级：
如果内容量级不大，怎么都能搞。网上找或者找关系找到一个比较新的几万几十万敏感词的词表 loading 到内存里，起一个 server 直接判断过滤简单粗暴，但有效——当然，错报和漏报率肯定也不会低。
但这种方法一旦遇到变种或者量级一大就不管用了，错报、漏报率会蹭蹭往上涨，如果自己人工加规则，跑到最后自己都会疯了。
如果量级大到一定程度，就得考虑长久的黄反策略，什么贝叶斯过滤、回归聚类、机器学习都得往上怼。

再次看业务需求：
业务方涉及到的仅仅是评论内容，还是说有大段文章内容。对黄反实时性要求有多高？错报率和漏报率容忍度有多高？这些直接影响着产品技术策略。
还有就是有没有富媒体内容，比如评论带图带视频，那就不单单是过滤关键词的问题了，还得有图像识别黄反。
另外，业务层面要不要求留有余地，比如 KPI 向的允许一定擦边球存在，所谓水至清则无鱼……运营人员很可能不希望你赶尽杀绝呢 233

最后讲策略：
UGC 内容在大面上策略无非是先审后发还是先发后审，这两种的产品策略是不一样的，而且需要按照上峰要求调整。所以产品设计上要留有余地。
另外，因为任何机器算法都做不到极高的准确率和覆盖率，那么错报、漏报肯定是有的。
目前大量级的产品在黄反层面绝大多数是靠机器初筛+人工二次筛选，特别是图片视频黄反，单靠机器比文字黄反难度大很多。
还有就是在产品策略上增加举报按钮，让用户协助完成黄反的前端自审核。

以上种种，就是一些经验之谈。
正因为黄反工作其实是比较严肃复杂的工作，这也是为啥我建议一般企业直接买稳定的三方黄反服务的原因，持续投入成本其实很高，且这部分工作有时候在公司级别是不太被重视的，出力不讨好，没问题时候没功劳，有问题就找你麻烦了（比如杀多了 KPI 指标降了啊，漏报导致踩红线了啊……）

19

TimePPT

2017-07-28 22:01:19 +08:00

还有补充一下：
黄反这种一般都跟审查相关，有一些敏感词的第一手资料其实是跟 ZF 走的比较近的公司或者大体量公司才有的（比如 BAT，家门户、搜索公司），所以词表的维护上一般公司其实是迟滞的、后验的，很多踩线问题后知后觉结果被 WJ 抓到就得被去叫喝茶，严重的被下线服务被整顿甚至关停都有可能。
我朝黄反的红线基本上是涉政 > 涉暴 > 涉黄，这点必须清楚。

另外，黄反在运营层面的重要作用是为了避免垃圾信息干扰正常运营，但运营其实对这块的要求大多很模糊，原因很多，比方说上面我提到的 KPI 导向……所以这块也得留出余地来，否则惹的一身骚，出力不讨好就难受了。

20

est

2017-07-28 22:11:34 +08:00

反黄的 KPI 制定部门是 zf 关系部。

什么？公司没有 zf 关系部？那肯定某天就被偷税漏税传播色情了。

21

sinxccc

2017-07-28 22:23:09 +08:00

看了各位的回复感觉弄个 startup 专门做这个的 API 应该也是个不错的生意ˊ_>ˋ

22

TimePPT

2017-07-28 22:35:02 +08:00

1

@sinxccc 其实不然，一个是你能收集到的垃圾信息样本量不一定多，模型训练效果就会受影响，另外一方面，大多公司购买这类三方黄反服务最大的顾虑是自身内容会全部暴露给三方，交互内容的量级是可以反推出很多结论的，比如日活量级、内容偏好等，所以很多公司都会有顾虑想这块自己做，但自己又不一定能做好，这就是死循环了……

23

yatesun

2017-08-04 20:11:26 +08:00 via Android

只要网站规模大，会给你提供的('・ω・')