V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
KIDJourney
V2EX  ›  Python

有什么不良内容检测的方案吗?

  •  
  •   KIDJourney ·
    KIDJourney · 2016-01-25 18:23:15 +08:00 · 3657 次点击
    这是一个创建于 3254 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近在做一个百度贴吧的自动管理机。
    现在用的是关键词判别,但是这样误杀率太高了。。。
    有没有什么现有的不良内容(涉黄,粗口,不友善)检测方案吗?

    顺便丢个地址,求 star 什么的。。。
    TiebaManager

    33 条回复    2016-01-27 10:46:32 +08:00
    KIDJourney
        1
    KIDJourney  
    OP
       2016-01-25 18:24:40 +08:00
    这个现在已经可以用啦,只不过根据关键词来弄得话误杀率比较高。。。
    KIDJourney
        3
    KIDJourney  
    OP
       2016-01-25 18:56:26 +08:00
    @aheadlead 多谢。
    SoHMarionette
        4
    SoHMarionette  
       2016-01-25 19:45:53 +08:00
    实际来说都会有一定的误判吧
    例如发广告的加空格,连句触发
    毕竟中华文化博大精深
    zhicheng
        5
    zhicheng  
       2016-01-25 19:48:59 +08:00 via Android
    朴素贝叶斯
    ethego
        6
    ethego  
       2016-01-25 19:50:00 +08:00
    @SoHMarionette 去空格再进行分词,现在中文分词的正确率已经非常高了
    SoHMarionette
        7
    SoHMarionette  
       2016-01-25 21:50:27 +08:00
    @ethego 不仅仅是空格,还有加符号的,加一样的字的什么的层出不穷,邮箱已经见惯不惯了
    ethego
        8
    ethego  
       2016-01-25 21:54:45 +08:00
    @SoHMarionette 一行正则就能剔除所有符号
    KIDJourney
        9
    KIDJourney  
    OP
       2016-01-25 21:56:58 +08:00
    @zhicheng 吧务后台现在有问题,不然我也用训练集了。
    timepast
        10
    timepast  
       2016-01-25 22:00:28 +08:00
    同求一份脏字库
    lrz0lrz
        11
    lrz0lrz  
       2016-01-25 22:35:32 +08:00
    @ethego 同噩性噩交噩友,缓錒解錒寂錒寞 wWw 点 V2EX 点 cOm
    ethego
        12
    ethego  
       2016-01-25 22:37:20 +08:00
    @lrz0lrz 你这个只能人工审核,没别的办法
    ethego
        13
    ethego  
       2016-01-25 22:40:48 +08:00
    @lrz0lrz 可以做到把这种异常的语句剔出来人工审
    nlzy
        14
    nlzy  
       2016-01-25 22:42:14 +08:00 via Android
    迅哥好

    @lrz0lrz 这个不应该是 wWw 点 BilIbiLi 点 c0M 么
    aprikyblue
        15
    aprikyblue  
       2016-01-25 22:50:24 +08:00
    只有我想到鉴黄师吗?:doge:
    KIDJourney
        16
    KIDJourney  
    OP
       2016-01-25 23:00:38 +08:00
    @nlzy 泥壕
    gzlock
        17
    gzlock  
       2016-01-26 06:51:23 +08:00 via Android
    @lrz0lrz
    正则可破,就是开销大
    同.{0,3}性.{0,3}交.{0,3}友
    但如果用同音字就无解了:铜星焦油 无解

    @nlzy 网址有点麻烦,不过还是有规律
    例如你举例的
    .{1,5}[.。点點].{2,10}[.。点點].{2,5}

    ps :以上正则用于已去除空格的文本
    ryd994
        18
    ryd994  
       2016-01-26 07:41:35 +08:00 via Android
    贝叶斯大法好
    但首先你得有足够的样本库……
    nlzy
        19
    nlzy  
       2016-01-26 10:08:22 +08:00 via Android
    @gzlock 误杀率好高,这个正则连 2016.01.26 或 ...... 都能匹配到
    KIDJourney
        20
    KIDJourney  
    OP
       2016-01-26 10:36:08 +08:00
    @ryd994
    吧务后台挂啦。。。。不然我就用了。。。。。
    而且还要处理图片,这个比较麻烦。。。
    em70
        21
    em70  
       2016-01-26 11:40:28 +08:00 via iPhone
    阿里云的 OSS 有图片鉴黄功能了
    KIDJourney
        22
    KIDJourney  
    OP
       2016-01-26 11:43:07 +08:00
    @em70 看到啦,多谢。
    wd0g
        23
    wd0g  
       2016-01-26 11:50:55 +08:00
    腾讯好像有个语义识别
    KIDJourney
        24
    KIDJourney  
    OP
       2016-01-26 14:48:08 +08:00
    @wd0g 看了,很棒,多谢~
    但是 API 太贵了。。。。
    lavasing
        25
    lavasing  
       2016-01-26 15:55:00 +08:00 via Android
    @nlzy
    @lrz0lrz
    应该是 github
    :doge:
    ye10010
        26
    ye10010  
       2016-01-26 17:49:08 +08:00
    @ryd994 有没有贝叶斯 python 实现方面的资料参考下?俺有样本
    KIDJourney
        27
    KIDJourney  
    OP
       2016-01-26 18:23:58 +08:00
    @ye10010 scikit-learn
    KIDJourney
        28
    KIDJourney  
    OP
       2016-01-26 18:24:26 +08:00
    @ye10010 为啥不问我← ←
    wd0g
        29
    wd0g  
       2016-01-26 18:50:54 +08:00
    @KIDJourney 自己抓包腾讯语义分析 demo 站的 API ,我以前试过可以的!
    ryd994
        30
    ryd994  
       2016-01-27 00:10:35 +08:00 via Android
    @ye10010 我没做过,不了解
    ye10010
        31
    ye10010  
       2016-01-27 08:47:28 +08:00
    @KIDJourney 多谢大神^-^,star 啦.
    是 steam 吧 KIDJourney 吗?好活跃,可惜俺不玩游戏
    KIDJourney
        32
    KIDJourney  
    OP
       2016-01-27 10:46:17 +08:00
    @wd0g 我一开始也是这样想的 23333
    我每分钟要判 20 次,我多开几个 IP 吧。
    KIDJourney
        33
    KIDJourney  
    OP
       2016-01-27 10:46:32 +08:00
    @ye10010 是哒,我也不怎么玩了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   6131 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 02:26 · PVG 10:26 · LAX 18:26 · JFK 21:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.