V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
bobuick
V2EX  ›  程序员

用第三方数据和一个开源文本分类库撸了一个短语垃圾分类器

  •  1
     
  •   bobuick · 2016-07-06 11:39:45 +08:00 · 3843 次点击
    这是一个创建于 3060 天前的主题,其中的信息可能已经有所发展或是发生改变。

    临时开的测试地址

    git 里只有 load handler 的部分, 训练数据太大了,没放上去。随便玩玩, 大神轻喷, 准确率还没做仔细评测,应该对训练数据做个比例分离,拿一部分做测试数据, 算法库是 LibLinear ,在它基础上还有一层 python 封装库 tgrocery

    我是 git 地址 求 star =。=

    4 条回复    2016-08-02 11:13:34 +08:00
    qqmishi
        1
    qqmishi  
       2016-07-06 11:45:51 +08:00
    http://115.231.96.136:8810/v1/classify?msg=冃狌交伖,释鲂压劦、棑解漃瘼◆真人视频.网址: wWw.GitHub 。 Com

    {"predict": {"ad": -0.066918752863160541, "spam": -0.10691206619180635, "porn": -0.13125600199396634, "nonsense": -0.17521140226677201, "politic": -0.15298335802307686, "ham": 0.6332815813380146}, "res": "ham"}

    23333
    bobuick
        2
    bobuick  
    OP
       2016-07-06 11:57:37 +08:00
    =。=牛,数据短缺, “冃狌交伖,释鲂压劦、棑解漃瘼”
    bobuick
        3
    bobuick  
    OP
       2016-07-06 12:07:22 +08:00
    看来火星文和用偏僻词谐音的数据缺的比较厉害, 这么一比较我那些训练数据原来那么和谐呢
    vincentfung13
        4
    vincentfung13  
       2016-08-02 11:13:34 +08:00
    题主是在哪拿到的训练数据啊,能分享下么,哈哈哈
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1037 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 19:39 · PVG 03:39 · LAX 11:39 · JFK 14:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.