V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
kaiki
V2EX  ›  问与答

有没有办法查找相似数据来判断用户是否在发布重复的内容

  •  
  •   kaiki · 2021-01-24 05:48:36 +08:00 · 1439 次点击
    这是一个创建于 1428 天前的主题,其中的信息可能已经有所发展或是发生改变。
    为了防止无意义的灌水做反垃圾,但是现在灌垃圾的手段升级了,他会爬取正常的用户发言,然后灌进来。
    目的只是为了给我的服务器增压好让我每天能多支付一些服务器费用。

    特征大概是连续发布、复制已存在的内容、无法访问则自动换代理 IP 发布。

    不从账号入手,因为低门槛,想从用户行为来判断是否为灌垃圾。

    数据库是 mysql 。
    6 条回复    2021-01-24 17:55:34 +08:00
    kaiki
        1
    kaiki  
    OP
       2021-01-24 06:00:36 +08:00
    对了,我也想在用户的权重上做一些设定,比如有明显灌水行为的账号权重会急速下滑,对于正常账号在偶然触发检测也可以正常放行,有思路吗?
    jangit
        2
    jangit  
       2021-01-24 08:14:31 +08:00 via iPhone
    正常来说这些问题应该用验证码解决吧
    renmu123
        3
    renmu123  
       2021-01-24 10:17:26 +08:00 via Android
    设置账号发帖间隔,人工审核加举报,发现一次警告,二次封号封 IP 。
    想从行为入手,你首先得定义什么是灌水,如果是论坛还有不同板块那就更麻烦了。
    一般好像都是论坛各版主自己手动处理+封号
    oott123
        4
    oott123  
       2021-01-24 10:34:40 +08:00 via Android
    要解决楼主内容里的描述问题,前面几位的回复方法比较不错

    要解决楼主标题里提出的问题,可以用 simhash
    s2019
        5
    s2019  
       2021-01-24 16:07:04 +08:00 via iPhone
    考虑用文本相似度做比较,可以用机器学习的方式来实现
    kaiki
        6
    kaiki  
    OP
       2021-01-24 17:55:34 +08:00
    @renmu123 这个检测并不是严格的,对于连续发布相同内容的灌垃圾行为才需要处理。
    @jangit 的确有考虑在发布量发生明显变多的情况下启动验证码,但是对想搞破坏的人来说改变不了什么,这种人是单纯的太闲。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2773 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 11:40 · PVG 19:40 · LAX 03:40 · JFK 06:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.