V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
dnjat
V2EX  ›  程序员

文本内容审核,短文字收费.

  •  
  •   dnjat · 2023-10-26 16:47:19 +08:00 · 1908 次点击
    这是一个创建于 437 天前的主题,其中的信息可能已经有所发展或是发生改变。

    文字三方审核,阿里,腾讯都是按次数收费,阿里一次最多 600 字,腾讯一次最多 1000 字.

    在短文字场景中,大家有合并审核的习惯吗. 一次审核个 10 个字符,有点浪费.

    14 条回复    2023-10-27 15:51:55 +08:00
    coderxy
        1
    coderxy  
       2023-10-26 17:04:16 +08:00
    文本审核很便宜,做合并的意义不是很大
    hongfs
        2
    hongfs  
       2023-10-26 17:14:42 +08:00
    不如做一下缓存,频繁的内容也就那些。
    dnjat
        3
    dnjat  
    OP
       2023-10-26 18:47:37 +08:00 via Android
    @coderxy 是的,主要是成本,不然单条好处理多了 ,合并后还得拆结果,对不同来源的内容做后续动作,动作还不统一。就看成本与麻烦度的比例怎么样
    dnjat
        4
    dnjat  
    OP
       2023-10-26 18:50:00 +08:00 via Android
    @hongfs 这个不好缓存吧,改个标点什么的就不一样了。缓存命中关键字也不行,担心本地缓存的关键字不够。
    hongfs
        5
    hongfs  
       2023-10-26 20:54:46 +08:00
    @dnjat #4 如果长度小于 N ,那看看缓存有没有。肯定没办法全量缓存的。
    luodichen
        6
    luodichen  
       2023-10-26 21:02:39 +08:00
    核酸算法吧(狗头
    rekulas
        7
    rekulas  
       2023-10-26 21:18:07 +08:00
    布隆过滤思想,其实没必要全部付费审核,先用开源模型审核一遍,只有判断有风险或可信度太低的才丢给付费接口,至少可以节约 80%
    dnjat
        8
    dnjat  
    OP
       2023-10-26 21:30:18 +08:00
    @hongfs 有做文件 hash 匹配,但文字的机率应该不合适吧.同样一句话,重新打一遍都有可能会有区别,所以当时就放弃这个缓存方案了. 老兄你的方案是什么样子的.
    dnjat
        9
    dnjat  
    OP
       2023-10-26 21:30:56 +08:00
    @luodichen 应该不要吧,审核后有返回命中词,本地再过滤一下就好了.
    dnjat
        10
    dnjat  
    OP
       2023-10-26 21:35:37 +08:00
    @rekulas 机器学习前期投入太大了,不熟悉的话,学习,调优也是个成本. 不怕他误审,怕他识别不出风险,如果不是很相信自己的学习模型,无风险的,你还是得交三方审核再审一次.
    ccagml
        11
    ccagml  
       2023-10-27 08:32:11 +08:00 via Android
    这也能缓存?这个名字今天可以,明天不行,也没人来通知你这个名字不行了,怎么删掉缓存?
    ccagml
        12
    ccagml  
       2023-10-27 08:37:43 +08:00 via Android
    有合并审核,如果不通过,就二分看哪些不通过
    chanChristin
        13
    chanChristin  
       2023-10-27 10:58:56 +08:00
    看一下数美的? https://www.ishumei.com/
    whoami9426
        14
    whoami9426  
       2023-10-27 15:51:55 +08:00
    交个 gpt 审核,function call 规定好返回的内容,敏感度,敏感词之类的
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2747 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 11:04 · PVG 19:04 · LAX 03:04 · JFK 06:04
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.