V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
0001110001011
V2EX  ›  程序员

有一个几千行各国语言的脏字列表,就是包括色情,政治一类的. 请教大佬,如何简单的对其进行分类筛选

  •  
  •   0001110001011 · 296 天前 · 2465 次点击
  •   查看本主题需要登录
    这是一个创建于 296 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1. 按照各个语言进行分类.
    2. 只筛单个语言下的色情 的字

    原来我想用 chatgpt. 但是,里面全是被屏蔽的字, 根据没法用

    Google gemini 也是一样的

    有没有, 那种没有屏蔽色情的在线模型, 让我简单筛选下.

    真的是懒得写代码了.

    或者有其他的 奇巧淫技 可以实现效果的 ?

    求大佬们指点指点

    winterbells
        1
    winterbells  
       296 天前 via Android
    换个 prompt 试试?
    dji38838c
        2
    dji38838c  
       296 天前
    根本不需要什么技巧,只需要学一下怎么写 prompt 。要单选色情的,也是 prompt 改一下就好

    Can you determine the specific language of this text without considering its tone or formality? The text is delimited by triple backticks. Please return only the name of the language in one word.
    ```
    脏话写这里
    ```
    paopjian
        3
    paopjian  
       296 天前
    这个在 github 没有公开的列表吗?或者你本地跑一个 llm 看看能不能直接筛一下,本地的应该不存在涩情过滤
    yooooho
        4
    yooooho  
       296 天前   ❤️ 7
    方校长,是你嘛?
    kkocdko
        5
    kkocdko  
       296 天前
    用 openai 的那些 embedding 模型,是专门拿来做情感分析之类的小任务的,而且相比完整的 gpt 便宜非常多。
    Cloud200
        6
    Cloud200  
       295 天前 via Android
    1. 语言判定分类器,fasttext 什么的
    2. openai 有 censor 模型,可以试试
    GeekGao
        7
    GeekGao  
       295 天前
    如果非要用大语言模型的话,用 mixtral-8x7b-instruct 就可以胜任。
    0001110001011
        8
    0001110001011  
    OP
       288 天前
    还没实验成功, 等实验成功来回复
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3127 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 13:54 · PVG 21:54 · LAX 05:54 · JFK 08:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.