V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
beryl
V2EX  ›  问与答

文本分类或者打标签工具推荐

  •  
  •   beryl · 240 天前 · 1269 次点击
    这是一个创建于 240 天前的主题,其中的信息可能已经有所发展或是发生改变。
    例子:
    1. 公牛集团 2023 年净利润 38.7 亿元,同比增长 21.4%
    期望输出:公牛集团,2023 年财报

    2. 英伟达收购两家 AI 创企,要让 AI 芯片变得更便宜
    期望输出:英伟达,收购/投资

    3. Nvidia CEO 黄仁勋亲自向 OpenAI 交付第一台 DGX H200
    期望输出:黄仁勋、英伟达、OpenAI 、DGX H200

    需求,通过标题进行分类、打标签、实体提取

    试用了:chatGPT 等各种大模型平台、传统的实体提取,文章分类,打标签的 NLP API 都没有达到效果

    请教下,有没有类似的思路或者能力来实现呢,尽量性价比高的
    18 条回复    2024-04-26 17:05:56 +08:00
    vivisidea
        1
    vivisidea  
       240 天前
    这种 gpt 没道理处理不了吧,你 prompt 怎么写的?
    beryl
        2
    beryl  
    OP
       240 天前
    我后面给你的内容都是内容标题,帮我从标题中提取标签或者关键词或者 topic 最多三个
    @vivisidea

    试过很多写法,结果都差强人意
    noahlias
        3
    noahlias  
       240 天前
    我感觉是 prompt 的问题吧 我测试了 gpt3.5/kimi/ chatglm4 感觉都还行 只是可能 prompt 还需要优化下

    noahlias
        4
    noahlias  
       240 天前
    换成 gemini-pro-1.5 感觉更好了?

    hooych
        5
    hooych  
       240 天前 via iPhone
    @noahlias 这是什么软件,求推荐
    JohnYep
        6
    JohnYep  
       240 天前
    JohnYep
        7
    JohnYep  
       240 天前
    noahlias
        8
    noahlias  
       240 天前   ❤️ 1
    beryl
        9
    beryl  
    OP
       240 天前
    @noahlias prompt 可以分享下么
    @JohnYep
    beryl
        10
    beryl  
    OP
       240 天前
    @JohnYep 刚发现是昨天的代码,秀呀。这么巧合
    noahlias
        11
    noahlias  
       240 天前
    @beryl 我写的贼简单 可以用 claude/gpt-4 再优化下 原版我就不写了 用 claude sonnet 优化了下(很 claude

    您是一位智能信息提取助手。您的任务是从给定的新闻文本中提取相关信息。

    上下文:$input

    您应该以 JSON 格式回复,格式如下:

    {
    '实体': ['实体 1', '实体 2', ...],
    '新闻类型': '新闻类型 1',
    '新闻标签': ['主题 1', '主题 2', '主题 3']
    }

    注意事项:

    1. 实体应该以列表的形式给出。
    2. 您不应添加任何新闻文本中没有提及的信息。
    3. 所有信息都应使用中文。
    4. 新闻标签应生成三个简洁的主题。
    beryl
        13
    beryl  
    OP
       240 天前
    @JohnYep 这个方式我有想过,但是分类和标签不可枚举。也正在想办法搞个十几万个标签。 之前想过直接分词去匹配,或者把这十几万个标签作为微调数据。


    @noahlias 感谢,学习到了。
    zhusimaji
        14
    zhusimaji  
       240 天前
    这个大模型做拿手,如果是传统的方法就得看 keyword phrase 一些方法 各种监督无监督,以及和图结合的方法
    noahlias
        15
    noahlias  
       240 天前
    @noahlias 你是一位智能新闻信息提取助手,任务是从给定的中文新闻文本中精准提取信息。请遵循以下格式输出结果:
    {
    "实体": ["实体 1", "实体 2", ...],
    "新闻类型": "新闻类型",
    "新闻主题": ["主题 1", "主题 2", "主题 3"]
    }
    注意事项:

    实体指的是新闻中提及的人物、地点、机构、事件等名词,请以列表形式给出;
    新闻类型指新闻的大类,如时政、财经、体育、娱乐等;
    新闻主题是对新闻核心内容的三个简洁描述或总结;
    输出内容必须来自给定的新闻原文,不可主观添加;
    请完全使用中文进行信息提取和输出。 (刚才没让他 refine 这是 refine 之后的🤣 逃
    zhusimaji
        16
    zhusimaji  
       240 天前
    你这上面的几个任务,如果大模型一次搞不定,你可以分子任务解决,理论上一个任务大模型处理更好,复杂任务 有时候处理不怎么好
    JohnYep
        17
    JohnYep  
       240 天前
    @noahlias @beryl
    #11
    这个提示词好像还不错,我也试试
    beryl
        18
    beryl  
    OP
       240 天前
    @zhusimaji 主要是还要考虑成本这块
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1288 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 17:29 · PVG 01:29 · LAX 09:29 · JFK 12:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.