V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
jeddida
V2EX  ›  自然语言处理

有朋友正在学习 nlp 吗?

  •  
  •   jeddida · 9 天前 · 1610 次点击

    自己学习遇到了一些问题,想问一下大家一些关于 nlp 的问题。 我正在做文本情感分类的模型,用的双向 lstm ,损失率一直在 0.7 左右震荡。 数据大小:5w 多条(第一列标签 0 1 ,第二列文字) batsize:32 lr:0.001 hidden dim: 64

    25 条回复    2024-12-13 17:14:53 +08:00
    murmur
        1
    murmur  
       9 天前
    情感分类对于国内没任何意义,因为审核机制导致人已经不能好好说话了

    比如下面的话
    活全家
    祝你全家富贵
    祝你以后玩的每个游戏都有来自星尘的品质

    表达的是正面还是负面的情感呢?
    murmur
        2
    murmur  
       9 天前
    常上网的人都知道,骂人不带脏字,讨论敏感话题不漏敏感词,是基本技巧

    一周不上网梗就不知道,还想依靠陈旧的语料库的算法判断情感
    jeddida
        3
    jeddida  
    OP
       9 天前   ❤️ 1
    @murmur 我纯粹就是为了学习 没有什么别的目的
    murmur
        4
    murmur  
       9 天前
    @jeddida 这东西大概是 10 多年前我上学研究的东西,现在老老实实大模型,深度学习吧
    jeddida
        5
    jeddida  
    OP
       9 天前
    @murmur 一步一步来,不可能一下就上那些
    jeddida
        6
    jeddida  
    OP
       9 天前
    @murmur 就好比我如果弄清楚为什么损失率一直下不去 下次就会避免了,哈哈
    cd605426287
        7
    cd605426287  
       9 天前
    竟然看到了 我的游戏常用语
    @murmur
    ryougifujino
        8
    ryougifujino  
       9 天前
    LLM 出来后,传统 NLP 不是意义不大了么
    jeddida
        9
    jeddida  
    OP
       9 天前
    @ryougifujino 感觉学习意义还是有的
    wh1sper
        10
    wh1sper  
       9 天前   ❤️ 1
    要不就是数据质量不高,要不就是模型拟合能力不够,总之都没啥意义,有兴趣就搞搞大模型吧
    顺便打个广告:
    腾讯地图平台招牌:NLP 算法工程师-大模型方向
    大平台福利好,老板人超 nice ,P9 大佬亲自带队,算力充足
    kaneg
        11
    kaneg  
       9 天前 via iPhone
    之前一个专业团队的事,现在大模型实现 NLP 就是一个 prompt 的事,而且自动支持多语言。现在还研究传统 NLP ,就像有机械化不用,还用牛耕地一样。
    kaidong21
        12
    kaidong21  
       9 天前
    数据很重要,不清楚你这个数据集质量如何,还有超参多调一调,另外可以换别的 model 试试你的数据集,比如 bert, 最后多和 chatgpt 聊一聊,提供的一些建议挺适合初学者的
    murmur
        13
    murmur  
       9 天前
    @ryougifujino 我还真测了一下,AI 完美过关

    这句话“祝你玩的每个游戏都有来自星尘一样的品质”可以被解读为一种讽刺或负面的情感,尤其是对于那些对《来自星尘》评价不高的玩家来说。从一些玩家和评论者的反馈来看,《来自星尘》在发布初期受到了批评,主要集中在游戏性不足、战斗系统设计问题、剧情文案质量低以及翻译问题等方面。因此,如果某人用这句话来祝福别人,可能是以一种反话的方式来表达,意指希望对方不要遇到像《来自星尘》这样被认为品质不佳的游戏。

    这个是通义千问的结果
    jeddida
        14
    jeddida  
    OP
       9 天前
    @kaneg 我不是为了完成什么我就是想学习大哥
    jeddida
        15
    jeddida  
    OP
       9 天前
    @kaidong21 谢谢大佬!
    murmur
        16
    murmur  
       9 天前
    @jeddida 懂,但是想学习一样可以学大语言模型,大语言模型也是基于老架构迭代上的,比如简单的神经网络,先以这个方向学习,至少不会落后于时代

    而且学习不可能不考虑商业应用或者落地

    等到商业的时候就知道,还是 tire 树+敏感词库管事
    Volekingsg
        17
    Volekingsg  
       9 天前
    先取少量训练数据确认是否能够过拟合
    xz410236056
        18
    xz410236056  
       9 天前
    @murmur #1 ni'td'xn'k
    你太小看 LLM 了
    xz410236056
        19
    xz410236056  
       9 天前
    @xz410236056
    @murmur #1 我看错了
    WallenHan
        20
    WallenHan  
       8 天前 via Android
    还搞过时的技术呢,上面的大佬都指名方向了。该淘汰得让他淘汰。
    jeddida
        21
    jeddida  
    OP
       8 天前
    @WallenHan 什么叫过时?什么不都得有一个法阵过程吗?一步一步学习就是过时???一口气能吃成胖子?
    jeddida
        22
    jeddida  
    OP
       8 天前
    @murmur 谢谢大佬!学完这些我就会去看看 llm 大模型。我的问题已经解决了,数据预处理的问题!
    jeddida
        23
    jeddida  
    OP
       8 天前
    感谢大家的宝贵意见!我的问题已经解决了,数据预处理的时候我自己写的词表有问题,导致 loss 一直下不去,我换用了 word2vec 就好了。对于有些 v 友说的“过时”,没有人能一口气吃一口胖子,大家都是搞开发的,都明白要一步一个脚印。
    jeddida
        24
    jeddida  
    OP
       8 天前
    @Volekingsg 谢谢大佬!问题已经解决!我自己写的词表有问题。
    murmur
        25
    murmur  
       8 天前
    @xz410236056 gpt 错了,来自星尘是鹰角的游戏,当时被骂是赤石游戏(谐音吃 shi ,还有游戏里有一张地图全是红色的石头)
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2642 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 07:13 · PVG 15:13 · LAX 23:13 · JFK 02:13
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.