V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
XinPingQiHe
V2EX  ›  程序员

关于数据预处理+清洗,如何跟 AI 相结合的问题思考与探讨

  •  
  •   XinPingQiHe · 23 天前 · 976 次点击

    客户需求场景: 商品四级类别,不同层级内含数十万种不同商品; 商品供应方:对商品规格并无统一约定,明明同一个参数名,可能会有好几种不同的说法。一个参数的值,描述方式也可能不同。但业务熟悉的人能明确理解。 商品需求方:每个采购单需求百八十种品规不等。也是面临着,参数的描述可能跟供应厂商不同。 需求:对采购方的采购单,能按参数要求,快速匹配到对应商品,并且给出符合条件的高、中、低几种价位选择。 技术上分析,这个明显是一个数据格式化跟规范入库的事。但是要规范这么多不同的厂家和商品,会是一个巨大的工作量、甚至根本无法完成。客户要求,从 AI 方向,进行配合处理。 [问题来了,面对这个需求,AI 能做些什么工作?。。。 谢谢有相关经验的交流探讨。。。]

    8 条回复    2024-10-22 20:34:20 +08:00
    XinPingQiHe
        1
    XinPingQiHe  
    OP
       23 天前
    补充:80%的产品,会有 50~150 种不同的参数。 举例:颜色,重量,体积,长宽高,电源,功率,输出,usb 接口类型、个数,电池容量,待机时间,,,,,,,, 类似参数很多 还有更多专业参数,不一一列举。
    sunfly
        2
    sunfly  
       23 天前
    参数数据模型、清洗归一字典、同义词表、向量化、相似性搜索
    gaobh
        3
    gaobh  
       23 天前 via iPhone
    给 AI 分步处理呗,先让 AI 获取参数字段,再传入参数字段获取值,这就简单了
    NoOneNoBody
        4
    NoOneNoBody  
       22 天前
    这个是数据归一化+分类处理
    数据实际值为 a1, a2 ,分类标准为 b ,寻找 a1/a2/b 对应关系
    如果 b 为准确的、不可变的,一般有两种做法
    1. a1/a2 分别向 b 分类(逼近),b 相同则 a1/a2 为对应
    2. 如果 a1/a2 有较容易匹配的关系,可以将其中一个设为分类标准 A ,另一个为 A1 ,A1 向 A 寻找对应关系,然后将 A 和 b 寻找对应关系,这样三者也能建立对应关系

    此题“客户需求场景”为 b ,“商品供应方”和“商品需求方”为 a1,a2
    现在 b 有几十万,涵盖是比较高的,而且入库标准就是 b ,应该不是大到小的聚类,而是直接特征匹配;所以两端逼近法可能合适,a1/a2 各自找出“特征”,和 b 匹配

    现在关键是不知道这些数据中 a1/a2 是怎么描述的,如果关键字明显,基本做文字匹配就可以了;但如果不明显,例如你说的同一个参数名好几种名称叫法,这可能需要一个字典(相当于人工打 tag )

    不过以目前 llm 的理解能力,都不容易做,估计反向验证步骤少不了,甚至需要人工验证
    monkeyk
        5
    monkeyk  
       22 天前
    这类问题全用 AI 难出结果,一般是结合 AI ,该用数据库的用数据库,能用其他工具的也用上;
    最后可使用 AI Agent+各类工具(如 db tool, search tool )来处理,效果会好些(但 AI 的特点就是不能 100%准确,这要考虑到)
    XinPingQiHe
        6
    XinPingQiHe  
    OP
       22 天前
    谢谢各位的建议,我也认为这是一个需要传统方法去解决的问题,AI 可以做部分协助,整体的自动处理流程上,AI 还是参与不上 ,,,
    (客户强调用 AI 协助处理 并且可以他们配置高性能服务器几显卡等等,还是想不出很好的 AI 参与方式,如仅仅是问答和大量文本内容抽取参数的关键词啥的,也无法很好的格式化 参与到应用中)
    doublebu
        7
    doublebu  
       22 天前
    没实践过。但个人思路同 #4 一致。或许人工打 Tag 那块可以用 LLM 辅助。
    sampeng
        8
    sampeng  
       22 天前 via iPhone
    emmmm ,如果是客户强烈要求。咋做都行,只要不是 100%正确。就是 bug 。现阶段 llm 做不到 100%
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3620 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 04:33 · PVG 12:33 · LAX 20:33 · JFK 23:33
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.