V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
funcookies
V2EX  ›  问与答

如何利用机器学习识别异常的销售行为?

  •  
  •   funcookies · 2022-08-23 20:06:04 +08:00 · 1288 次点击
    这是一个创建于 823 天前的主题,其中的信息可能已经有所发展或是发生改变。
    工作中需要对一些销售行为做判断。
    举个例子:
    比如 A 购买了原油,添加剂化学试剂等东西
    1.如果 A 销售原油,化学试剂,那么销售行为正常,买什么卖什么。
    2.如果 A 销售汽油,柴油等产品,那么销售行为正常,可以认为 A 做了生产,利用原料生产产品。
    3.如果 A 销售金属,煤炭等产品,那销售行为异常,因为原油做不出这些东西来,数据存在造假。

    目前暂时有的数据就是购买与销售的商品种类与对应比例,数据量理论上也足够。

    想问下大家有哪些思路,利用什么算法或者模型可以通过机器学习来满足需求。

    如果加上其他数据可以更好的实现,也可以标注出来。


    谢谢啦。
    10 条回复    2022-08-24 09:46:50 +08:00
    sadfQED2
        1
    sadfQED2  
       2022-08-23 20:08:33 +08:00 via Android   ❤️ 1
    写一堆 if else 就够了,哪用什么机器学习啊
    westoy
        2
    westoy  
       2022-08-23 20:12:17 +08:00
    但如果 3 同时经营其他行业的分销业务呢......
    funcookies
        3
    funcookies  
    OP
       2022-08-23 20:22:06 +08:00
    @sadfQED2 啊这,不可能穷尽所有情况啊,面对的数据还是很多的。
    funcookies
        4
    funcookies  
    OP
       2022-08-23 20:24:36 +08:00
    @westoy 经营分销业务意味他需要购买同样的东西,买的价钱也不会差太多,不会出现说他主要买的是原油,却主要卖电脑这种情况。
    sujin190
        5
    sujin190  
       2022-08-23 20:48:44 +08:00
    @funcookies #3 问题是机器学习你需要大量标注好的数据,而且这种以人现实规则识别为主的,大概率你没列举标注的无法识别,所以既然你本来就要列举标注,那么显然 if else 更简单才是,机器学习也不是万能的,并不能凭空扩展范围
    xwtttt
        6
    xwtttt  
       2022-08-23 21:09:50 +08:00 via Android
    机器学习有一个方向就是异常检测,可以理解为对非平衡数据的二分类问题。对大量正常数据建模,出现少量与正常数据差异较大的数据可以认为是异常。记得孤立森林通常效果挺不错的,然后 python 有个 pyod 包,很多异常检测模型打包好了,可以一个个试。
    funcookies
        7
    funcookies  
    OP
       2022-08-23 21:29:52 +08:00
    @xwtttt 谢谢 我去查一下相关的资料。
    funcookies
        8
    funcookies  
    OP
       2022-08-23 21:51:01 +08:00
    @sujin190
    if else 应该是不行的。应为数据量很大,而不同物品和比例千变万化。
    肯定不会直接寄希望于机器学习直接去判断购销两种物品的关联。就是想利用机器学习去分类,然后可能采用样本去判断分类的异常情况。
    人工标注的数据没有,但是有一个类似黑名单的东西,黑名单里面的样本会包含大量异常销售的数据,
    sadfQED2
        9
    sadfQED2  
       2022-08-24 09:19:28 +08:00 via Android
    @funcookies 你这个是典型的啥都不懂,无脑觉得机器学习能搞定。
    sujin190
        10
    sujin190  
       2022-08-24 09:46:50 +08:00
    @xwtttt #6 不靠谱吧,商品质量筛查这种可能这个还行,但是这个是销售关系筛查啊,商品质量这种是由特定客观规律的,销售关系就是个社会规则,现阶段的机器学习和数据量处理不了这种吧


    @funcookies #8 所谓机器学习简单点其实就是个解超大型方程的过程,越符合数学物理规律的使用相对较少的数据和参数就能有很好效果,此外像语言识别、自然语言处理之类的虽然看起来不符合数学规律,但是人的发言范围、规则、音色,语言的词法、语法之类的是固定的啊,所以在相对较大的数据量和参数上还是有可能处理的,但是你这销售关系是个社会规则,一般来说规律实在不强,在现有数据量和模型复杂度来说,真不会有好效果,远不如 if else 靠谱,当然这个 if else 应该叫做专家系统,早先似乎也会被称为机器学习,实际工程实现中,搞个规则引擎系统就是了呗,以人工能标注的数据量来说绰绰有余了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   958 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 20:34 · PVG 04:34 · LAX 12:34 · JFK 15:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.