V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
passion23
V2EX  ›  问与答

研究过机器学习的 xdm,求提供一个优化的思路

  •  
  •   passion23 · 2022-12-27 09:26:18 +08:00 · 1398 次点击
    这是一个创建于 729 天前的主题,其中的信息可能已经有所发展或是发生改变。

    背景如下

    超大规模(几万亿)稀疏样本拆分成几十万 /上百万的规模进行聚类,现在使用的是 Python Sklearn 库里的 MiniBatchKMeans ,据说还是达不到业务要求

    已知:现有方案只有单机场景,应该只能在 Sklearn 的基础上优化

    我的任务是要比库的方法有性能提升,看了几天源码,没有什么思路...达不到性能提升的话,这工作应该是悬了

    有没有优化过这一块的 xd 提供一点想法?

    10 条回复    2022-12-27 11:41:08 +08:00
    paopjian
        1
    paopjian  
       2022-12-27 09:50:20 +08:00
    几万亿的数据还是单机,这得用 CPU 跑好久吧,看着就麻烦
    winglight2016
        2
    winglight2016  
       2022-12-27 10:30:32 +08:00
    这么大数据量不是很容易搞吗? KNN 、SVM 一个个试过去啊,或者直接 pycaret 自动优化一把,没有比这个更轻松的工作了呀
    zooo
        3
    zooo  
       2022-12-27 10:33:11 +08:00
    找 GPU 跑
    ifzzzh
        4
    ifzzzh  
       2022-12-27 10:36:08 +08:00
    先降维?或者用 LSH 近似聚类?
    LaurelHarmon
        5
    LaurelHarmon  
       2022-12-27 10:41:25 +08:00 via Android
    好好做下特征工程
    jaredyam
        6
    jaredyam  
       2022-12-27 10:46:25 +08:00
    你全程没提过特征处理的步骤,直接塞?建议从数据入手,没人要求你必须和一个算法死磕吧?
    lookStupiToForce
        7
    lookStupiToForce  
       2022-12-27 10:48:31 +08:00
    稀疏矩阵不搞特征工程等于自己给自己下降头喂屎
    shoumu
        8
    shoumu  
       2022-12-27 10:56:07 +08:00
    几万亿拆分这一步是怎么做的?
    qzwmjv
        9
    qzwmjv  
       2022-12-27 11:30:03 +08:00
    先挑点特征预聚类,这个量,真的不上分布式么,单机跑到猴年马月
    governcoco
        10
    governcoco  
       2022-12-27 11:41:08 +08:00
    你先清理一下数据吧,把没有意义的特征或者有问题的数据删一下。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5886 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 06:19 · PVG 14:19 · LAX 22:19 · JFK 01:19
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.