V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
seetheworld
V2EX  ›  Python

有没有懂机器学习的 V 友,有偿长期合作,帮忙指教检查一下代码。

  •  
  •   seetheworld · 257 天前 · 2543 次点击
    这是一个创建于 257 天前的主题,其中的信息可能已经有所发展或是发生改变。
    36 条回复    2024-04-09 13:44:49 +08:00
    ZedRover
        1
    ZedRover  
       257 天前
    深度学习吗 我平时做 tabular 数据跟时序数据多一点
    Yuhyeong
        2
    Yuhyeong  
       257 天前
    什么方向,最近做 StableDiffusion 多一些。传统机器学习也没什么问题
    seetheworld
        3
    seetheworld  
    OP
       257 天前
    @ZedRover 不是深度学习,就是传统机器学习,新手,不太懂如何保证训练出来的模型(比如 RF 、XGBoots )是正确的,没有过拟合或欠拟合
    seetheworld
        4
    seetheworld  
    OP
       257 天前
    @Yuhyeong 是传统机器学习,最近写了一个代码,训练出来了一个 RF 模型,在训练集和测试集上的 R^2 都达到了几乎是 1 ,不知道是不是有问题
    Yuhyeong
        5
    Yuhyeong  
       257 天前
    强化学习?这个没怎么接触过
    Yuhyeong
        6
    Yuhyeong  
       257 天前
    @Yuhyeong 刚看成 RL 了,有点太传统了,这个属实记不起来了
    jasonlee16819
        7
    jasonlee16819  
       257 天前
    菜狗 AI 训练师一枚,只知道训模型,数据或者模型训练方法层面上了解的比较多
    kkjz
        8
    kkjz  
       257 天前
    sklearn 包+dl 的 cv ,欢迎交流~
    kkjz
        9
    kkjz  
       257 天前
    @kkjz 也是菜狗,想找找讨论的地方)
    airqj
        10
    airqj  
       257 天前
    @seetheworld #4 是不是训练集数据分布不均匀
    seetheworld
        11
    seetheworld  
    OP
       257 天前
    @jasonlee16819 模型训出来,如何判断靠不靠谱,目前很迷茫
    seetheworld
        12
    seetheworld  
    OP
       257 天前
    @airqj 意思是数据范围跨度不够广?集中在某一范围内么?
    seetheworld
        13
    seetheworld  
    OP
       257 天前
    @kkjz 我们也是用的 sklearn 包,摸索学习阶段,多多交流
    fengzc
        14
    fengzc  
       257 天前 via Android
    各种指标对一对 什么 PR F1 (去看看每个指标的意义)就能看出是不是过拟合和欠拟合了,也可以去找找更多的数据集试试?一般机器学习在小规模数据集上到 1 其实都是可能的,因为一些特征可能给大家摸索烂了
    leopod1995
        15
    leopod1995  
       257 天前
    多跑点数据集试试呢?

    https://www.heywhale.com 推荐一个国内的平台
    seetheworld
        16
    seetheworld  
    OP
       257 天前
    @fengzc PR F1 是不是分类器的指标?我们训练的是 RF 回归模型,看的 R^2 ,RMSE, MAE 。在训练集上 R^2 是 1 ,MAE=0.4, RMSE=4.2 ,在测试集上 R^2=0.96, MAE=1.2, RMSE=11.2 。但纯看这几个指标不知道能否确定模型是否正确。
    v24radiant
        17
    v24radiant  
       257 天前
    RF 是指随机森林吗?怎么不试一下 xgboost?
    Sawyerhou
        18
    Sawyerhou  
       257 天前
    机器学习应该有三个数据集,训练、验证、测试,你是省略了一个?
    R 方是线性回归的评估指标,非线性的不太适用,
    你这个 R 方非常高,是课本数据?生产中 R 方应该不会这么高
    模型收敛了,可以满足场景需求就可以了,其他不用太在意
    Djaron
        19
    Djaron  
       257 天前
    一直在做 ML 和 DL ,绿色软件: Vy1KZWZmcmV5LURvbmc=
    jasonlee16819
        20
    jasonlee16819  
       257 天前
    @seetheworld
    首先得确定数据,训验集划分是否正确,数量,分布情况如何?是否有数据集泄漏或者同源情况,是否是训练集过大而测试集过小或丰富度远不如训练集的情况......
    上边也有一些大佬说了这些问题,比如过拟合啥的
    DigitalG
        21
    DigitalG  
       257 天前
    说起来,机器学习/AI ,有什么比较活跃的社区吗? reddit/huggingface/AutoDL 姑且都算 这类,还有没有别的。
    seetheworld
        22
    seetheworld  
    OP
       257 天前
    @v24radiant 是的随机森林,下一步准备去试 XGBoost ,但这之前想把随机森林搞搞清楚
    lovegoogle
        23
    lovegoogle  
       257 天前
    AI 深度学习,机器学习(从 svm 到集成都做过),有自己的服务器,接过多个有关项目,需要合作可联系~
    seetheworld
        24
    seetheworld  
    OP
       257 天前
    @lovegoogle 可否加 wx:gyn2013216 进一步交流
    seetheworld
        25
    seetheworld  
    OP
       257 天前
    @jasonlee16819 嗯嗯,谢谢建议,去仔细检查分析下
    lkx4102
        26
    lkx4102  
       257 天前
    1 、看你训练集、测试集的 MAE ,RMSE 说明你的模型已经过拟合了
    2 、R^2 = 1 - MSE/VAR ,看测试集的 RMSE 是比价大的,MSE 应该是会比较的大,那可能就是测试集的方差特别大
    3 、随机森林不适合做回归预测
    lkx4102
        27
    lkx4102  
       257 天前
    @lkx4102 绿色软件 bGt4NjA0Cg==
    seetheworld
        28
    seetheworld  
    OP
       257 天前
    @lkx4102 这是什么呀 T_T
    lkx4102
        29
    lkx4102  
       257 天前
    @seetheworld 微信,base64 编码
    airqj
        30
    airqj  
       257 天前
    @seetheworld #12 是的
    cbythe434
        31
    cbythe434  
       257 天前
    测试集表现差比较多,参数调整下吧,深度搞浅一点,样本数量阈值拔一拔
    Jimmyisme
        32
    Jimmyisme  
       257 天前
    居然能在 v2 看到机器学习,强烈建议 op 做一下 kaggle 的 https://www.kaggle.com/learn/intro-to-machine-learning
    这上面有很多讲解,而且因为 notebook 都是有奖牌的,所以都会做的很 fancy 。比自己看书学有意思很多。
    Jimmyisme
        33
    Jimmyisme  
       257 天前
    前几年还能看到 ml 的金牌,但是最近几年的比赛 ml 都不太 work 了哈哈
    reoah2
        34
    reoah2  
       257 天前
    划分好训练集,验证集,测试集
    fengzc
        35
    fengzc  
       257 天前
    @seetheworld 对的( PR 等),我感觉这个 R 方等于 1 ,很大情况是和上面几位说的数据上有问题,应该是有大佬在帮 op 了,祝顺利哈哈
    seetheworld
        36
    seetheworld  
    OP
       256 天前
    @Jimmyisme 感谢,去看了一下,确实挺不错的。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2366 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 02:22 · PVG 10:22 · LAX 18:22 · JFK 21:22
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.