V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
vazo
V2EX  ›  问与答

假如算力,训练方法,数据都一样,训练出来的 ai 是否完全一样,是复制品还是双胞胎?

  •  1
     
  •   vazo · 2023-02-11 13:26:30 +08:00 · 2121 次点击
    这是一个创建于 633 天前的主题,其中的信息可能已经有所发展或是发生改变。
    20 条回复    2023-02-23 16:17:27 +08:00
    GeruzoniAnsasu
        1
    GeruzoniAnsasu  
       2023-02-11 13:54:50 +08:00   ❤️ 3
    我觉得你要是稍微了解一下所谓的训练是怎么做的就不会问这个问题。有大量的模型是随机试错再收敛得到的,这个随机过程肯定不会完全一样,但也有少数网络是比较 deterministic 的,比如最经典的手写识别这种。那你重复无论多少次应该都是一样的,不引入变量的话。
    vazo
        2
    vazo  
    OP
       2023-02-11 13:56:45 +08:00

    个人理解他说的随机操作类似人类基因突变.即便是复制过来的随着继续训练不断随机操作,最终还是不一样的 ai.
    GeruzoniAnsasu
        3
    GeruzoniAnsasu  
       2023-02-11 14:01:35 +08:00   ❤️ 1
    @vazo 是可以这么类比,也可以看成学习环境中必然存在的变量和意外等等。 但其实还是跟目标问题有很大关系。如果一个机器学习算法要解决的目标问题,有一个确定最优解且能被最终找到,那最后不同随机算法也会收敛到这个解上,这样模型也很有可能是完全相同的。
    clearc
        4
    clearc  
       2023-02-11 14:20:14 +08:00 via iPhone   ❤️ 1
    混沌问题,条件不可能完全一样
    vazo
        5
    vazo  
    OP
       2023-02-11 14:34:40 +08:00
    @GeruzoniAnsasu 你说的目标问题是类似解数学题,有明确规则答案,解题步骤可能完全相同,即便我抄你的老师也看不出来.但是也有很多工作是没有最优解的,就好比写作文,我抄你的就属于送死啊.如果说谷歌的 alpha go 算数学课代表,那 chatgpt 有点语文课代表的意思.
    weiwoxinyou
        6
    weiwoxinyou  
       2023-02-11 14:47:40 +08:00   ❤️ 1
    遗传物质相同的双胞胎在经过同样的训练后也会拥有不同的性格,但是他们对 1+1 的问题都会给出 2 的结果
    Tamio
        7
    Tamio  
       2023-02-11 14:51:44 +08:00 via Android   ❤️ 1
    感觉大概率会相似但不完全相同,参数的初始值很多是随机的,那么最终模型收敛到的一组参数可能是不同的局部最优。
    vazo
        8
    vazo  
    OP
       2023-02-11 14:52:24 +08:00
    @weiwoxinyou 因为数学是有明确答案的,但是写同样的一件事,写出来的文章不会是一模一样的.
    sadfQED2
        9
    sadfQED2  
       2023-02-11 15:46:19 +08:00 via Android   ❤️ 1
    不一样,训练过程有很多随机操作
    NoOneNoBody
        10
    NoOneNoBody  
       2023-02-11 16:10:34 +08:00   ❤️ 1
    你这样想吧:
    0==False -> true
    0===False -> false

    严格说肯定不是完全一样,“一样”只是需求降低,只考虑==的情况

    AI 或者说其前置机器学习,其实是基于“分类”,应对不同的分类作出反应
    如果分类越是单一,不同的学习过程,结果就越接近(如果反应一致可以视为一样)
    不同的人应对 1+1 ,如果分类只是数学,那几乎一致反应是 2 ;但如果分类是数学、社会学、脑筋急转弯……那反应将是多种多样的;前者相同数据的相同训练和结果可以视为一样,后者即使相同数据、相同训练方法,结果也会有多个,自然就不一样
    nightwitch
        11
    nightwitch  
       2023-02-11 16:40:41 +08:00 via Android   ❤️ 1
    固定训练中的随机数种子,可以做到一模一样。 在训练中为了保持可重复性一般都要固定随机数种子的
    silypie
        12
    silypie  
       2023-02-11 16:43:48 +08:00   ❤️ 1
    不同的显卡驱动版本都会导致不一样
    AOK123
        13
    AOK123  
       2023-02-11 17:04:31 +08:00   ❤️ 1
    @nightwitch 小 demo 模型可以,大的基本都做不到。除了浮点运算的精度问题,比如 pytorch 有一些 API 明确告知会破坏可复现性
    fengleiyidao
        14
    fengleiyidao  
       2023-02-11 17:27:50 +08:00   ❤️ 1
    会有意引入随机。比如 dropout 。
    s4nd
        15
    s4nd  
       2023-02-11 17:31:47 +08:00   ❤️ 5
    用水电训练出来的性格温柔,火电训练的性格暴躁,风电训练的性格轻佻
    vazo
        16
    vazo  
    OP
       2023-02-11 18:24:37 +08:00
    感谢大家的发言,收获很多.
    Yeen
        17
    Yeen  
       2023-02-11 18:28:48 +08:00   ❤️ 1
    以神经网络举例。
    大规模神经网络的训练,其实最终输出模型就是一个海量规模的权重编码模型。
    即便同样参数,同样训练集,同样网络结构, 每次训练,内部编码结构也是不一样的。
    稍微了解一下神经网络训练过程就知道,即便训练集一样,训练中修正网络权重的过程也是不一样的。
    此外训练过程中,还有大量的随机步骤(比如丢弃一部分结果),超参数的选择也是很随机的,等等。
    vazo
        18
    vazo  
    OP
       2023-02-11 19:24:04 +08:00
    @Yeen 感觉训练人是伯乐,模型是千里马,只是千里马常有而伯乐不常有.
    Aaron2019
        19
    Aaron2019  
       2023-02-11 21:30:35 +08:00   ❤️ 1
    大哥,你的问题和每一条回复怎么都这么民科,一种想用语文来解释数学的感觉 笑死我了
    superliy
        20
    superliy  
       2023-02-23 16:17:27 +08:00
    @Aaron2019 哈哈
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2697 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 43ms · UTC 15:27 · PVG 23:27 · LAX 07:27 · JFK 10:27
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.