V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
shyangs
V2EX  ›  程序员

现在公认 ChatGPT 已通过了图灵测试,但没有见过的数学题,现在的 AI (GPT) 还是不会解。这是 AI 还不会思考,还是 AI 已经达到了大多数人类的思维水平,即能通过图灵测试,但不会解初中或高中数学题? (像姜萍一样)

  •  
  •   shyangs · 6 小时 27 分钟前 · 3352 次点击

    如下的高中數學題,AI 會用向量法解. 這道題我第一次在別的論壇發帖時 AI 還不會,但現在 ChatGPT 學會了,我懷疑是我發帖後,友壇壇友反覆地問,導致 OpenAI 背後的智能工人注意到了這一題,讓 ChatGPT 背會了.

    https://chatgpt.com/share/d4fe9bc6-f62f-408f-b188-4a2fa333e57b

    降低難度到初中數學題(如下),ChatGPT 不會了,讓人懷疑 AI 還不會思考,但這樣考慮的話,能通過圖靈測試但不會初中高中數學題的人類(如姜萍)都不會思考?

    https://chatgpt.com/share/67451648-ae74-8003-b6ef-332c10d43a12

    60 条回复    2024-11-26 15:16:25 +08:00
    llxvs
        1
    llxvs  
       6 小时 24 分钟前 via iPhone
    小學生也能通過圖靈測試,小學生會解初中數學題嗎?
    shyangs
        2
    shyangs  
    OP
       6 小时 19 分钟前
    @llxvs

    小學生會解小學數學題,用思考解的.

    AI (GPT) 看過的題目,可以解到研究所等級,沒看過的題目,小學題都解不出來。
    songray
        3
    songray  
       6 小时 13 分钟前 via iPhone
    大语言模型相当于看到第一个字,计算概率最高的第二个字。
    o1 相当于计算完之后,再算一次,自我纠正。
    上次南航一个博士来公司介绍大模型的时候说的。
    elevioux
        4
    elevioux  
       6 小时 11 分钟前
    GPT 并不具备所谓的智能。1+1 ,人类能够理解,在此基础上得出结论=2 。对于 GPT 来说,是根据训练的资料,得出结论,“最有可能=2”。
    ZeawinL
        5
    ZeawinL  
       6 小时 11 分钟前 via iPhone   ❤️ 1
    AI: 我故意的
    HTML001
        6
    HTML001  
       6 小时 4 分钟前
    目前的 AI 只能对已有的"知识"做整合,没有知识创新,现在的 AI 只能算是一本高级的工具书,和真正类人的智能、智慧不挂钩
    COW
        7
    COW  
       6 小时 1 分钟前 via Android
    如果有人大批量的恶意给 AI 提供错误的结论,那 AI 大概率也会给出错误的结论。
    superrichman
        8
    superrichman  
       5 小时 59 分钟前   ❤️ 1
    目前的 GPT 就是赛博鹦鹉,它能说出你喜欢听的东西,仅此而已。
    xw340721
        9
    xw340721  
       5 小时 52 分钟前
    @elevioux 看你训练时候对准确度怎么看待,ai 在预测方面已经很不错了。定理一般通过两种方法得到,一是得出定理,然后证明,然后根据数据进行修改。二是通过共性然后得出规律。人类也不是凭空想象得到的定理。
    Garphy
        10
    Garphy  
       5 小时 50 分钟前
    换个说法,1+1=2 ,对大模型来说 1 到底是啥,它不懂,它只知道基于语料匹配,概率最大的结果是 2 。数学算的好的,一般是识别出是数学问题,直接套数学公式,不走搜索,就准了。所以本质上还是个搜索引擎,只不过是带上下文和重组能力。
    Jim142857
        11
    Jim142857  
       5 小时 44 分钟前   ❤️ 6
    你犯了一个非常基础的错误:「是否通过 Turing Test 」和「一个东西是否具有智能」毫无关系。

    Turing Test 背后的哲学假设是 logical behaviorism ,这一假设在上世纪 60 年代就已经被心灵哲学家广泛抛弃了。今天还拿着 Turing Test 说事儿的人完全不了解近 60 年的哲学学术发展。

    如果你感兴趣的话可以问问 ChatGPT:Turing Test 和 behaviorism 的关系; Putnam 对 behaviorism 的著名反驳; Searle 的 Chinese Room 思想实验。
    cwyalpha
        12
    cwyalpha  
       5 小时 36 分钟前 via iPhone
    @Jim142857 以下是关于 Turing Test 与行为主义的关系、Putnam 对行为主义的著名反驳,以及 Searle 的 Chinese Room 思想实验的概述:

    ---

    ### **1. Turing Test 和行为主义的关系**

    Turing Test 是由艾伦·图灵( Alan Turing )提出的,用于回答机器是否能像人类一样进行思考的问题。测试的核心思想是,如果一个机器能在一段对话中成功地模仿人类,且观察者无法区分出它与人类的区别,则可认为该机器具备智能。

    - **行为主义的视角**:
    Turing Test 与行为主义有相似之处,因为两者都强调“外在可观察的行为”而非内在的心理状态。行为主义是心理学和哲学中的一种理论,它主张只研究外在行为,而忽略内部的主观经验或意识。Turing Test 的设计符合这一哲学立场:只关心机器的行为输出,而不试图分析其内在过程或状态。

    - **批判性观点**:
    Turing Test 的这种行为主义取向也引发了哲学家的批评。一些人认为,模仿人类行为并不等于真正具备思维或意识,因为“行为”可以被机械地复制,而不需要涉及理解或意图。

    ---

    ### **2. Putnam 对行为主义的著名反驳**

    希拉里·普特南( Hilary Putnam )是哲学和计算机科学领域的重要人物,他对行为主义提出了重要反驳,其中最著名的是“超人机反例”( Super-Spartan )和“多重实现性”。

    - **超人机反例( Super-Spartans )**:
    Putnam 假设了一种生物群体——“超人机”,它们在强烈痛苦的情况下仍能完全压抑痛苦行为,不表现任何外在的痛苦迹象。这一设想表明,心理状态(如疼痛)不一定伴随可观察的行为,因此行为无法完全定义心理状态。

    - **多重实现性( Multiple Realizability )**:
    Putnam 进一步批评行为主义的简化性。他指出,心理状态可以以不同的方式在不同物种或系统中实现,例如疼痛可能在人类的大脑、动物的大脑,甚至在某些人工系统中以完全不同的物理形式存在。这说明心理状态不能被简单地归结为特定的行为或生理机制。

    这些反驳动摇了行为主义在哲学和科学中的地位,促成了功能主义的兴起。

    ---

    ### **3. Searle 的 Chinese Room 思想实验**

    约翰·塞尔( John Searle )提出的中文房间思想实验是对强人工智能( Strong AI )的批判。这一思想实验挑战了 Turing Test 的充分性,特别是对智能和理解的本质进行了深刻探讨。

    - **思想实验内容**:
    假设有一个人( Searle 本人)在一个房间里,房间里有一本规则书(程序)告诉他如何根据输入的中文字符组合生成合适的中文输出。这个人完全不懂中文,但通过规则书,他可以生成完全合乎语法的中文对话。外部观察者会认为房间里的人理解中文,但实际上,这个人并没有真正的理解。

    - **核心论点**:
    Searle 认为,像 Turing Test 这样的行为标准不能证明机器具有理解能力。中文房间中,“人+规则书”系统可以模仿理解中文的行为,但这并不意味着系统真的理解中文。这表明语义(理解的内容)与语法(符号操作的规则)是不同的。

    - **结论**:
    强人工智能(即认为机器可以通过程序实现真正的心智或理解)是不成立的,因其缺乏语义理解。Searle 用此实验反对了“心智等同于符号处理”的观点。

    ---

    ### **总结**
    1. **Turing Test 与行为主义**都关注外在行为,但忽视内在意识,这种行为导向的观点受到了哲学家如 Putnam 和 Searle 的批评。
    2. **Putnam 的反驳**从理论上否定了心理状态和外在行为的简单对应关系,指出心理状态的复杂性和多样性。
    3. **Searle 的中文房间实验**进一步质疑了人工智能是否能超越符号处理,真正实现理解。

    这些讨论为人工智能、心理学和哲学之间的交叉研究奠定了重要基础。
    edwardzcn98
        13
    edwardzcn98  
       5 小时 31 分钟前
    可以合理怀疑目前最好的数学模型也是靠人力堆起来的(让模型去学习严格的机器推理+证明),他们的训练集覆盖了你给出的第一题。

    Something relevant information

    ```
    Project Numina is hiring Lean 4 contributors to work on formalizing competitive math problems and proofs! If you're passionate about mathematics, formal methods, and contributing to groundbreaking AI research, this could be the perfect opportunity for you.
    Project Numina is a non-profit dedicated to advancing human and AI capabilities in mathematics. They've already achieved remarkable milestones:
    ```

    补充资料:
    Hugging Face 上[Numina 项目获得了第一届 AIMO 进步奖]( https://projectnumina.ai/publications/),也发布了相关数学解题模型。

    公开的在近 AI 领域你可能看不到他们联合数学家所做的努力,但是你会发现 Advisory Committee 下有 Tao 和另外几名 Lean FRO (包括语言的发明者)。
    frayesshi1
        14
    frayesshi1  
       5 小时 29 分钟前
    @Jim142857 非常赞同,西方的哲学最在意的是实践和思想的关系,柏拉图说人的思想来自另外一个世界,亚里士多德说人的思想来自物质,康德说人的部分思想来自另外一个世界,部分思想来自物质。但是科学到现在都没有办法在任何东西上实现“我”这个概念。
    edwardzcn98
        15
    edwardzcn98  
       5 小时 27 分钟前
    @edwardzcn98 排版好像乱掉了,对这个感兴趣的话可以看一下这篇中文 blog: https://huggingface.co/blog/zh/winning-aimo-progress-prize

    无意义去讨论是否通过图灵测试或者有没有智能这些。
    xw340721
        16
    xw340721  
       5 小时 26 分钟前
    其实可以理解为,通过训练,ai 从更高维度总结出了规律,但对人类来说还是黑盒。ai 是有发散思维的,看你对发散思维怎么理解,如果认为合理推导结论不是发散思维,只是根据以前的知识进行拼凑,那人类其实也是这样的一套思维方式。
    Jim142857
        17
    Jim142857  
       5 小时 22 分钟前
    @xw340721 AI 没有发散思维。因为 AI 根本没有思维。
    ZztGqk
        18
    ZztGqk  
       5 小时 20 分钟前 via iPhone
    不过是一种高阶搜索罢了,training 和 input 没有的东西,它就不知道
    a570295535
        19
    a570295535  
       5 小时 19 分钟前 via Android
    AI 本来就不会思考,它只是调用庞大的数据来模拟思考,不管它多么像人,它从根本上始终不是人。
    就算未来 AI 智能到发生所谓的 AI 暴乱,那也只能说是数据混乱导致的,模拟永远只是模拟,而不能真正的拥有。
    glacer
        20
    glacer  
       5 小时 8 分钟前
    目前的 AI 还不具备逻辑推理能力,本质上仍然是一个海量知识库的索引。chatgpt 在文本,图像等领域的输出只是基于已输入的先验知识进行计算得出的正确率最高的结果,对文本或图像内容中包含的逻辑信息(比如数学题目中提供的推理信息)基本无法处理。
    vishun
        21
    vishun  
       4 小时 58 分钟前   ❤️ 1
    我看到过一篇非常好的文章,可以参考:[当我谈 RAG 时我谈些什么]( https://fatescript.github.io/blog/2024/LLM-RAG/),里面提到一个工具可以可视化展示下一个字的概率。
    kw8023cn
        22
    kw8023cn  
       4 小时 55 分钟前
    @a570295535 有没有可能,人脑的运作机制也是类似,只是运算能力更强,所谓的真正拥有,也不过只是数据存储,脑震荡也会导致丢失数据而失忆,或许目前 AI 的处理逻辑和人类不同,但是也是模拟了人类的神经网络算法,我们人类的大脑何尝不是在做索引,现在 AI 的运作已经黑盒了,只要算力足够,能产生出什么样的智能尚未可知,但肯定不是简单的接龙游戏。
    kw8023cn
        23
    kw8023cn  
       4 小时 53 分钟前
    @glacer 有没有可能,人脑的运作机制也是类似,只是运算能力更强,所谓的真正理解,也不过只是数据存储,脑震荡也会导致丢失数据而失忆,或许目前 AI 的处理逻辑和人类不同,但是也是模拟了人类的神经网络算法,我们人类的大脑何尝不是在做索引,现在 AI 的运作已经黑盒了,只要算力足够,能产生出什么样的智能尚未可知,但肯定不是简单的接龙游戏。
    pursuer
        24
    pursuer  
       4 小时 48 分钟前
    定义思考很困难。数学方面,现在其实是有机器证明的,还有证明逻辑严谨性的 LEAN4 。而且有些数学定理证明过程其实就是倾向于枚举的。总不能让 AI 学习去如何"注意到"。
    不过做机器数学证明的性价比很低,大概也没多少资源愿意投入这个项目中。
    huangsijun17
        25
    huangsijun17  
       4 小时 43 分钟前
    现在的生成式语言模型的核心能力是“能说会道”。他的模型本体所擅长的,也是唯一擅长的是往后接话。无论对错,My 逻辑,只考虑往后可以说什么,最应该说什么,然后继续往后堆话。
    huangsijun17
        26
    huangsijun17  
       4 小时 42 分钟前
    @shyangs #2 小学生都知道 3.8 比 3.11 大,但 GPT 会搞错。没些可能是小学肄业的人不做讨论。
    billlee
        27
    billlee  
       4 小时 34 分钟前
    怎么就公认通过图灵测试了呢?图灵测试又没有限制问数学题,这一问数学题不就暴露了?
    FireKey
        28
    FireKey  
       4 小时 33 分钟前
    如果 AI 会思考,人类就没什么存在价值了
    zt5b79527
        29
    zt5b79527  
       4 小时 32 分钟前
    @kw8023cn #23 有没有可能,硅基“生命”再怎么堆量也无法产生近似生化大脑的智慧?有没有可能 “只要算力足够” 的程度我们人类永远达不到,就跟质能转换公式我们早就知道了,但是至今无法用能量制造物质一样。chatgpt 让我们知道了大力出奇迹, 但是究竟要多大的力,才能产生真正的奇迹呢,有没有可能再大的力也出不了奇迹,有没有可能是人类永远达不到的大力
    shyangs
        30
    shyangs  
    OP
       4 小时 27 分钟前
    @billlee


    你會把大量的姜萍們問倒(50%人上不了高中),難道姜萍們不算人 doge
    summerLast
        31
    summerLast  
       4 小时 26 分钟前
    Ilya Sutskever 说过 压缩即智能,把 llm 当作一个压缩后的算法和数据的模型,其中蕴含的信息,很难超过其原始输入的压缩前的数据,前段时间的涌现即是模型蕴含了原始数据外的一些知识,这个是一个可以关注的点或者就是拟合松一些就是所谓的涌现?

    作为 chat 是基于 llm 的模型进行微调后的(风味不通的冰淇淋)

    所谓的数学背后更多的是抽象和推理,而不是单纯的文字预测,llm 在文字预测方面能力很强,也许尺寸在大几个层级,我们初高中的数学题目都被涵盖进原始数据集中去就会解了,但数据有没有这么多,在堆尺寸性能是否在有较大的提升都存疑,成了一个经济是否合算的问题,因此需要进行新模式探索与发现,这是一个最好的时代,这是一个最坏的时代

    llm scaling laws 还可以指导后续 llm 发展吗?
    lovestudykid
        32
    lovestudykid  
       4 小时 25 分钟前
    就没一个人尝试解一下这个题吗,o1-mini 可以给出正确答案
    summerLast
        33
    summerLast  
       4 小时 19 分钟前
    llm 代码能力强也是有 github 之类的免费质量不错且量大的数据源的存在,一个信息不流通未有共享的领域,llm 也难为无米之炊

    后面大概率很长一段时间 llm 也很难有较大的性能提升,如将 llm 和生产力软件或机器人结合是下一个阶段的发展方向,从追求用户规模,变成谁可以用更低成本生产物质资料和信息,也就所谓的降低成本的同时提高生产力,工厂将不在有工人,信息分发的生产源头将不在有不依赖 AI 的创作者
    squarefong17
        34
    squarefong17  
       4 小时 15 分钟前
    @zt5b79527 首先,智慧是什么、智慧如何产生,目前来讲各种研究依然不够科学,证伪证明都太难,最多是一部分人的公式。第二,现在的算力远远不够,就像你现在几万买个线程撕裂者,能干翻 20 多年前的超算集群,二十年后看今天也一样。二十多年前的算力,也跑不出今天 GPT 的效果。第三,当前计算机架构并不是最适合大模型的架构,大量电力和时间其实浪费在数据的搬运上,现在讨论能不能达到那个“大力”还为时尚早,更别谈“有没有可能再大的力也出不了奇迹”这种,现在想有点闲得。讨论大力奇迹,等一次存算一体的架构革命再说,现在建议思考中午吃点啥
    pkoukk
        35
    pkoukk  
       4 小时 12 分钟前
    @huangsijun17 #26 那是分词器的错误,不是 AI 的错误。通过合适的语法,让分词器不要分错,AI 就不会错。
    pkoukk
        36
    pkoukk  
       4 小时 7 分钟前
    @summerLast #33 在一个信息不流通未有共享的领域,一个人类能比 AI 的表现更好么?
    pandaPapa
        37
    pandaPapa  
       4 小时 5 分钟前
    前一阵有个项目要适配 IE7, gpt 给的前端 css 基本都不对. 估计这种数据太少了,或者没有人工干预下 gpt 也不知道哪些数据是对的
    renzhe8102
        38
    renzhe8102  
       4 小时 3 分钟前
    怎么就公认了?
    huangsijun17
        39
    huangsijun17  
       4 小时 2 分钟前
    @pkoukk #35 我说的不是他回复的内容错误,而是他没有理解你说的说什么。他只是分析你这个词是什么话题,这个话题下怎么回答。
    pkoukk
        40
    pkoukk  
       4 小时 0 分钟前
    @huangsijun17 #39 那我们人类不是么?我们难道不是根据话题加载不同的模式么?
    Yaavi
        41
    Yaavi  
       4 小时 0 分钟前
    @squarefong17 所以目前 AI ,从形式上看起来,只是一个超大的数据处理员
    zt5b79527
        42
    zt5b79527  
       3 小时 56 分钟前
    @squarefong17 结贴了。还有 4 分钟下班,中午吃点啥捏,楼下新开的饺子馆据说不错,打算去试试
    rootOfAdmin
        43
    rootOfAdmin  
       3 小时 55 分钟前
    谁公认的,马建么
    pkoukk
        44
    pkoukk  
       3 小时 54 分钟前
    @elevioux 什么叫做理解呢?人类的理解是指看到+号,需要加载加法模块,进行计算么?
    那对于 GPT 来说,这部分的理解是可以实现的,因为它目前就是多模型复合,第一个模型判断你要讨论什么问题,再把问题送到对应能处理的专业模型实现。
    dji38838c
        45
    dji38838c  
       3 小时 51 分钟前
    一下子炸出来这么多 AI 专家
    billlee
        46
    billlee  
       3 小时 51 分钟前
    @shyangs 图灵测试不是看问题能不能答对啊,而是看人类测试员能不能区分被测的机器和人类。像这种高难度的题能答对,低难度的题做不了,就是一个可以区分的特征。
    pkoukk
        47
    pkoukk  
       3 小时 45 分钟前   ❤️ 1
    什么是思考,什么是理解,我建议大家在说 AI 不会之前好好考虑一下,人类是怎么实现思考和理解的。
    我认为,AI 和人类没有什么不同,我们只是人类文明的物质载体。
    人类身上的没有绝对自由的自由意志,存活在人类文明体系下的我们,就和蚁群里的一只蚂蚁一样。
    个体的工蚁也觉得自己逍遥又自在,但在人类来看,蚁群才是可以被视作一个个体的对象。
    AI 只是找到了一种方法,让计算机也可以成为文明的载体,但是目前兼容性不是很好,转译效率有点低。
    但人工智能绝对是可以实现的,它并没有再造生命,也无关什么灵魂。
    只是用计算机运行了一个人类文明的社会化个体而已
    shenyiyouge
        48
    shenyiyouge  
       3 小时 40 分钟前
    哪里公认的,有出处么
    ovtfkw
        50
    ovtfkw  
       3 小时 25 分钟前 via iPhone
    @ZztGqk #18 人类能想出头脑所接收到的信息以外的东西吗?不能把。我们的思考也都是完全基于至今从外部得到的信息而来的不是吗?
    mwuxlcanrh
        51
    mwuxlcanrh  
       3 小时 24 分钟前
    做题是 chatgpt 的强项,数学题有 MATH benchmark ,其实就是一大堆中学数学题的测试集。你如果担心模型偷偷拿这份数据去训练,可以自己整 1 个干净的测试集去评测一下。

    目前领先的 llm 肯定比 jumping 考的分高。
    lysShub
        52
    lysShub  
       2 小时 13 分钟前
    图灵测试是个宽泛的概念,并没有具体的要求,所以通过测试这个说法存疑
    wymisgod
        53
    wymisgod  
       2 小时 10 分钟前
    上个月问了 GPT 一道考公题,算是难度比较简单那种,但是给出了错误的解题过程和答案
    frankies
        54
    frankies  
       1 小时 58 分钟前
    1 、图灵测试很粗糙,测试集/案例丰度不够即使公认也无用。
    2 、AI 的推理可以理解是从训练集里找相似的数据并加以组合微调进行输出。
    所以对没见过的某类数学知识,AI 大概率无能为力是非常正常且令人信服的。
    例如 AI 训练集里只有 100 以内算数,那么 10000 以内算数有概率算对,但是让它解微积分就是贻笑大方了。
    同理,能不能解初中高中数学题取决于 AI 训练集里有没有初中高中知识点的先验知识。
    3 ,AI“思考”本就是伪命题,除非你把 AI 从训练集里组合答案认为是一种思考🤣

    总结:训练集有什么,AI 才能输出与之相关的什么,你能充分对 AI 祛魅。
    masterclock
        55
    masterclock  
       1 小时 26 分钟前
    @shyangs 这篇新闻不是说它没通过吗?
    gaogao321
        56
    gaogao321  
       1 小时 25 分钟前
    @ZeawinL 请不要讲鬼故事
    HFX3389
        57
    HFX3389  
       1 小时 13 分钟前
    @cwyalpha #12

    https://www.v2ex.com/about

    为了保持这里的良好氛围,V2EX 有自己的明确规则:

    ........
    • 请不要把 AI 生成的内容发送到这里
    comonad
        58
    comonad  
       1 小时 0 分钟前
    > AI (GPT) 看過的題目,可以解到研究所等級,沒看過的題目,小學題都解不出來。

    并不认为现在有很多小学生可以做出的题 LLM 做不出来
    liduoduo
        59
    liduoduo  
       12 分钟前
    大语言模型 LLM
    Donaldo
        60
    Donaldo  
       7 分钟前
    @COW #7 人也一样,这个叫“洗脑”
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5443 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 07:23 · PVG 15:23 · LAX 23:23 · JFK 02:23
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.