V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
FaustY
V2EX  ›  程序员

类 Manus 的 UI Agent 完全是个伪需求,前端已经没活路了

  •  
  •   FaustY · 22 小时 27 分钟前 · 2898 次点击

    现在 browser-use ( browser agent )和 Omniparser (computer agent), 都是给 LLM 去识别并操作 UI 界面的能力。

    但是将来的场景肯定是就一个 LLM 对话框跟用户交互,通过 MCP 直接调用美团、滴滴的后台接口,就可以完成订餐、打车、购票等高频场景。

    让用户额外安装 app, 再通过 LLM 去操作手机/电脑上的可视化 UI 界面,完全没有必要了啊。

    第 1 条附言  ·  17 小时 4 分钟前
    感谢 lawted 的推荐:《反对对话式界面( LUI )的理由》
    这篇文章对比了自然语言和 UI 控件的 [信息传输效率] 方面的差异,对思考交互模式的发展挺有帮助的
    英文原版: https://julian.digital/2025/03/27/the-case-against-conversational-interfaces/
    知乎翻译: https://zhuanlan.zhihu.com/p/1890449038282846235
    39 条回复    2025-04-03 19:01:44 +08:00
    wyntalgeer
        1
    wyntalgeer  
       22 小时 16 分钟前   ❤️ 2
    那你问问美团、滴滴舍不舍得砍掉他们的营销前台呢
    scarlex
        2
    scarlex  
       22 小时 12 分钟前
    要不你先做一个出来,革掉大厂的命?
    musi
        3
    musi  
       22 小时 4 分钟前   ❤️ 1
    要是大厂愿意把流量放出来你觉得你手机上还会有这么多 app?
    foolishcrab
        4
    foolishcrab  
       21 小时 54 分钟前 via iPhone
    纯视觉 agent 一样可以绕过所有 app 营销内容,难道到时候又要变成爬虫攻防?

    这个问题根本就不是技术问题,纯粹是 mcp 和 llm 后续发展能不能让传统厂商低头的商业问题。虽然过程有争议,但是 manus 这种形式目前来看是最不可能的未来方向
    june4
        5
    june4  
       21 小时 52 分钟前   ❤️ 2
    OP 你喜欢在点外卖时 AI 一条条语音报给你听然后你花个十分钟听完文字描述的各种美味?再用语音细致地确认要点哪个?
    aboutier
        6
    aboutier  
       21 小时 50 分钟前
    未来马斯克的脑机接口, 谁 tm 还玩手机,直接内置芯片不好吗?

    到时候大家上架的都是马斯克的脑机接口商店。
    nathandoge
        7
    nathandoge  
       21 小时 48 分钟前
    基本上绝大部分手机 app ,未来都可以通过 agent 一句话来搞定
    zzhirong
        8
    zzhirong  
       21 小时 47 分钟前
    对话框也属于 UI ,我感觉并不适合所有场景,就订餐来说,食物长什么样的,店铺评价如何,要几双筷子,有哪些优惠,如何支付,外卖送到哪了等等,这些信息用自然语言来呈现不一定最佳。还有打车,你如何精确描述你的目的地,以及到哪接你,以及你可接受的价格。
    mumbler
        9
    mumbler  
       21 小时 40 分钟前
    @june4
    @zzhirong
    agent 可以显示一个页面来展示菜单,点击就行,不一定非要语音交互
    renmu
        10
    renmu  
       21 小时 34 分钟前 via Android
    连网页都嫌弃用户可以屏蔽广告,还想做自动化,把自己的命给革了?
    xiaohupro
        11
    xiaohupro  
       21 小时 23 分钟前
    理想很美好,这就像 GC 主义的终极目标,是个美好的目标,但是奈何公司和平台之间是要考虑自己利益的,能实现完美的共赢几乎不可能。
    zzhirong
        12
    zzhirong  
       21 小时 19 分钟前
    @mumbler 你要选择你要点外卖功能,(搜索你想吃的)然后选择店铺,选择你要点的东西,选择收货地址,写备注,这不就是目前 app 在做的事情么?我想不到哪里还可以优化。
    sn0wdr1am
        13
    sn0wdr1am  
       21 小时 9 分钟前   ❤️ 6
    你以为的是:

    美团,滴滴,把接口交给类 Manus 的 UI Agent ,美团,滴滴药丸。

    实际上可能的是:

    美团,滴滴,等每个公司搞一个 AI ,UI Agent 。


    实际上,这十几年来,资本在干的事情是,把用户从公共互联网,引流到自己的私域( APP ,小程序,网站,平台)。

    资本好不容易把用户圈进自己的鱼塘,会轻易让别人抢走?

    想多了。

    后面会怎么发展,我们静观其变好了。
    mumbler
        14
    mumbler  
       21 小时 9 分钟前
    @zzhirong #12 这是人机交互,不是 APP 那种,一个界面能解决所有问题,页面是 AI 实时写的,直达目标,不需要你点一层一层目录进去,收货地址,支付更是不需要自己动手
    june4
        15
    june4  
       20 小时 59 分钟前
    @mumbler 想象一下浏览器也是 ai 接口,关闭个 tab 得打字 :close-tab 或说出来。点外卖没比关个 tab 复杂多少,对这种极简场景我是想象不了走命令比直接操作会更高效。直接操作相当于按快捷键,命令相当于当场编程。
    zzhirong
        16
    zzhirong  
       20 小时 59 分钟前
    我认为,信息压缩也是有极限的,有些东西无论以何种方式呈现,最终还是要呈现,你可以改进压缩算法,但是它的极限就在那,你没办法不说出你的需求,就能得到结果,最多做一些优化(比如常用地址只要选择就可以了,而不用重复输入)。话说,真有人会感觉目前 App 订餐以及打车需要优化么(普通人一天最多也就一两次吧)?
    mumbler
        17
    mumbler  
       20 小时 55 分钟前
    @june4 #15 都 AI 了,还用 tab 吗,压根不会用浏览器这种东西了,整个系统只有一个 UI ,就是人机对话 agent ,想要看什么给你显示什么,内容全是为你实时生成的
    zzhirong
        18
    zzhirong  
       20 小时 52 分钟前
    @mumbler 你要吃什么,在哪个店铺,要点多少数量,收货地址是哪,餐具要多少,有无口味要求(可能一个人吃,也可能几个人吃)这些可以做哪些优化?一个界面呈现所有选项么?
    mumbler
        19
    mumbler  
       20 小时 46 分钟前   ❤️ 1
    @zzhirong #18 想象一下,大领导有一个美女秘书,到饭点了,秘书会拿个手机让领导亲自点么?

    真实场景是: 美女用温柔的声音问领导中午想吃点什么,附近有个素菜馆不错要不要试试,领导说想吃点肉,好,那咱们吃个秘制猪脚饭吧,领导说行吧,一会饭就送来了
    lawted
        20
    lawted  
       20 小时 39 分钟前   ❤️ 3
    推荐阅读 https://julian.digital/2025/03/27/the-case-against-conversational-interfaces/
    FaustY
        21
    FaustY  
    OP
       20 小时 17 分钟前
    @lawted 这个好,感谢推荐
    zzhirong
        22
    zzhirong  
       20 小时 14 分钟前
    @mumbler 那个店关门了怎么办,领导一会要去另一栋楼开会要修改一下地址怎么办,领导最近信用卡到期了,要更换支付方式,领导夫人来了,需要多点一些,夫人喜欢吃淡点的,领导除了吃猪脚饭,还能吃什么,总不可能是随便吧,领导想给自己的父母点一些该怎么办。我的核心观点就是,想要精确表达需求,就要有足够的输入,你可以优化输入(比如,最近点过什么,我可以说,就吃上次点的),但是你不能省略输入信息,不然,你得到的结果很可能不是你想要的,各种 UI 都在优化这种输入,比如从常用地址中选择而不需要手动输入地址,你没办法做到不精确描述需求,而想得到一个精确的结果,不然就是开盲盒了(点了什么不知道,送到哪去了不知道,是用美团月付还是用信用卡支付的,不知道,餐具有几套,不知道,我最近牙疼,是不是清淡的,不知道)。
    mumbler
        23
    mumbler  
       20 小时 8 分钟前   ❤️ 3
    @zzhirong #22 你还是逃离不了现有 APP 思维,你身边有个真人助理了,有什么是人不能解决的?
    param
        24
    param  
       19 小时 20 分钟前 via Android
    这得看 AI 跑不跑得赢人机验证。如果人机验证能持续卡住 AI ,那么各大 app 继续限制机器人操作。
    FaustY
        25
    FaustY  
    OP
       18 小时 52 分钟前
    @param 最近试了试 browser use + gpt4o ,图形验证码三个网站都没过去。
    不可否认的是,现有的图形验证码拦不住有视觉的 UI Agent 只是时间问题了。
    但仔细一想,区块链 + 数币 + 网络实名制发展这么久,人机验证发挥的安全作用也许会越来越小
    min
        26
    min  
       18 小时 23 分钟前
    "通过 MCP 直接调用美团、滴滴的后台接口,就可以完成订餐、打车、购票等高频场景"
    目前这些平台,以及大的品牌有在和手机厂之类的搞此类合作探索
    流量怎么分、蛋糕怎么切,应该还没有定论
    xsen
        27
    xsen  
       17 小时 58 分钟前
    @june4 #5 就一个 ai 的 app ,点外卖的时候直接语音交互,菜单直接返回图片;需要深入了解,可以直接语音交互,或者看图片。不会有各种各样的乱七八糟的 app——因为一个 app 就够了
    lawler
        28
    lawler  
       17 小时 58 分钟前
    @june4 #5 如果你觉得 AI 是这个样子,那你的想象力确实很匮乏。

    参考现在 chatGPT 的语音交互能力。以 AI 外卖为例子,你只需要告诉 AI 你需要一份外卖,AI 可能会按照如:
    1 、现在时刻决定早餐午餐晚餐
    2 、你的历史订单决定口味偏好。
    3 、你的历史订单金额决定价格区间。
    4 、你的地理位置周边好评/健康/举例等你关注你的条件。
    4 、其它如时令食物,近期其它来源(如淘宝搜过腊肠等)偏好。
    5 、你的其它指令:如今天想吃面食为主的外卖,今天发工资想吃一顿好的外卖等信息。

    得到精准的结果让你选择。且只播报餐品和价格,3-5 个可选项,太少不行,太多也不行。
    你需要做的,只是通过生物识别(脸部,声纹等)确认信息和授权支付。
    没有复杂需求时,整个交互过程可以在 1 分钟内完成。对于饮食习惯这要的需求,其实 AI 比你更了解你。


    不要觉得 AI 是生成你需要的内容。你要认为 AI 是帮你过滤你不需要的内容。
    xsen
        29
    xsen  
       17 小时 56 分钟前
    @min #26 本质上只有一个问题——比如某个某团、某滴跟了 mcp 的模式,美团、滴滴你跟不跟。整个营销前台几乎都可以直接砍掉,这效率的提升、成本的节省就不少
    june4
        30
    june4  
       17 小时 38 分钟前
    @lawler 牛逼了,比本人还懂,终级管家全面接管是吧,能发展到把工作和活着也接管了就最好了,本人只负责吃和睡
    Leviathann
        31
    Leviathann  
       17 小时 30 分钟前
    在浏览完餐单前 你怎么知道你想吃什么
    n
        32
    n  
       17 小时 3 分钟前
    非常同意。
    cyrivlclth
        33
    cyrivlclth  
       16 小时 58 分钟前
    你这不是要改变 APP 啊,大胆点,直接放弃手机吧
    macaodoll
        34
    macaodoll  
       16 小时 15 分钟前
    这个东西就是理想很丰满现实很骨感,自家 app 上全是机器人在操作,广告给谁看?下单套路直接没人踩了?IM 软件各种骗子泛滥?再往下不敢想能有多乱
    min
        35
    min  
       16 小时 6 分钟前
    @xsen
    咱放弃的阵地,对手就会去占领。
    不要营销前台了,用户的时间和注意力都不要了?
    用户自动自发就来咱这儿下单了?
    就这样把营销阵地用户触点拱手让给手机厂、车机厂、智能音箱厂、智能电视厂?

    那还不如直接关门算了
    hefish
        36
    hefish  
       15 小时 57 分钟前
    今后人只要躺床上挂个葡萄糖就行了,啥都不用做,都有 ai 帮着做了。
    其他器官出生的时候就切掉,没啥用啊。什么 jj 啊,耳朵啊,鼻子啊,都切了,然后出生时候就放床上,挂水挂到死。。。
    cheng6563
        37
    cheng6563  
       15 小时 53 分钟前
    你看哪家新闻网还放 RSS ?
    param
        38
    param  
       15 小时 26 分钟前 via Android
    点餐这个需求,只有在选菜的时候,ai 才派上用场。
    你可以说我今天想吃清淡的,价格在 20 以下。ai 根据你的口味,筛选出符合价位并且排除近几天吃过的菜免得重复,再排除你不吃的辣味、香菜,帮你列出可能符合口味的。实际上就是餐厅点菜过程当中服务员的角色。
    param
        39
    param  
       15 小时 26 分钟前 via Android
    那就是 rag
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2314 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 02:28 · PVG 10:28 · LAX 19:28 · JFK 22:28
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.