现在 browser-use ( browser agent )和 Omniparser (computer agent), 都是给 LLM 去识别并操作 UI 界面的能力。
但是将来的场景肯定是就一个 LLM 对话框跟用户交互,通过 MCP 直接调用美团、滴滴的后台接口,就可以完成订餐、打车、购票等高频场景。
让用户额外安装 app, 再通过 LLM 去操作手机/电脑上的可视化 UI 界面,完全没有必要了啊。
![]() |
1
wyntalgeer 22 小时 16 分钟前 ![]() 那你问问美团、滴滴舍不舍得砍掉他们的营销前台呢
|
![]() |
2
scarlex 22 小时 12 分钟前
要不你先做一个出来,革掉大厂的命?
|
![]() |
3
musi 22 小时 4 分钟前 ![]() 要是大厂愿意把流量放出来你觉得你手机上还会有这么多 app?
|
4
foolishcrab 21 小时 54 分钟前 via iPhone
纯视觉 agent 一样可以绕过所有 app 营销内容,难道到时候又要变成爬虫攻防?
这个问题根本就不是技术问题,纯粹是 mcp 和 llm 后续发展能不能让传统厂商低头的商业问题。虽然过程有争议,但是 manus 这种形式目前来看是最不可能的未来方向 |
![]() |
5
june4 21 小时 52 分钟前 ![]() OP 你喜欢在点外卖时 AI 一条条语音报给你听然后你花个十分钟听完文字描述的各种美味?再用语音细致地确认要点哪个?
|
![]() |
6
aboutier 21 小时 50 分钟前
未来马斯克的脑机接口, 谁 tm 还玩手机,直接内置芯片不好吗?
到时候大家上架的都是马斯克的脑机接口商店。 |
![]() |
7
nathandoge 21 小时 48 分钟前
基本上绝大部分手机 app ,未来都可以通过 agent 一句话来搞定
|
8
zzhirong 21 小时 47 分钟前
对话框也属于 UI ,我感觉并不适合所有场景,就订餐来说,食物长什么样的,店铺评价如何,要几双筷子,有哪些优惠,如何支付,外卖送到哪了等等,这些信息用自然语言来呈现不一定最佳。还有打车,你如何精确描述你的目的地,以及到哪接你,以及你可接受的价格。
|
10
renmu 21 小时 34 分钟前 via Android
连网页都嫌弃用户可以屏蔽广告,还想做自动化,把自己的命给革了?
|
![]() |
11
xiaohupro 21 小时 23 分钟前
理想很美好,这就像 GC 主义的终极目标,是个美好的目标,但是奈何公司和平台之间是要考虑自己利益的,能实现完美的共赢几乎不可能。
|
12
zzhirong 21 小时 19 分钟前
@mumbler 你要选择你要点外卖功能,(搜索你想吃的)然后选择店铺,选择你要点的东西,选择收货地址,写备注,这不就是目前 app 在做的事情么?我想不到哪里还可以优化。
|
13
sn0wdr1am 21 小时 9 分钟前 ![]() 你以为的是:
美团,滴滴,把接口交给类 Manus 的 UI Agent ,美团,滴滴药丸。 实际上可能的是: 美团,滴滴,等每个公司搞一个 AI ,UI Agent 。 实际上,这十几年来,资本在干的事情是,把用户从公共互联网,引流到自己的私域( APP ,小程序,网站,平台)。 资本好不容易把用户圈进自己的鱼塘,会轻易让别人抢走? 想多了。 后面会怎么发展,我们静观其变好了。 |
14
mumbler 21 小时 9 分钟前
@zzhirong #12 这是人机交互,不是 APP 那种,一个界面能解决所有问题,页面是 AI 实时写的,直达目标,不需要你点一层一层目录进去,收货地址,支付更是不需要自己动手
|
![]() |
15
june4 20 小时 59 分钟前
@mumbler 想象一下浏览器也是 ai 接口,关闭个 tab 得打字 :close-tab 或说出来。点外卖没比关个 tab 复杂多少,对这种极简场景我是想象不了走命令比直接操作会更高效。直接操作相当于按快捷键,命令相当于当场编程。
|
16
zzhirong 20 小时 59 分钟前
我认为,信息压缩也是有极限的,有些东西无论以何种方式呈现,最终还是要呈现,你可以改进压缩算法,但是它的极限就在那,你没办法不说出你的需求,就能得到结果,最多做一些优化(比如常用地址只要选择就可以了,而不用重复输入)。话说,真有人会感觉目前 App 订餐以及打车需要优化么(普通人一天最多也就一两次吧)?
|
17
mumbler 20 小时 55 分钟前
@june4 #15 都 AI 了,还用 tab 吗,压根不会用浏览器这种东西了,整个系统只有一个 UI ,就是人机对话 agent ,想要看什么给你显示什么,内容全是为你实时生成的
|
18
zzhirong 20 小时 52 分钟前
@mumbler 你要吃什么,在哪个店铺,要点多少数量,收货地址是哪,餐具要多少,有无口味要求(可能一个人吃,也可能几个人吃)这些可以做哪些优化?一个界面呈现所有选项么?
|
19
mumbler 20 小时 46 分钟前 ![]() @zzhirong #18 想象一下,大领导有一个美女秘书,到饭点了,秘书会拿个手机让领导亲自点么?
真实场景是: 美女用温柔的声音问领导中午想吃点什么,附近有个素菜馆不错要不要试试,领导说想吃点肉,好,那咱们吃个秘制猪脚饭吧,领导说行吧,一会饭就送来了 |
![]() |
20
lawted 20 小时 39 分钟前 ![]() 推荐阅读 https://julian.digital/2025/03/27/the-case-against-conversational-interfaces/
|
22
zzhirong 20 小时 14 分钟前
@mumbler 那个店关门了怎么办,领导一会要去另一栋楼开会要修改一下地址怎么办,领导最近信用卡到期了,要更换支付方式,领导夫人来了,需要多点一些,夫人喜欢吃淡点的,领导除了吃猪脚饭,还能吃什么,总不可能是随便吧,领导想给自己的父母点一些该怎么办。我的核心观点就是,想要精确表达需求,就要有足够的输入,你可以优化输入(比如,最近点过什么,我可以说,就吃上次点的),但是你不能省略输入信息,不然,你得到的结果很可能不是你想要的,各种 UI 都在优化这种输入,比如从常用地址中选择而不需要手动输入地址,你没办法做到不精确描述需求,而想得到一个精确的结果,不然就是开盲盒了(点了什么不知道,送到哪去了不知道,是用美团月付还是用信用卡支付的,不知道,餐具有几套,不知道,我最近牙疼,是不是清淡的,不知道)。
|
![]() |
24
param 19 小时 20 分钟前 via Android
这得看 AI 跑不跑得赢人机验证。如果人机验证能持续卡住 AI ,那么各大 app 继续限制机器人操作。
|
25
FaustY OP @param 最近试了试 browser use + gpt4o ,图形验证码三个网站都没过去。
不可否认的是,现有的图形验证码拦不住有视觉的 UI Agent 只是时间问题了。 但仔细一想,区块链 + 数币 + 网络实名制发展这么久,人机验证发挥的安全作用也许会越来越小 |
![]() |
26
min 18 小时 23 分钟前
"通过 MCP 直接调用美团、滴滴的后台接口,就可以完成订餐、打车、购票等高频场景"
目前这些平台,以及大的品牌有在和手机厂之类的搞此类合作探索 流量怎么分、蛋糕怎么切,应该还没有定论 |
27
xsen 17 小时 58 分钟前
@june4 #5 就一个 ai 的 app ,点外卖的时候直接语音交互,菜单直接返回图片;需要深入了解,可以直接语音交互,或者看图片。不会有各种各样的乱七八糟的 app——因为一个 app 就够了
|
28
lawler 17 小时 58 分钟前
@june4 #5 如果你觉得 AI 是这个样子,那你的想象力确实很匮乏。
参考现在 chatGPT 的语音交互能力。以 AI 外卖为例子,你只需要告诉 AI 你需要一份外卖,AI 可能会按照如: 1 、现在时刻决定早餐午餐晚餐 2 、你的历史订单决定口味偏好。 3 、你的历史订单金额决定价格区间。 4 、你的地理位置周边好评/健康/举例等你关注你的条件。 4 、其它如时令食物,近期其它来源(如淘宝搜过腊肠等)偏好。 5 、你的其它指令:如今天想吃面食为主的外卖,今天发工资想吃一顿好的外卖等信息。 得到精准的结果让你选择。且只播报餐品和价格,3-5 个可选项,太少不行,太多也不行。 你需要做的,只是通过生物识别(脸部,声纹等)确认信息和授权支付。 没有复杂需求时,整个交互过程可以在 1 分钟内完成。对于饮食习惯这要的需求,其实 AI 比你更了解你。 不要觉得 AI 是生成你需要的内容。你要认为 AI 是帮你过滤你不需要的内容。 |
29
xsen 17 小时 56 分钟前
@min #26 本质上只有一个问题——比如某个某团、某滴跟了 mcp 的模式,美团、滴滴你跟不跟。整个营销前台几乎都可以直接砍掉,这效率的提升、成本的节省就不少
|
31
Leviathann 17 小时 30 分钟前
在浏览完餐单前 你怎么知道你想吃什么
|
![]() |
32
n 17 小时 3 分钟前
非常同意。
|
![]() |
33
cyrivlclth 16 小时 58 分钟前
你这不是要改变 APP 啊,大胆点,直接放弃手机吧
|
34
macaodoll 16 小时 15 分钟前
这个东西就是理想很丰满现实很骨感,自家 app 上全是机器人在操作,广告给谁看?下单套路直接没人踩了?IM 软件各种骗子泛滥?再往下不敢想能有多乱
|
![]() |
35
min 16 小时 6 分钟前
@xsen
咱放弃的阵地,对手就会去占领。 不要营销前台了,用户的时间和注意力都不要了? 用户自动自发就来咱这儿下单了? 就这样把营销阵地用户触点拱手让给手机厂、车机厂、智能音箱厂、智能电视厂? 那还不如直接关门算了 |
36
hefish 15 小时 57 分钟前
今后人只要躺床上挂个葡萄糖就行了,啥都不用做,都有 ai 帮着做了。
其他器官出生的时候就切掉,没啥用啊。什么 jj 啊,耳朵啊,鼻子啊,都切了,然后出生时候就放床上,挂水挂到死。。。 |
![]() |
37
cheng6563 15 小时 53 分钟前
你看哪家新闻网还放 RSS ?
|
![]() |
38
param 15 小时 26 分钟前 via Android
点餐这个需求,只有在选菜的时候,ai 才派上用场。
你可以说我今天想吃清淡的,价格在 20 以下。ai 根据你的口味,筛选出符合价位并且排除近几天吃过的菜免得重复,再排除你不吃的辣味、香菜,帮你列出可能符合口味的。实际上就是餐厅点菜过程当中服务员的角色。 |
![]() |
39
param 15 小时 26 分钟前 via Android
那就是 rag
|