最近看了太多对 Apple Intelligence 架构的猜测,包括 v2 里各种帖子、各种舅舅传言以及各路评测的猜测跟推测,在此之中很多的推测跟苹果自己公布过的架构有较大冲突,也解释不了为何 HK 商店有 Apple Intelligence 但是没有 ChatGPT 的介绍。
这篇文章是我根据苹果官方公布的架构做的一个简单总结和个人推测,如果有误,只能说明我的阅读理解水平不如 GPT 。
Disclaimer: 我并不了解如果苹果的基础模型审核通过需要什么努力跟准备,本文只会讨论技术和可行性。
端上自研小模型(简单工作)+ 远端自研大模型(复杂工作)+ 外部模型(专家,比如 ChatGPT )= Apple Intelligence
结论来说,苹果在基础模型( Foundation Models )上的努力是显而易见的:主力目标是做用户的助手,重点关注跟随用户指示、调用已有 App 增强工作流的目标,同时力保安全。至于其他的外部能力,苹果目前的目标还是靠引入第三方(如美国引入的 ChatGPT ),自己只做端上小 case 。
我不是安全专家,苹果在安全方面专门写了一篇博客,介绍了如何在架构上使得远端的基础模型如何保证用户的隐私和安全,但是更多细节还没有公布,只能算一个 overview ,目前的意义不是很大。注意这个只包含自家的基础模型,并未提到调用 ChatGPT 之类的隐私细节。
Disclaimer: 再次注意,这里都是个人推测,跟实际是什么情况完全没有直接联系。
1
WorldDominator 64 天前
今天刚看到一个视频,现在 AI 的总结推送能力其实可以总结中文,至少端侧模型有一部分多语言能力
|
2
LemonJeer 64 天前 via iPhone
很專業,很厲害。
但我只關心什麼地區版本在國內能調用 chatgpt🫣 |
3
acorngyl 64 天前
好全面。感谢 OP 分享!
感觉调用 ChatGPT 的 Shortcuts 和 Apple Intelligence 还是有很大区别的。苹果想做应该不仅仅是个聊天机器,考虑更多是交互层面的改变。比如,现在的语音操作助手都是语音转文字,cv 识别 app 图标,再模拟点击,这种操作效率太低了。触屏 UI 是给视觉和点击交互做的,受页面大小限制,会有布局和页面层级;而指令操作是不用管页面层级的,如果 app 给系统 api ,系统可以“一键”操作。语音交互现在比较麻烦的是呈现方式,例如语音让外卖 app 帮找个炒面,现在 agent 是帮打开 app ,搜索输入“炒面”,app 展示好几屏,然后呢?要用户自己动手滑屏幕找吗?这样操作和语音交互就割裂了。 总之,语音交互,除非像当年多点触控一样,可以改变交互体验才行。如果就是多个聊天,参考带触屏的 window 笔电,几乎没存在的价值。 |