V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
mmdsun
V2EX  ›  问与答

现在有哪些支持实时视频/视觉的大模型?

  •  1
     
  •   mmdsun · 3 天前 · 462 次点击
    请问现在国内外有哪些支持实时视频视觉的大模型 API ,大家有推荐的吗?(优先国内模型 海外也行)

    就像之前 Openai 发布会那种,可以视频通话,实时对话那种的。
    或者 Copilot Pro 那种,实时捕获电脑桌面,指导用户玩游戏的。

    想用他们分析视频流,分析结果输出 json 等格式存储,不知思路是否可行。谢谢。
    2 条回复    2025-03-31 13:25:51 +08:00
    hwdq0012
        1
    hwdq0012  
       3 天前   ❤️ 1
    视频也是拆成单帧送去推理的,ultraclity yolo 这种不算什么大模型吧,但是能把视频做成结构化数据,再用大模型加工
    suke119
        2
    suke119  
       3 天前   ❤️ 1
    Qwen2.5-Omni . 千问的 ai 对话那里点击 有个实时视频对话

    [Qwen2.5-Omni 和 minicpm-v 对比]( https://stable-learn.com/zh/qwen-omni-vsminicpm-v/)
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2208 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 18ms · UTC 15:54 · PVG 23:54 · LAX 08:54 · JFK 11:54
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.