AI 技术在音视频与图像压缩技术领域有大规模应用吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1064 天前的主题，其中的信息可能已经有所发展或是发生改变。

今天从差评那里了解了下 DLSS 与 FSR 2.0 ，意识到有损数据都可以使用 AI 来增强展示，音视频、图像是这类情况的典型的应用场景。

记得 2018 年的时候学术界就有类似的东西了，那么现在这类技术在音视频与图像领域大规模普及了吗？

图像

fsr

dlss

视频

13 条回复 • 2022-04-06 15:37:43 +08:00

dcty

2022-04-05 15:52:57 +08:00 via iPhone

曾经某个版本的 MIUI 用了图像超分辨率

kokutou

2022-04-05 16:09:10 +08:00 via Android

大规模？没有。

feather12315

2022-04-05 16:13:27 +08:00 via Android

@kokutou #2 这是什么原因呢？效果不好吗？

imn1

2022-04-05 16:16:56 +08:00

AI 是时间换空间的思想
目前在空间成本大幅度降低、时间成本却在“上升”的环境下，这样的技术很难普及发展

AI 更多用在无法直接从空间提取结果（时间成本远高于 0 ）的工作

c0xt30a

2022-04-05 17:49:34 +08:00

@feather12315 算力和功率的不够。

felixcode

2022-04-05 20:00:01 +08:00

用 SVP 4 Pro 来给视频做插帧，提高帧率。

ALLROBOT

2022-04-05 20:07:57 +08:00 via Android

如果有 AI 优化有损或无损压缩 Gif 体积的工具，务必推荐一个，我用 FFPMEG+Gifsicle 工具的

jdhao

2022-04-05 20:27:01 +08:00 via Android

有，短视频应用或者会议应用都可能会用超分增强视频画质

murmur

2022-04-06 08:01:34 +08:00

这东西是跟细节是矛盾的，脑部的细节是细节么，拿来补卡通片还可以，前几天有人想着用 AI 去猜心电图，那不是离谱

feather12315

2022-04-06 11:33:50 +08:00 via Android

@murmur #9 我认为这类似有损压缩，有损压缩可行，联想细节也是可行的

murmur

2022-04-06 11:34:43 +08:00

@feather12315 那就是 DLSS 啊

czfy

2022-04-06 12:01:20 +08:00

DLSS 2018 年就随 20 系一同正式发布了，虽然 1.0 版本很垃圾，但确实是发布了
理论上学界肯定要比这更早

为什么没有大规模普及？
因为钱
训练模型多费钱，估计从差评这种垃圾自媒体是不会了解到的

你以为老黄投这么大笔钱训练模型做 DLSS 是做慈善？
他当时做这件事的初衷是通过这个来绑定游戏业界继而绑定玩家，其实就是重复 CUDA 已经验证过的成功路径
业界通过 DLSS 可以在做游戏的时候更少考虑资源问题，特效做太多了，害怕玩家投诉优化差？上 DLSS ！
玩家想同时兼顾画面、流畅性、成本？开 DLSS ！
DLSS 闭源且只能在 N 卡上用，那么业界和玩家就会进一步被绑在 N 卡生态上

然而现在老黄卖矿卡卖得这么爽，DLSS 3.0 还会不会有就不清楚了

Namoe

2022-04-06 15:37:43 +08:00

2018 年刚好是一个很微妙的节点，Google 于 18 年发表了两篇深度学习的有损压缩论文，呈现的效果在客观指标上超越了 BPG ，目前学界的一系列工作都或多或少地继承或参考了这两篇论文。

但工业界是否有大规模应用呢，据我了解暂时是没有的。个人觉得一个重要原因是尚未有完整的标准化工作。在图像 /视频压缩领域，工业界的标准（及事实标准）对于其应用是非常重要的。如果你使用了某个方法压缩，但是在客户所使用的设备上没有支持其解压缩的话，对于客户而言是完全的负收益。

国际 /国内的深度学习图像压缩标准化工作最近正在推进，可以搜索 JPEG AI 关键词来看下。之所以标准化工作推进缓慢，一个主要原因还是 AI 所用的算法在时间、算力上消耗过大，大家还在探索如何能达到压缩率-失真度-速度-算力的好的平衡。