被誉为计算机视觉领域 “奥斯卡” 的 CVPR 刚刚落下帷幕,2021 年首届 “新内容 新交互” 全球视频云创新挑战赛正火热进行中,这两场大赛都不约而同地将关注点放在了视频目标分割领域,本文将详细分享来自阿里达摩院的团队在 CVPR DAVIS 视频目标分割比赛夺冠背后的技术经验,为本届大赛参赛选手提供 “他山之石”。
作者|负天
与图像识别不同,AI 分析理解视频的技术门槛较高。长期以来,业界在视频 AI 技术的研究上鲜有重大突破。以 CVPR 会议难度最高的比赛之一 DAVIS ( Densely Annotated Video Segmentation )为例,该比赛需要参赛团队精准处理复杂视频中物体快速运动、外观变化、遮挡等信息,过去几年,全球顶级科技在该比赛中的成绩从未突破 80 分,而达摩院的模型最终在 test-challenge 上取得了 84.1 的成绩。
DAVIS 的数据集经过精心挑选和标注,视频分割中比较难的点都有体现,比如:快速运动、遮挡、消失与重现、形变等。DAVIS 的数据分为 train ( 60 个视频序列),val ( 30 个视频序列),test-dev ( 30 个视频序列),test-challenge ( 30 个视频序列)。其中 train 和 val 是可以下载的,且提供了每一帧的标注信息。对于半监督任务,test-dev 和 test-challenge,每一帧的 RGB 图片可以下载,且第一帧的标注信息也提供了。算法需要根据第一帧的标注 mask,来对后续帧进行分割。分割本身是 instance 级别的。
阿里达摩院提供了一种全新的空间约束方法,打破了传统 STM 方法缺乏时序性的瓶颈,可以让系统基于视频前一帧的画面预测目标物体下一帧的位置;此外,阿里还引入了语义分割中的精细化分割微调模块,大幅提高了分割的精细程度。最终,精准识别动态目标的轮廓边界,并且与背景进行分离,实现像素级目标分割。
达摩院的算法基于 2019 年 CVPR 的 STM 做了进一步改进。STM 的主要思想在于,对于历史帧,每一帧都编码为 key-value 形式的 feature 。预测当前帧的时候,以当前帧的 key 去和历史帧的 key 做匹配。匹配的方式是 non-local 的。这种 non-local 的匹配,可以看做将当前 key,每个坐标上的 C 维特征,和历史每一帧在这个坐标上的 C 维特征做匹配。匹配得到的结果,作为一个 soft 的 index,去读取历史 value 的信息。读取的特征和当前帧的 value 拼接起来,用于后续的预测。
STM 的特征匹配方式,提供了一种空间上的长依赖, 类似于 Transformer 中,通过 self-attention 来做序列关联。这种机制,能够很好地处理物体运动、外观变化、遮挡等。但也有一个问题,就是缺乏时序性,缺少短时依赖。当某一帧突然出现和目标相似的物体时,容易产生误召回。在视频场景中,很多情况下,当前帧临近的几帧,对当前帧的影响要大于更早的帧。基于这一点,达摩院提出依靠前一帧结果,计算 attention 来约束当前帧目标预测的位置,相当于对短期依赖的建模。
具体的方法如下图所示:
下图为空间 attention 的可视化结果,可以看到大致对应了前景的位置。
达摩院引入了语义分割中的感受野增强技术 ASPP 和精细化分割的微调( refinement )模块。ASPP 作用于 memory 读取后的特征,用于融合不同感受野的信息,提升对不同尺度物体的处理能力。
达摩院提出了一个简单但是有效的训练策略,减少了训练阶段和测试阶段存在的差异,提升了最终效果。
原始 STM 训练时,会随机从视频中采样 3 帧。这三帧之间的跳帧间隔,随着训练逐渐增大,目的是增强模型鲁棒性。但达摩院发现,这样会导致训练时和测试时不一致,因为测试时,是逐帧处理的。为此,在训练的最后阶段,达摩院将跳帧间隔重新减小,以保证和测试时一致。
backbone: 达摩院使用了 ResNeST 这个比较新的 backbone,它可以无痛替换掉原 STM 的 resnet 。在结果上有比较明显提升。
测试策略: 达摩院使用了多尺度测试和 model ensemble 。不同尺度和不同 model 的结果,在最终预测的 map 上,做了简单的等权重平均。
显存优化: 达摩院做了一些显存优化方面的工作,使得 STM 在多目标模式下,可以支持大尺度的训练、测试,以及支持较大的 memory 容量。
数据: 训练数据上,达摩院使用了 DAVIS 、Youtube-VOS,以及 STM 原文用到的静态图像数据库。没有其他数据。
达摩院的模型,最终在 test-challenge 上取得了 84.1 的成绩。
在 test-dev 上的消融实验。达摩院复现的 STM 达到了和原文一致的结果。在各种 trick 的加持下, 得到了 11 个点的提升。
随着互联网技术、5G 技术等的发展,短视频、视频会议、直播的场景越来越多,视频分割技术也将成为不可或缺的一环。比如,在视频会议中,视频分割可以精确区分前背景,从而对背景进行虚化或替换;在直播中,用户只需要站在绿幕前,算法就实时替换背景,实现一秒钟换新直播间;在视频编辑领域,可以辅助进行后期制作。
本届全球视频云创新挑战赛是由阿里云联手英特尔主办,与优酷战略技术合作,面向企业以及个人开发者的音视频领域的挑战赛。算法挑战赛道聚焦视频人像分割领域,视频分割将传统图像分割问题延伸到视频领域,可服务于视频理解处理和编辑等任务。
本次大赛提供一个大规模高精度视频人像分割数据集,供参赛选手训练模型。不同于传统的二值分割目标(即人像区域标注为 1,其他区域标注为 0 ),本竞赛重点关注分割各个不同的人象实例,目标是从视频中精确、稳定分割出显著的(单个或多个)人体实例,以及其相应附属物、手持物。
本次比赛分为初赛数据集和复赛数据集。复赛数据集等初赛结束后公布,复赛中也可以使用初赛数据集。
初赛环节提供训练集供选手下载,训练数据集共 1650 段视频。训练集中每个样本由 RGB 图像序列和掩码图像序列组成,RGB 图像序列为原始视频图像序列,格式为 jpg 文件;掩码图像为人体分割的真值 (ground-truth),格式为 png 文件,掩码图像中不同的像素值表示不同的人体实例,0 为背景区域,非 0 为前景区域(例如 1 为人像 1,2 为人像 2 )。RGB 和 png 文件是一一对应关系。数据集每个视频的长度为 80 帧~ 150 帧,每个视频的分辨率不完全相同。预赛的测试数据为 48 段视频。测试集只提供 RGB 图像序列。如出现多个人像实例,每个人像可以任意顺序标注,评测时将被独立计算。
本次比赛允许参数选手使用其他公开数据集和公开模型,但参赛选手的模型必须满足能在限定时间内复现的要求,复现精度小于规定误差。
对于算法恢复的视频结果,本次比赛采用 Mean J And F 做为评价指标。J 为描述分割人体区域精度的 Jaccard Index,F 为描述分割人体的边界精确度。具体请参照参考文献 1 。每个视频允许选手最多输出 8 个人物分割结果,选手分割结果与真值先进行 IOU 匹配,找到对应的人物后,根据该结果进行评分。多余的分割结果,没有惩罚。如果超过 8 个区域,整个视频结果无效。
冠军:1 支队伍,奖金 9 万人民币,颁发获奖证书
亚军:2 支队伍,奖金 3 万人民币,颁发获奖证书
季军:3 支队伍,奖金 1 万人民币,颁发获奖证书
Cooper Lake 最佳实践:3 支队伍,奖金 2 万人民币,颁发获奖证书
此外,复赛审核通过的排名前 12 队伍,可进入阿里云校招绿色通道。
视频云大赛正在火热报名中 扫码或点击下方链接,一起驱动下一代浪潮! https://tianchi.aliyun.com/competition/entrance/531873/introduction
function createRandom(num,from,to)
{
var arr=[];
var json={};
while(arr.length<num)
{
var ranNum=Math.round(Math.random()*(to-from))+from;
if(!json[ranNum])
{
json[ranNum]=1;
arr.push(ranNum);
}
}
return arr;
}
createRandom(10,0,回复楼层) //抽奖
源码引自 yedanbo/createRandom().js
礼物图片 盖楼超 100 层,下次活动送电脑包~
101
shaopu 2021-03-31 20:20:32 +08:00
101
|
102
leavebody 2021-03-31 20:26:17 +08:00
分母
|
103
QuinceyWu 2021-03-31 20:30:39 +08:00
只能希望我自己考研加油了~
|
104
vchar2ex 2021-03-31 20:31:08 +08:00
111
|
105
bowser1701 2021-03-31 20:41:01 +08:00 via iPhone
分
|
106
zhaidoudou123 2021-03-31 20:46:16 +08:00
不搞 CV,毕业了也去不了(
|
107
programV2 2021-03-31 20:47:03 +08:00 via iPhone
Good job
|
108
shanex 2021-03-31 20:52:30 +08:00
这个看着都好牛逼的样子
|
109
copymaster 2021-03-31 20:55:40 +08:00 via Android
冲冲冲
|
110
zhw2590582 2021-03-31 21:02:42 +08:00
分子
|
111
zerozz 2021-03-31 21:05:09 +08:00
分子
|
112
8 2021-03-31 21:07:28 +08:00
冲冲冲~
|
113
Gary2133 2021-03-31 21:21:33 +08:00
冲冲冲
|
114
ahswch 2021-03-31 21:22:13 +08:00
分母
|
115
luanqiao 2021-03-31 21:23:34 +08:00 via iPhone
有保温杯吗
|
116
sadfQED2 2021-03-31 21:24:43 +08:00 via Android
我是多少楼
|
117
ae86 2021-03-31 21:25:51 +08:00
来了
|
118
KnightNic 2021-03-31 21:29:14 +08:00
来也
|
119
yveJohn 2021-03-31 21:37:34 +08:00
分母
|
120
sinux 2021-03-31 21:38:10 +08:00
拉低中奖率
|
121
Skiro 2021-03-31 21:38:24 +08:00 via Android
分母+1
|
122
vanishs 2021-03-31 21:38:26 +08:00
一定要有梦想,万一实现了,记得 at 我
|
123
zhou00 2021-03-31 21:48:05 +08:00
分母+1
|
124
SxqSachin 2021-03-31 21:48:47 +08:00
分母
|
125
mengyaoren 2021-03-31 21:49:53 +08:00
分母
|
126
chosen1cwp 2021-03-31 21:51:37 +08:00
牛逼,成为分子的希望,让我看完了它
|
127
killeder 2021-03-31 21:53:56 +08:00
达摩院还有其他绝技吗
|
128
cuichaoyang 2021-03-31 21:59:14 +08:00 via iPhone
话不多说,我就想要一个水杯🙃
|
129
leviathan0992 2021-03-31 22:01:30 +08:00
冲!
|
130
Bronson 2021-03-31 22:01:49 +08:00
1111
|
131
dapp98230 2021-03-31 22:04:06 +08:00
腊鸡阿里
|
132
wolfan 2021-03-31 22:09:14 +08:00
还以为是送衣服,一看是送包,233333
|
133
chinemds 2021-03-31 22:13:12 +08:00
分子
|
134
karnaugh 2021-03-31 22:18:14 +08:00
追求一手分子
|
135
Cabana 2021-03-31 22:27:02 +08:00
|
136
lichunjie 2021-03-31 22:35:19 +08:00
分子
|
137
shenxj 2021-03-31 22:40:22 +08:00
来了 来了
|
138
CamelName 2021-03-31 22:40:54 +08:00
这等好事?!
|
139
hardmen 2021-03-31 22:49:40 +08:00
分子
|
140
tanranran 2021-03-31 22:52:22 +08:00
真牛逼,这才是技术的未来
|
141
cdlnls 2021-03-31 23:09:34 +08:00
想要一个保温杯,分母-1
|
142
superzzy 2021-03-31 23:11:26 +08:00
rush
|
143
FlyingBird 2021-03-31 23:23:09 +08:00
万一呢~
|
144
yanfany 2021-03-31 23:37:48 +08:00
真没想到摸鱼刷 v 站结果还是硬是看了一篇论文,可惜我们组做的是异常检测不是目标分割哈哈哈,再问个问题,这篇论文复现的硬件要求如何?
|
145
lixingcai 2021-03-31 23:38:15 +08:00
lhc
|
146
tf141 2021-03-31 23:40:08 +08:00
拼人品
|
147
mhcyong 2021-03-31 23:42:19 +08:00 via iPhone
要有梦想,万一实现了呢?
|
148
little0c 2021-04-01 00:25:53 +08:00
分母!
|
149
ppolanwind 2021-04-01 00:38:00 +08:00
分子
|
150
robin700 2021-04-01 00:42:35 +08:00
分子
|
151
CoCoCorina 2021-04-01 00:47:48 +08:00 via iPhone
海楼
|
152
encyclopediacn 2021-04-01 01:21:32 +08:00 via iPhone
11
|
153
dym 2021-04-01 02:17:10 +08:00
分子
|
154
falcon05 2021-04-01 02:18:52 +08:00 via iPhone
来都来了,不能空手让我回去吧
|
155
AshFive 2021-04-01 07:28:50 +08:00
厉害厉害
|
156
lowther 2021-04-01 07:38:35 +08:00
分子+1
|
157
MessyInk 2021-04-01 07:51:25 +08:00
看都没看懂,我保持沉默
|
158
huguadao 2021-04-01 07:54:34 +08:00 via iPhone
流明
|
159
blu10ph 2021-04-01 07:56:25 +08:00
虽然没有明白但还是感觉很厉害的样子~
|
160
honeyshine75 2021-04-01 07:59:53 +08:00
确实是厉害阿
|
161
kemikemian 2021-04-01 07:59:54 +08:00
降低中奖率
|
162
mrmatch 2021-04-01 08:02:45 +08:00 via iPhone
技术原理搞不明白,但是感觉很厉害。应用场景很广,很有意义。
|
163
Marven 2021-04-01 08:11:56 +08:00
话不多说,我就想要一个水杯
|
164
jucelin 2021-04-01 08:13:34 +08:00
厉害厉害
|
165
eric227 2021-04-01 08:22:27 +08:00
就看看 不说话
|
166
FH228 2021-04-01 08:27:27 +08:00
分子
|
167
shadowsll 2021-04-01 08:28:49 +08:00
达摩院
|
168
lchtlx 2021-04-01 08:33:13 +08:00
看着很厉害的样子
|
169
korozas 2021-04-01 08:33:34 +08:00
看起来好厉害(虽然看不懂)
|
170
bagheer 2021-04-01 08:34:29 +08:00
我有预感,有我一个
|
171
EruDev 2021-04-01 08:34:43 +08:00
看起来很厉害,虽然看不懂 哈哈哈
|
172
Woodrow 2021-04-01 08:42:51 +08:00
分母
|
173
roma 2021-04-01 08:43:53 +08:00
1024
|
174
zardly666 2021-04-01 08:46:02 +08:00
要有梦想,万一实现了呢? 冲冲冲
|
175
xianxiaobo 2021-04-01 08:50:08 +08:00
分子
|
176
magicnobob 2021-04-01 08:53:11 +08:00
梦想还是要有的
|
177
catcn 2021-04-01 08:53:26 +08:00
6666
|
178
ervqq 2021-04-01 08:55:09 +08:00
有点厉害啊
|
179
Jetry 2021-04-01 08:59:08 +08:00
分子~
|
180
MiyazonoKaori 2021-04-01 09:00:39 +08:00
大神云集的地方真不错,让我做回分子吧
|
181
int11 2021-04-01 09:02:13 +08:00
分子
|
182
pstree 2021-04-01 09:02:55 +08:00
分子来一个
|
183
auto8888 2021-04-01 09:03:22 +08:00
分母
|
184
CantSee 2021-04-01 09:05:31 +08:00
看起来好牛,看不懂都,当一个分母吧
|
185
tuotu 2021-04-01 09:06:44 +08:00
梦想还是要有的
|
186
jhhhh 2021-04-01 09:08:08 +08:00
正缺个保温杯
|
187
SomeBodsy 2021-04-01 09:08:59 +08:00
分子
|
188
Philosophy6 2021-04-01 09:09:35 +08:00
这个杯子我要定了
|
189
CoocleBest 2021-04-01 09:11:27 +08:00
既然如此,我就来分母+1 吧
|
190
wuqingdzx 2021-04-01 09:12:20 +08:00
分母
|
191
chenhbang 2021-04-01 09:14:49 +08:00
CY
|
192
RLinux 2021-04-01 09:15:24 +08:00
使命必达
|
193
biuibiubiu456 2021-04-01 09:15:55 +08:00
这就是达摩院的实力吗
|
194
v2hh 2021-04-01 09:16:29 +08:00
给我次机会,上次书包没抢到
|
195
ezreal 2021-04-01 09:19:21 +08:00
分母
|
196
hxnets 2021-04-01 09:20:52 +08:00
分母
|
197
XWZ1020 2021-04-01 09:21:02 +08:00
分母来了
|
198
Martens 2021-04-01 09:22:24 +08:00
11111111 我来组成放分子
|
199
yaojiarui 2021-04-01 09:22:30 +08:00
+1
|
200
Googlebaba 2021-04-01 09:23:40 +08:00
永久分子
|