我想的是。
先是提取关键字,然后根据关键字定位。
以前看的文章,.avi 文件,可以靠音频文件来定位,毕竟都有一定相似性嘛。
那比如纳粹图表,血腥图片的又怎么办呢?
现在我发现压缩包的能找到了,
百度难道真的给你解压缩一遍了?
最后想到的问题是,这些能靠机器学习解决吗?先给他找大量样本,然后让他不断学习是吗?
那就是有人人工给他找大量样本,然后让一些人,给他清洗数据,最后再把干净合理的数据拿来用是吗?
1
dewi 2018-07-20 00:25:15 +08:00 via iPhone
这就好比 QQ 邮箱里的压缩文件预览功能一样,从技术上一点都不难实现,本质上就是后台云端解压而已,不会涉及重新压缩的,因为重新压缩 md5 肯定会改变。目前防检测的唯一方法就是加密。
|
2
luosuosile OP @dewi 嗯,对哦即使不做解压缩,好像也能浏览目录
|
3
flynaj 2018-07-20 00:30:49 +08:00 via Android
不需要全部解压,只需要解压需要的部分,类似于 winmount 这个软件
|
4
luosuosile OP @flynaj thanks 学习了
|
5
easylee 2018-07-20 00:55:32 +08:00 via Android
对于问题不大清楚,但是提示楼主,上传压缩包最好进行加密。
|
6
Love4Taylor 2018-07-20 01:11:37 +08:00 via Android
加密并且对包内文件名加密
|
7
someonetwo 2018-07-20 01:16:45 +08:00
如果压缩包加密的话不知道还能不能检测出来
|
8
aaax7676 2018-07-20 01:18:05 +08:00 via Android
估计是有人在线解压了
|
9
msg7086 2018-07-20 01:21:44 +08:00
解压又没技术难度……
度盘最露骨的过滤方法是看文件名关键词。比如广场这个词就是敏感词,文件根本分享不出来。 |
10
zzsx1937 2018-07-20 06:02:56 +08:00
双层加密压缩 内层最好改文件后缀
|
11
zhangpeter 2018-07-20 07:17:45 +08:00
@msg7086 为什么广场是敏感词?
|
12
loukky 2018-07-20 07:21:09 +08:00 via Android
@zhangpeter T A M
|
13
Telegram 2018-07-20 08:00:02 +08:00 via iPhone
@zhangpeter #11 天安门广场,64 事件呗
|
14
leafleave 2018-07-20 08:01:53 +08:00 via iPhone
文件名和已知问题文件的 md5 类数字指纹,这两种都不需要解压文件
|
15
torbrowserbridge 2018-07-20 08:05:34 +08:00 via Android
666 天朝关键字真多
|
16
nieyujiang 2018-07-20 08:07:50 +08:00 via iPhone
压缩并且加密,很多开车群都是这么搞得。
|
17
kkeybbs 2018-07-20 08:08:43 +08:00 via iPhone
最低成本的,如果文件是广泛传播的,文件本身的 hash 拉到黑名单。
一般成本,读 rar 里索引列表部分,根据文件名列表判断,rar 的索引里还有文件的 crc32,也可以作为广泛传播内容的判断。我猜最可能 crc32 作为 hash 判断依据。 高成本的,尤其是 rar 本身文件名有点敏感的,可以重点对待,解压扫描里面的内容,不过不现实。 |
18
jmercer 2018-07-20 08:21:01 +08:00
在这里说 64 会不会被封[doge]
|
19
badcode 2018-07-20 08:25:59 +08:00 via iPhone
压缩文件,都把加密文件名勾上……
|
20
a566 2018-07-20 08:42:58 +08:00 via Android
7z 好像可以逃过
|
21
kokutou 2018-07-20 08:49:44 +08:00 via Android
rar 加密码,然后勾上加密文件名就行了。。。。
|
22
annielong 2018-07-20 09:23:13 +08:00
rar 加密码,加密文件名,最好再加一个任意的随机文件,以免压缩包已存在
|
23
imdong 2018-07-20 09:30:48 +08:00
文件名检测,头信息特征检测。
比如一个压缩包,检查压缩包特征是否检测过,检查文件名是否有关键词。 获取压缩包文件列表,检查压缩包内文件名是否有关键词。 获取压缩包内文件 CRC (类)是否在黑名单。 最不济,尝试读取压缩包内每个文件的头信息(前一段)和现有文件对比。 还要严格,那就?所有文件解压出来,图片视频走 AI 识别? |
24
woodvillage 2018-07-20 09:36:15 +08:00
你不是一个人
|
25
RyougiShiki 2018-07-20 09:45:59 +08:00
我遇到的情况是 七牛上传.avi 会失败,.rar 就没事。
|
26
dalieba 2018-07-20 11:31:43 +08:00 via Android
那就上传一份加密的 RAR 试试看吧。
|
27
workspace 2018-07-20 12:23:51 +08:00
tar tf 只看,不解压
|
28
nikolai 2018-07-20 12:40:45 +08:00
有人在线解压过,文件 md5 被认证了
|
29
metorm 2018-07-20 12:43:05 +08:00 via Android
如果是大路货压缩文件,直接 md5 匹配上就可以了
|
30
t6attack 2018-07-20 13:10:14 +08:00 2
文件名关键词+文件指纹。别的没了。根本没有什么图像识别、语音识别、机器学习 乱七八糟这些。
假如有个有个文件叫 v2ex-001.avi ,被 1 万个用户离线到自己网盘里。那么这个文件在服务端实际是 1 个,而不是 1 万个。这个文件被判定为 A 片,那么 1 万个用户点开全部变成“温馨提示”。 一份文件,被多少个网盘保存。服务端那边看的一清二楚。人工审查,只针排名靠前的那些文件就够了。 至于只被一个网盘保存的文件,没人查你。也查不过来。 你把 v2ex-001.avi 截掉 1 秒,文件指纹就变了,然后再上传。就可以正常下载、观看。这是你的私密文件,全球仅此一份。不会被检查。但如果你分享出去,被很多人下到自己网盘里,就有可能变成“温馨提示”。 图片也是一个道理。一张广泛传播的裸照,你用 win 绘图里的铅笔,在角落里点个点,再保存。它就是另一个文件了,全球只此一份。传上去以后,正常浏览、正常下载。 |
31
luosuosile OP @t6attack 学习了,感谢
|
32
JamesR 2018-07-20 13:55:35 +08:00 via Android
有纱布在线解压了,就这么简单。
|
33
KevZhi 2018-07-20 13:56:07 +08:00 via iPhone 1
@t6attack
BT 下载的 AVI 格式,转码重新压制成 h264 的 mp4 并自定了码率,改名并去除敏感关键字,非光速上传后,未分享的情况下秒封 甚至磁力下载的黄油 ISO 镜像都被封过 显然此过程 AI 图像音频识别都不一定用得到,除去对比文件头,文件名,hash,百度云更可能直接截取某一帧(例如第五秒第 20 帧)图像进行比对(以图搜图)黑名单数据库。 另外别忘了行为检测,正常人看正常视频应该不会一直快进吧。当这个文件被大量分享,大多数人都不断的快进的时候,这个视频可能已经进入枪毙名单了 当然目前 AI 的力量也十分强大,鉴黄服务也非常成熟了,但是还存在一定误封的情况,但是这都是唐马儒们的有力工具。 也别忘了人的力量,戒色吧老哥的小广告都能贴到大学教学楼卫生间里,撸完举报的大有人在。还有一些民间组织、家长组织也在做这些事情。 百度内部当然也培养了一堆唐马儒,他们每天做的就是坐在大屏幕前,大屏幕就像监控中心一样,轮流不断播放着每个用户网盘里被大量分享的文件,当他们发现一个,点点鼠标那个文件就八秒了。 |
34
Tlin 2018-07-20 13:58:05 +08:00
@t6attack 老哥也是深有体会啊。之前我也是这样,跟别人同样的文件实际在云端只有一个的,云端删了大家的都没了(不知道秒传是不是这个原理:限读取你的文件里面的一些内容数据结构等等,在云端进行比对,如果有就把云端的给你,再把你的文件名赋值上去)
|
35
flyoungstudio 2018-07-20 14:11:12 +08:00
PGP Desktop,你值得拥有
|
36
go 2018-07-20 14:14:28 +08:00
@t6attack #30 牛啊 一直以为 AI+人工智能判断 视频图像分析 自动替换成温馨提示
按照你的说法 也就是检查热门文件 。。 |
38
hu5ky 2018-07-20 17:23:27 +08:00
应该是对比文件 MD5 值这类技术,你一个压缩包没有加密码,然后有人在线解压,导致被服务器检测到,然后查看以后对这个文件的 MD5 值,做封禁处理,然后就是你看到的封禁信息。
|
39
yjd 2018-07-20 17:27:04 +08:00
你加个中文密码。23333
|
40
f2ck 2018-07-20 17:30:36 +08:00
压缩 加密一哈 就可以了
|
41
Raymon111111 2018-07-20 17:31:54 +08:00
加密啊
|
44
mmdsun 2018-07-20 19:32:01 +08:00 via Android
你压缩包设置密码就行。
|
46
LudwigWS 2018-07-20 19:41:03 +08:00
向老司机们学习
|
47
EthanZhuXE2V 2018-07-20 19:52:55 +08:00 via Android
在线解压就会被封
|
48
wsc449 2018-07-20 20:03:01 +08:00
向老司机们学习
|
50
JerryCha 2018-07-20 22:45:41 +08:00
大概就是有会员云解压了吧,然后就上记录了。记得以前有在线预览 avi 过了不久就 8s 的
|
51
arabshia 2018-07-21 08:33:11 +08:00
向老司机们学习
|
52
winglight2016 2018-07-21 14:01:31 +08:00
@torbrowserbridge 很多啦,像 89 这么常见的词就是关键字,以前看小说,八九玄功,八九不离十都出不来
|
53
sungkyu 2018-07-22 09:32:38 +08:00
楼主,Winsw1.9.exe 那两个链接都失效了
|