V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
ambitiousxiao
V2EX  ›  问与答

作为外行想知道百度云是通过什么原理屏蔽和谐上面的视频的?

  •  
  •   ambitiousxiao · 2016-04-05 21:43:59 +08:00 · 32201 次点击
    这是一个创建于 3138 天前的主题,其中的信息可能已经有所发展或是发生改变。

    最近很火的一部香港电影,大陆禁了,但是有人传到网上,我下了一半就显示违规,有的链接点进去,视频名字都改过了,但是下载时候提示已经和谐。想知道他们是怎么在这么多视频里找到并且屏蔽的

    49 条回复    2016-04-07 08:12:25 +08:00
    b821025551b
        1
    b821025551b  
       2016-04-05 21:47:14 +08:00
    smallfount
        2
    smallfount  
       2016-04-05 21:47:18 +08:00   ❤️ 1
    hash 吧应该......
    ambitiousxiao
        3
    ambitiousxiao  
    OP
       2016-04-05 21:48:40 +08:00
    @b821025551b 问题是政治类的视频不像簧片那么简单啊
    huage
        4
    huage  
       2016-04-05 21:50:22 +08:00   ❤️ 1
    文件的唯一性吧
    hardware
        5
    hardware  
       2016-04-05 21:56:07 +08:00
    深度网络做的鉴黄工具,然后每天会对贴吧和网盘进行扫描,然后记录相应的 hash
    pimin
        6
    pimin  
       2016-04-05 21:57:49 +08:00   ❤️ 2
    热门资源比较好处理
    比如 hash ,测试方法比较简单:
    找一个明确被和谐的女教师.AVI ,通过其它渠道比如 BT 之类下载下来
    然后在后面随便加点无意义的数据,改变 hash ,然后试着回传。
    还有就是视频文件取几帧来比对。
    比如爱情动作片开头都有 FBI WARNING ,隔多少秒取一帧。
    时间 1 分钟内的。然后识别比对。
    这个应该是放在他们主动挖掘期。防止变种文件和 hash 混淆。

    还有就是文件名和标签信息判定,这个是比较好处理的。
    比如遇到 heyzo-xxx 的文件,全部判定为可疑文件,然后做筛选。
    筛选出来之后提取样本,帧元素放到比对裤里, hash 放到黑名单里。

    我觉得这样基本上可以杀差不多了。
    webdev
        7
    webdev  
       2016-04-05 22:01:30 +08:00   ❤️ 1
    文件 hash,也就费点 CPU 计算,是最快的方式
    yksoft1
        8
    yksoft1  
       2016-04-05 22:04:53 +08:00   ❤️ 1
    Hash+文件名关键词+举报+人工审核
    复合式屏蔽
    tadtung
        9
    tadtung  
       2016-04-05 22:08:15 +08:00   ❤️ 1
    你仅仅修改视频名称是不够的。。。
    都是根据文件 hash 的。。
    如果是 bt 用百度离线的话,,你可以洗种子,,,
    上传的话 修改视频文件上传。。
    strwei
        10
    strwei  
       2016-04-05 22:13:21 +08:00
    大家都知道 hash 的,然后百度云的鉴黄师就不用那么辛苦了
    anotheruby
        11
    anotheruby  
       2016-04-05 22:14:43 +08:00 via iPhone
    什么电影
    viator42
        12
    viator42  
       2016-04-05 22:15:46 +08:00
    视频名字不是文件的真正名字,同样的文件所有人共享一个实体,把这一个和谐了所有人都看不了了
    pynix
        13
    pynix  
       2016-04-05 22:17:03 +08:00
    。。。
    shiji
        14
    shiji  
       2016-04-05 22:58:34 +08:00 via Android
    楼主有没有在 YouTube 上面看过蜡笔小新或者柯南? 你会发现某一些上传者会把视频嵌入到一个框里面,真正的视频像是画中画一样。 我猜想 YouTube 处理版权视频也会有一定的手段,他们这样嵌入视频能逃过检查,说明很有可能是逐帧取样 hash 。 取样的过程还要保证即使上传者换了格式,加了水印也能一样查出来。所以对于文件 hash 是最低级的。 对画面 hash 比较有效
    n6DD1A640
        15
    n6DD1A640  
       2016-04-05 23:01:03 +08:00
    @anotheruby 十年
    coolair
        16
    coolair  
       2016-04-05 23:10:25 +08:00
    @b821025551b 这个不准吧,我测了几张都正常……

    码是后面加的……
    ihuotui
        17
    ihuotui  
       2016-04-05 23:23:25 +08:00
    视频算法,深度学习。
    xmoiduts
        18
    xmoiduts  
       2016-04-05 23:39:42 +08:00 via Android
    猜测: hash ,视频抓帧,根据点击趋势标记,人工判断。

    不知道加密压缩再分卷分布在多家网盘是否可行。
    cfans1993
        19
    cfans1993  
       2016-04-05 23:42:07 +08:00 via Android
    作为外行的看法
    视频文件分音频通道+视频通道
    音频特点:音色,音高等
    视频特点:由图片组成, RGB 通道等
    hggg
        20
    hggg  
       2016-04-05 23:45:29 +08:00
    传说中分析叫床声音解决色情问题是真的?
    cfans1993
        21
    cfans1993  
       2016-04-05 23:46:50 +08:00 via Android
    另外不同文件有不同的文件头(二进制查看),改文件名算最简单的加密了,稍微高级点的可以改下文件头
    anotheruby
        22
    anotheruby  
       2016-04-06 03:57:19 +08:00 via iPhone
    msg7086
        23
    msg7086  
       2016-04-06 05:21:49 +08:00
    @shiji 甚至还有左右翻转后上传的……
    gimp
        24
    gimp  
       2016-04-06 08:04:59 +08:00 via Android
    所以,你们不想看教育片就把视频打包加密上传嘛
    hehe12dyo
        25
    hehe12dyo  
       2016-04-06 09:45:45 +08:00
    @anotheruby 哥哥,看不了。。有种子嘛。给我一个, [email protected]
    SpicyCat
        26
    SpicyCat  
       2016-04-06 10:40:47 +08:00
    dd if=/dev/urandom of=112369-sp-2.mp4 ibs=1 count=8 obs=1 oflag=append conv=notrunc

    一行命令在文件尾部加随机数据
    ambitiousxiao
        27
    ambitiousxiao  
    OP
       2016-04-06 10:55:41 +08:00
    @n6DD1A640 哈哈哈,是的
    ambitiousxiao
        28
    ambitiousxiao  
    OP
       2016-04-06 10:55:52 +08:00
    @coolair 我要试过
    ambitiousxiao
        29
    ambitiousxiao  
    OP
       2016-04-06 10:56:32 +08:00
    @anotheruby 十年
    ambitiousxiao
        30
    ambitiousxiao  
    OP
       2016-04-06 10:57:17 +08:00
    @shiji
    @SpicyCat 谢谢
    ambitiousxiao
        31
    ambitiousxiao  
    OP
       2016-04-06 10:57:49 +08:00
    @gimp 以前传簧片,把名字改成学习资料都被删了,
    ambitiousxiao
        32
    ambitiousxiao  
    OP
       2016-04-06 11:00:06 +08:00
    有没有可能用了用了大数据?比如最近很火的那部十年,根据时间段截取,锁定缩小范围,然后在排查
    ambitiousxiao
        33
    ambitiousxiao  
    OP
       2016-04-06 11:01:09 +08:00
    @anotheruby 没了,哈哈
    anotheruby
        34
    anotheruby  
       2016-04-06 11:51:03 +08:00 via iPhone
    @hehe12dyo
    @ambitiousxiao twi search ** u2b
    lemmo
        35
    lemmo  
       2016-04-06 12:28:41 +08:00
    @anotheruby 是十年吗?几个月钱推特上有人介绍,就一直想看
    beneo
        36
    beneo  
       2016-04-06 12:30:40 +08:00
    人工审核啊
    anotheruby
        37
    anotheruby  
       2016-04-06 13:52:04 +08:00 via iPhone
    @lemmo
    wzymmy
        38
    wzymmy  
       2016-04-06 16:32:32 +08:00
    @lemmo 电影十.........................年
    ed2k://|file|Ten.Years.2015.1080P.mp4|1945064624|C0A5B82BF806469FDBD7D2F97680EC5B|h=L25MCPC5AUWTM7VLKDQ2SLLBOF4TE7YL|/

    试试看
    armoni
        39
    armoni  
       2016-04-06 16:36:58 +08:00
    图像识别技术,这个大型互联网公司都有,不是很难,实习生也能做
    RihcardLu
        40
    RihcardLu  
       2016-04-06 18:34:57 +08:00
    @wzymmy 亲测可行,晚上回去看看
    zcoder
        41
    zcoder  
       2016-04-06 19:40:28 +08:00
    抽取数据指纹。可以针对视频做专门的指纹计算,已经很成熟了。
    zcoder
        42
    zcoder  
       2016-04-06 19:42:44 +08:00   ❤️ 1
    鉴黄是通过机器学习,抽取关键帧,标注、抽取特征、训练模型、判定
    Eleutherios
        43
    Eleutherios  
       2016-04-06 20:24:47 +08:00 via iPhone
    我一直以为是拿深度网络模型对关键帧初判,输出一个 0-1 之间的 H 度,高的直接 Ban ,中的交给鉴黄师复查,低的 Pass ,复查结果再作为样本训练模型。

    难道是我想多了?
    velee
        44
    velee  
       2016-04-06 20:30:49 +08:00
    @anotheruby 我把分享的下载下来,大小是 1.8G 没错,不能播放!
    asd7160
        45
    asd7160  
       2016-04-06 21:38:36 +08:00
    你们不要作死啊。要分享那个电影也要用 mega 什么的。如果因为这事,导致度盘取消分享功能那对大家爱都没好处。君不见那么多网盘都取消分享了,唯有百度还在坚挺。
    anotheruby
        46
    anotheruby  
       2016-04-06 22:11:07 +08:00 via iPhone
    @velee 那就下载什么的 bt 吧
    zangbianxuegu
        47
    zangbianxuegu  
       2016-04-07 00:00:51 +08:00 via iPhone
    @velee 可以啊
    gamexg
        48
    gamexg  
       2016-04-07 08:10:26 +08:00 via Android
    hash 区分文件,文件名匹配关键字,如果一个文件文件名多次包含关键字就人工审核。
    的却很多人会改成无关的文件名,但是阻止不了猪队友。


    对关键帧
    gamexg
        49
    gamexg  
       2016-04-07 08:12:25 +08:00 via Android
    对关键帧进行图像识别计算量太大,感觉成本太高了。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2816 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 90ms · UTC 13:40 · PVG 21:40 · LAX 05:40 · JFK 08:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.