V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
eggacher
V2EX  ›  程序员

讨论下百度云盘如何过滤毛片种子的?

  •  1
     
  •   eggacher · 2014-10-11 11:15:52 +08:00 · 104794 次点击
    这是一个创建于 3694 天前的主题,其中的信息可能已经有所发展或是发生改变。
    1、用种子离线下载

    百度云盘肯定对种子的hash值有做一个黑名单库,hash值匹配在库中的,判断为毛片

    2、根据种子内文件的关键字过滤

    如果上一条不满足,则对种子内的文件名 进行关键字匹配,例如“熟妇” “xxoo”等关键字进行匹配,匹配成功,判断为毛片

    3、图像识别 or 文件hash值匹配?

    如果前两条不满足,则对影片的图像帧扫描(感觉不会是这个,代价很大)
    或者文件hash值也有黑名单库,匹配成功,判断为毛片

    4、对多次下载非法视频的用户进行监控

    如果有用户多次下载非法视频失败(有记录的),给予响应的记录,并扫描其之文件夹,关键字;大数据统计??等等
    80 条回复    2014-10-14 23:20:24 +08:00
    viaNull
        1
    viaNull  
       2014-10-11 11:21:14 +08:00
    1 不可能
    2 曾经是,现在不仅仅是
    3.1 不可能
    3.2 极其可能
    4 不至于吧。。。
    matrix67
        2
    matrix67  
       2014-10-11 11:21:34 +08:00   ❤️ 2
    太水了,直接从草榴上抓,抓到一个,标记一个,多省事儿呀!!!
    caiych
        3
    caiych  
       2014-10-11 11:23:19 +08:00
    应该基本上是种子文件的文件名匹配和文件hash的匹配
    中了就[不给下,不给看]
    exceloo
        4
    exceloo  
       2014-10-11 11:26:26 +08:00   ❤️ 5
    言下之意,百度拥有网上最大的毛片库? - -!
    yanyuechuixue
        5
    yanyuechuixue  
       2014-10-11 11:27:37 +08:00 via Android
    @exceloo 神回复
    yanyuechuixue
        6
    yanyuechuixue  
       2014-10-11 11:28:04 +08:00 via Android
    我的全部八秒了,有没有解决办法?
    aszxqw
        7
    aszxqw  
       2014-10-11 11:29:12 +08:00   ❤️ 1
    统计一下就行了。
    won
        8
    won  
       2014-10-11 11:31:18 +08:00
    想知道真相吗?投简历给百度审核部门实习岗位就行了
    Oishi
        9
    Oishi  
       2014-10-11 11:37:05 +08:00   ❤️ 1
    会不会是这样啊?

    90后美女鉴黄师:不敢告诉家人男友工作内容
    http://finance.people.com.cn/n/2014/0507/c66323-24983930.html
    yanwen
        10
    yanwen  
       2014-10-11 11:39:19 +08:00
    @Oishi 我想到了暴漫里面的糖玛如
    tyhunter
        11
    tyhunter  
       2014-10-11 11:40:13 +08:00
    人工筛选+网友举报?记录文件Hash就可以Block掉不同种子中的同一个文件了?最恶心的还是把下载文件都替换成8秒教育片了。。。。不让看就算了,练下都不让
    tyhunter
        12
    tyhunter  
       2014-10-11 11:41:47 +08:00
    @exceloo 百度现在的毛片文件都被替换成8秒教育片了,前几天看到了一个叫XX云点播的还能正常用,资源好像是迅雷的
    eggacher
        13
    eggacher  
    OP
       2014-10-11 11:42:13 +08:00
    @matrix67 百度自己的种子应该比艹榴的多..之前百度影音应该积累了不少..可怜王欣被当了出头鸟..

    @exceloo 他们的种子应该是最多的

    @yanyuechuixue 木有办法,只能下下来看了

    @viaNull 4的话,他们统计一下就知道哪些是“危险用户”了,然后把“危险用户”的文件做个交集 分析,可以翻出很多动作片来
    gdzdb
        14
    gdzdb  
       2014-10-11 11:42:35 +08:00
    其实真相是百度雇了唐马儒
    loading
        15
    loading  
       2014-10-11 11:45:56 +08:00
    文件名过滤是有的,然后hash也一定有!!!!
    别问我如何得出结论!
    geew
        16
    geew  
       2014-10-11 11:50:06 +08:00
    @loading 笑。。。经验人士啊
    tanyuxiang
        17
    tanyuxiang  
       2014-10-11 11:51:58 +08:00
    猜测是通过文件名判断后记录hash。
    谁无聊弄几部葫芦娃改文件名和种子名试试
    jsonline
        18
    jsonline  
       2014-10-11 11:52:57 +08:00 via Android
    首席鉴黄师唐马儒知道
    xjx0524
        19
    xjx0524  
       2014-10-11 11:54:19 +08:00 via Android
    文件名检测肯定是有的,xx片种子用那个种子匿名工具过一下就可以离线了
    yanyuechuixue
        20
    yanyuechuixue  
       2014-10-11 12:17:52 +08:00 via Android
    @eggacher 关键是下下来也是8秒。。。。
    yanyuechuixue
        21
    yanyuechuixue  
       2014-10-11 12:18:12 +08:00 via Android
    等同于百度盘废了。
    railgun
        22
    railgun  
       2014-10-11 12:23:21 +08:00
    那已经下载了的视频变8秒是什么原理?人工判别?
    pyshift
        23
    pyshift  
       2014-10-11 12:29:11 +08:00
    感觉文件Hash值入黑名单库靠谱(看来以后要转码以后再上传做种
    bydmm
        24
    bydmm  
       2014-10-11 12:37:27 +08:00
    番号会被识别
    ljcarsenal
        25
    ljcarsenal  
       2014-10-11 13:00:37 +08:00
    @唐马儒
    lsmgeb89
        26
    lsmgeb89  
       2014-10-11 13:04:41 +08:00
    感觉百度没迅雷多。
    imn1
        27
    imn1  
       2014-10-11 13:13:50 +08:00   ❤️ 2
    文件名
    种子内文件名
    Hash值,全文件hash值库是有的,但不一定每次对上传文件(大字节数)hash,抽取特定范围字节hash,emule就是这样,有两个hash值:全文件和第一块
    被举报
    不是监控多次下载的用户,而是监控多次上传的用户
    ……

    我觉得百毒对毛片不会太头痛,方法很多,hash值也相对固定
    百毒感到头痛的肯定是政治性或暴恐方面的内容,不定性、单次行为,所以百毒不得不关闭了新疆地区的服务
    SLink
        28
    SLink  
       2014-10-11 13:25:01 +08:00
    昨天恰巧在1024看到一人发帖,说自己在上面的个人隐私图片和视频也被百度屏蔽了,点开都是8秒视频。据此估计有人工审核。#净网期间,禁止做爱#
    524139477
        29
    524139477  
       2014-10-11 13:29:09 +08:00
    为何几百M的视频下载下来还是八秒教育片,还是渣渣画质的。正片呢!这八秒视频这么大
    jkjoke
        30
    jkjoke  
       2014-10-11 13:43:37 +08:00   ❤️ 2
    @524139477 前八秒写入数据,后面全部填充0000000
    matrix67
        31
    matrix67  
       2014-10-11 13:51:02 +08:00
    @jkjoke 那根据压缩原理不会那么大呀
    vus520
        32
    vus520  
       2014-10-11 13:54:58 +08:00
    人工过滤
    MaiCong
        33
    MaiCong  
       2014-10-11 14:00:55 +08:00   ❤️ 1
    你需要 http://www.360xixi.com/ 这样的解决方案!
    -- 红领巾
    asca
        34
    asca  
       2014-10-11 14:01:00 +08:00
    经常看毛片还是乖乖给115交保护费吧。
    cnkiller
        35
    cnkiller  
       2014-10-11 14:01:04 +08:00
    @exceloo 确定不是迅雷吗?
    jkjoke
        36
    jkjoke  
       2014-10-11 14:13:51 +08:00
    @matrix67 没压缩,只是重新填充0而已。就像迅雷下载时会建一个同样大小的占位文件,里面也是全填充0。
    eggacher
        37
    eggacher  
    OP
       2014-10-11 14:18:05 +08:00
    @loading 你肯定是百度的...
    @yanyuechuixue 咦,我昨晚试了,可以呀..文件大小没变..不过我的视频文件是在压缩包里头.我在线解压缩了不能播放,然后把整个压缩包下载下载,里头文件可以播放。。.是不是用压缩包包上视频会给百度一些困扰呢?呵呵呵..

    @MaiCong 试过,没用哈..种子里头视频文件的hash值进他们黑名单了..即使可以下载,但是会8秒
    eggacher
        38
    eggacher  
    OP
       2014-10-11 14:19:06 +08:00
    @jkjoke 这招好贱...
    lshero
        39
    lshero  
       2014-10-11 14:29:13 +08:00
    @SLink 是不是自己持有的不良资源太多了,然后被列为终点关注对象?
    eggacher
        40
    eggacher  
    OP
       2014-10-11 14:31:05 +08:00
    @lshero 技术都是可行的..看政治需求..在我朝,人人头上都有一柄达摩之剑,杀不杀你看心情。
    duzhe0
        41
    duzhe0  
       2014-10-11 14:43:50 +08:00
    这个我和朋友讨论过, 我认为通过技术手段识别一个视频文件是否是毛片对百度来说技术难度并不大,每个存到百度云上的视频文件都扫描一遍代价也不算大。
    eggacher
        42
    eggacher  
    OP
       2014-10-11 14:48:21 +08:00
    @duzhe0 如何扫描?对每一帧图像进行三点式图像识别?一个1G 60分钟的影片 60帧每秒的影片需要多长时间识别完成?
    Yannis1990
        43
    Yannis1990  
       2014-10-11 14:49:21 +08:00
    您是度厂的么.....如果是,反馈个bug:

    mac百度云同步,无网络状态修改文件夹名,并移动文件夹,这个行为会造成,同步两份一模一样的文件,手动修改云端文件名与本地保持一致之后,就一直同步失败了,每次启动 10000+ 的文件,逗我呢?
    eggacher
        44
    eggacher  
    OP
       2014-10-11 14:51:32 +08:00
    @Yannis1990 我不是,@loading 可能是

    百度云客户端bug很多,我服务器上都清空了,客户端的文件还在那,无法刷新
    Tink
        45
    Tink  
       2014-10-11 14:52:59 +08:00
    感觉应该是Hash匹配和1024抓取
    loading
        46
    loading  
       2014-10-11 14:57:38 +08:00
    @eggacher
    @Yannis1990 我不是,下个文件就知道啦,有必要内部人员吗?
    Yannis1990
        47
    Yannis1990  
       2014-10-11 14:57:51 +08:00
    @eggacher 恩,百度云本质还是一个网盘,远远达不到一个同步盘的程度,主要使用原因就是空间大
    duzhe0
        48
    duzhe0  
       2014-10-11 15:00:00 +08:00
    @eggacher 没有必要每一帧都扫, 若干分钟取一帧就可以,一个视频文件在一台机器上应该用不了1分钟。
    cxshun
        49
    cxshun  
       2014-10-11 15:11:18 +08:00
    @asca 哈哈,用的同样是115,不过很少看那啥片,偶尔看看电影啥的,115现在已经赶上来了。希望不要被和谐。
    66beta
        50
    66beta  
       2014-10-11 15:20:43 +08:00
    @MaiCong 洗洗也没用,照样8秒,肯定是hash,不过少部分下下来是8秒,其他正常,也看运气
    我只是研究而已哦~~ XD
    Beckham
        51
    Beckham  
       2014-10-11 15:40:58 +08:00
    从视频云上的截图我觉得图片判定也是有的。
    最关键是,净网完了还会把它们还给我们吗?
    eggacher
        52
    eggacher  
    OP
       2014-10-11 15:42:13 +08:00
    @Beckham 你的意思是,百度做给gov看的?呵呵..
    RangerWolf
        53
    RangerWolf  
       2014-10-11 15:46:11 +08:00
    是否能够通过音频相似度来识别是否有不健康内容?
    不健康内容的声音其实差不多, 简单的如 “雅蠛蝶”
    嘿嘿
    Beckham
        54
    Beckham  
       2014-10-11 15:49:13 +08:00
    @eggacher 如果不是的话我们都杯具了。。不过肯定是行动完结后打击力度会小吧。
    pljhonglu
        55
    pljhonglu  
       2014-10-11 16:02:34 +08:00
    判断视频特征码?跟杀毒软件类似~哈哈~
    railgun
        56
    railgun  
       2014-10-11 16:08:14 +08:00
    @Beckham 我觉得不会,现在下载下来的内容除了8秒之外全是0000了,怎么恢复
    F2Sky
        57
    F2Sky  
       2014-10-11 16:28:21 +08:00
    @railgun 那这样的话,百度也太狠了吧,用户保存什么文件是用户自己的事情,只要不传播就不应该这样搞

    打个比方

    #########################################################

    某男不行,他老婆始终不孕,然后你冲上去干了,让人家怀上了。

    #########################################################

    这不一个德行吗?
    CtrlSpace
        58
    CtrlSpace  
       2014-10-11 16:34:24 +08:00
    这个...我网盘里存着的“电影”可一直都在呢
    fork3rt
        59
    fork3rt  
       2014-10-11 17:04:14 +08:00   ❤️ 1
    用什么百度啊? 自己写个脚本去爬海盗湾上的种子, 然后用自己的VPS循环下载就OK了。既安全又能保障速度。
    lzt163
        60
    lzt163  
       2014-10-11 17:05:42 +08:00
    迅雷比较绝
    解决办法是换qq会员= =
    就算他说是毛片 你只要离线下点确定改个名字就好了。。。
    eggacher
        61
    eggacher  
    OP
       2014-10-11 17:19:26 +08:00
    @Beckham 百度也怕变成下一个快播啊

    @CtrlSpace 你再看看?有些已经变成8秒了
    zjhui
        62
    zjhui  
       2014-10-11 17:33:27 +08:00 via Android
    妈蛋,我网盘里很多没分享的都被改成8秒的教育片了!
    knightluffy
        63
    knightluffy  
       2014-10-11 19:50:27 +08:00
    其实有办法不被改8秒教育的..但是我不说..
    eggacher
        64
    eggacher  
    OP
       2014-10-11 20:10:12 +08:00
    @knightluffy 额..求分享
    limbo0
        65
    limbo0  
       2014-10-11 20:17:31 +08:00
    这和垃圾邮件一个道理把,用机器学习算法,抓取特征分类(如文件名,大小,格式,还有一些图像信息),然后就知道了~~
    reorx
        66
    reorx  
       2014-10-11 20:52:20 +08:00
    @exceloo 据我从朋友那里了解,是真的,以及,还有应该是全球最全的 porn 关键字库。
    Vinty
        67
    Vinty  
       2014-10-11 21:01:22 +08:00
    我网盘里面的都好好的啊,是不是因为我从来没分享过
    不过百度屏蔽关键词倒是真的,前几天给朋友传几张正常图片的压缩包,用个无码图的名字就被和谐了。。。
    binux
        68
    binux  
       2014-10-11 21:03:07 +08:00
    kuyapp
        69
    kuyapp  
       2014-10-11 21:15:55 +08:00
    楼上百度员工为您解答。
    VYSE
        70
    VYSE  
       2014-10-11 21:52:40 +08:00
    我的片存的还好好的,不过分享过一段时间就被删,偶尔会不删,感觉有人工审核
    ven
        71
    ven  
       2014-10-11 22:39:31 +08:00
    唐马儒 +1
    reeco
        72
    reeco  
       2014-10-12 11:16:10 +08:00
    应该是人工审核,之前只是仅仅用文件名种子名作为判断依据。
    Fanan
        73
    Fanan  
       2014-10-12 11:47:20 +08:00 via iPhone
    1.经验告诉我肯定有关键字识别。下载的时候专挑种子内包含文件少(通常只有一个文件),对有关键字如性吧之类的种子一律跳过,这样下载成功率会大一些。猜测对单个文件名进行关键字识别的算法(类似打分)效果不是太好。
    2.应该有全文件hash或者某块数据hash。有些文件名是日语或韩语的种子也直接下载失败,猜测对文件做个hash上传入黑名单库应该能有效果。

    有修改种子后能顺利下载的工具?有8秒视频顺利恢复方案?
    希望有内部人士爆料出确定技术方案以饷屌丝!
    Fanan
        74
    Fanan  
       2014-10-12 11:49:25 +08:00 via iPhone
    @tyhunter 求告知可用的XX云点播是哪个云点播?
    eggacher
        75
    eggacher  
    OP
       2014-10-13 11:19:34 +08:00
    @Fanan 115
    sxliusir
        76
    sxliusir  
       2014-10-13 12:50:05 +08:00
    如果是图片的话,可以进行图片识别;如果是视频的话,你不可能一帧一帧的检测,只能人工审。
    zixincao
        77
    zixincao  
       2014-10-13 18:35:13 +08:00
    @RangerWolf 我觉得通过声音来识别代价会比图片识别小
    kost
        78
    kost  
       2014-10-13 21:30:59 +08:00
    以前在贴吧也有过滤的机制,开始写了一些识别图片的算法, 防止网友们上传不良图片,但是后来执行起来发现好多其他的图片也会中枪,比如动漫卡通人物等等,误杀率太高。后来就改为人工审核。不知道现在情况如何了。
    mnhkahn
        79
    mnhkahn  
       2014-10-14 09:05:50 +08:00
    我觉得最早是人工过滤可能性比较大,人工过滤用不了几个钱
    xpol
        80
    xpol  
       2014-10-14 23:20:24 +08:00
    可恨啊,珍藏变八秒啊。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1811 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 16:31 · PVG 00:31 · LAX 08:31 · JFK 11:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.