V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xwhxbg
V2EX  ›  TensorFlow

一个严肃的关于深度学习鉴黄的问题

  •  3
     
  •   xwhxbg · 2018-01-09 12:14:26 +08:00 · 17039 次点击
    这是一个创建于 2520 天前的主题,其中的信息可能已经有所发展或是发生改变。

    怎么鉴别平胸妹子?我试图把平胸妹子标记为黄图,但是会误伤没穿上衣的汉子啊,怎么办呢?

    98 条回复    2018-01-11 11:46:49 +08:00
    ballshapesdsd
        1
    ballshapesdsd  
       2018-01-09 12:16:26 +08:00   ❤️ 18
    求训练数据
    zhouyou457
        2
    zhouyou457  
       2018-01-09 12:18:09 +08:00 via iPhone
    先训练性别识别?
    am241
        3
    am241  
       2018-01-09 12:18:33 +08:00
    训练一个鉴别男女的网络?
    xwhxbg
        4
    xwhxbg  
    OP
       2018-01-09 12:19:51 +08:00
    @zhouyou457 平胸关键就是性别特征不明显啊,或者换个思路训练从脸识别性别?
    @ballshapesdsd 已屏蔽
    Cytion
        5
    Cytion  
       2018-01-09 12:21:27 +08:00 via Android   ❤️ 1
    我觉得吧……还有可能误伤到富有胸肌的汉子🌚
    gabon
        6
    gabon  
       2018-01-09 12:22:58 +08:00 via Android
    人眼看到能轻易的分辨出来吗,如果太平人都不好分辨机器应该也不容易吧。
    zhouyou457
        7
    zhouyou457  
       2018-01-09 12:28:26 +08:00 via iPhone
    @xwhxbg 说实话,现在性别识别难度还是有的,正常人都会有识别错误的时候...
    suzic
        8
    suzic  
       2018-01-09 12:28:40 +08:00 via Android
    试试把喉部的鉴定加上?
    xwhxbg
        9
    xwhxbg  
    OP
       2018-01-09 12:32:41 +08:00
    @Cytion 这个。。。测试样本里没有,回头试试
    @gabon 理论上可以从脸型啥的分辨性别,没露脸就没办法了
    @zhouyou457 就是要发现人眼看不出来的规律~
    @suzic 这个思路可以有,不过正面看可能不是很明显
    Nirvanada
        10
    Nirvanada  
       2018-01-09 12:34:24 +08:00 via Android
    可以从 nipple size detection 的角度考虑下 男女大小还是差很多的
    des
        11
    des  
       2018-01-09 12:36:08 +08:00 via Android   ❤️ 6
    后排说一句,凭什么妹子不穿上衣就是黄图,汉子就不是了!

    不穿衣服的都判定为黄图不行吗?
    qdwang
        12
    qdwang  
       2018-01-09 12:39:54 +08:00 via iPhone
    其实理论上有的情况是无法鉴别的,比如男的化妆成女的,裸上身,怎么叛别
    qdwang
        13
    qdwang  
       2018-01-09 12:40:37 +08:00 via iPhone
    考虑从骨骼角度,法医分析方向
    boboliu
        14
    boboliu  
       2018-01-09 12:42:28 +08:00
    @des 这个提议很有道理。。。而且可以解决楼主问题。。。但是一般人都不会把不穿上衣的汉子图算作黄图啊。。。
    des
        15
    des  
       2018-01-09 12:48:14 +08:00 via Android   ❤️ 2
    @boboliu 以及还有母猪照片这种,不知道楼主打算怎么处理
    zhouyou457
        16
    zhouyou457  
       2018-01-09 12:53:25 +08:00 via iPhone
    @xwhxbg 我在想,可不可以根据欧派大小来动态调整被 ban 几率...我估计太小的欧派也没多少人喜欢吧 :doge
    xwhxbg
        17
    xwhxbg  
    OP
       2018-01-09 12:54:31 +08:00
    @Nirvanada good point,我研究一下
    @des 不是我规定的啊。。。各大平台就是这么歧视女性的
    @qdwang possible
    xwhxbg
        18
    xwhxbg  
    OP
       2018-01-09 12:56:51 +08:00
    @zhouyou457 目前的结果是平胸妹子没穿上衣的话,SFW 评分大约有 0.57 左右,0 是 NSFW,1 是完全 SFW,严格的平台可能 SFW 低于 0.7 就不行了,不是那么严格的话其实 0.5 以下才会被判断为黄图
    xwhxbg
        19
    xwhxbg  
    OP
       2018-01-09 13:02:14 +08:00
    大家可能有点误会了,深度学习想指定某个特质去判别是比较困难的,目前我的水平只能通过操作样本空间来实现分类
    简单说,如果一个妹子的胸平到跟男生没差别,或者一个男孩子有个妹子的胸,深度学习都没法识别的
    supercaizehua
        20
    supercaizehua  
       2018-01-09 13:05:01 +08:00 via Android
    我记得以前看过帖子说百度网盘和 YouTube 都是通过音频检测叫床声来做的
    shintendo
        21
    shintendo  
       2018-01-09 13:20:16 +08:00
    @qdwang
    其实理论上有的情况是无法鉴别的,比如男的化妆成女的,裸上身,怎么叛别
    ----------------------
    还判别什么,那不是更好吗
    takato
        22
    takato  
       2018-01-09 13:21:45 +08:00 via iPhone
    如果先不打标签会形成怎样的聚类效果呢?
    x86
        23
    x86  
       2018-01-09 13:25:28 +08:00
    哈哈,昨天在贴吧看到个图片签名,挂鱼三骚上次直播事故截图,平胸没给鉴黄图屏蔽掉
    watzds
        24
    watzds  
       2018-01-09 13:28:33 +08:00 via Android
    你要相信深度学习的能力!它会区分两者的。
    zthxxx
        25
    zthxxx  
       2018-01-09 13:29:12 +08:00
    @xwhxbg 那么这有个问题,可♂爱的男孩子穿女装 lo 裙戴假发美瞳,下着穿得好好的,露着上身胸肌,有明显喉结,这样算黄图吗?
    (手动滑稽
    jadeity
        26
    jadeity  
       2018-01-09 13:35:44 +08:00
    @zthxxx 天生骨骼精奇没胸肌没喉结的算不?
    huijian222
        27
    huijian222  
       2018-01-09 13:45:46 +08:00
    在特征中加入脸部信息 不过那种人眼都看不见出来的就算了吧。。
    xwhxbg
        28
    xwhxbg  
    OP
       2018-01-09 13:46:21 +08:00
    @supercaizehua 我这只能鉴图。。。
    @takato 没试过,不过需要换模型,我目前是基于监督的
    @watzds That I do believe.
    @zthxxx 算.....ish?
    deadseven
        29
    deadseven  
       2018-01-09 14:04:03 +08:00
    Talk too much,just show me your code.
    lucifer9
        30
    lucifer9  
       2018-01-09 14:06:26 +08:00
    这个没明确标准的,别追求那么准确了
    没准儿明天男人也不让露胸了
    takato
        31
    takato  
       2018-01-09 14:10:18 +08:00
    @xwhxbg 用 autoencoder 试试。
    nandaye
        32
    nandaye  
       2018-01-09 14:18:49 +08:00 via Android
    如果是两个男的呢?不能光考虑女性啊
    xwhxbg
        33
    xwhxbg  
    OP
       2018-01-09 14:27:06 +08:00
    @takato 无监督学习,看起来值得一试
    @lucifer9 产品提需求。。。目前来看男人可以露胸。。。。
    @deadseven TensorFlow,softmax,open-nsfw
    Jouleken
        34
    Jouleken  
       2018-01-09 14:31:56 +08:00   ❤️ 1
    1. 乳头的面积在整个胸部的占比可以作为判断之一;
    2. 乳头的面积和乳晕的面积占比也可以作为判断之一;
    3. 有胸毛的可以排除是女性,有胸毛的女性几率极小;
    takato
        35
    takato  
       2018-01-09 14:32:06 +08:00
    @xwhxbg 如果顺利的话,之后标注一些个别数据,就能推得一个相对合理的最终结果,对标注也是一件省力的事情。
    xomix
        36
    xomix  
       2018-01-09 14:38:23 +08:00   ❤️ 1
    分不清,如果产品胡搅蛮缠,你就在大会上拿出:
    平而且汉子脸的妹子
    妹子脸的汉子
    女装大佬

    让产品识别,多找几张,产品识别失败就告诉他,人都很难识别,别说机器了。
    bravecarrot
        37
    bravecarrot  
       2018-01-09 14:40:10 +08:00
    求训练数据+1
    yksoft1
        38
    yksoft1  
       2018-01-09 15:05:49 +08:00   ❤️ 1
    话说就怕把 12-13 左右的男孩子给鉴别成少女
    Jimmy1573
        39
    Jimmy1573  
       2018-01-09 15:09:23 +08:00
    从 nipple size 下手 ←_←
    learnshare
        40
    learnshare  
       2018-01-09 15:09:25 +08:00
    人能辨别的特征就能够让机器学习到
    xwhxbg
        41
    xwhxbg  
    OP
       2018-01-09 15:25:33 +08:00
    @takato 标注后期准备做个免费 API 给大家用,如果使用者想要改进,可以帮忙标注
    @bravecarrot 已屏蔽
    @learnshare 也不一定,即使可以,目前以我的水平也很难实现
    em84
        42
    em84  
       2018-01-09 15:57:58 +08:00
    没穿衣服的汉字就不是黄图了吗
    supercaizehua
        43
    supercaizehua  
       2018-01-09 16:08:17 +08:00 via Android
    @xwhxbg 标注数据集是一件很幸苦的事情,工作量大,吃力不讨好,为你点个赞
    Lax
        44
    Lax  
       2018-01-09 16:13:04 +08:00
    对深度学习了解不多。但是那些朋友说要针对某个 /某几个特征去做判定规则,感觉深度学习不是那种思路。
    xwhxbg
        45
    xwhxbg  
    OP
       2018-01-09 16:30:55 +08:00
    @em84 Nope
    @supercaizehua 确实,不过我这个还好,我做了个小 APP,左滑黄图,右滑不黄,有个 X 可以后悔,平时上班路上就可劲儿滑。。。
    @Lax 可以把有这个特征的单独标记成一类,然后先跑鉴黄,再跑 softmax 分类,不一定是一个模型就全搞定了
    CloudnuY
        46
    CloudnuY  
       2018-01-09 16:43:14 +08:00
    直接把所有 RT 加上小爱心❤️,管他男的女的
    shintendo
        47
    shintendo  
       2018-01-09 16:57:30 +08:00
    如何定义尺度呢,毕竟有大量的图片介于黄和不黄之间,取决于看的人的主观判定
    takato
        48
    takato  
       2018-01-09 17:02:09 +08:00
    @Lax 是的,如果从术语上将,那些人说的是“符号主义”,在深度学习兴起之前是主流。
    深度学习兴起之后,普遍认为“联结主义”更符合现实。
    allenlee7c9
        49
    allenlee7c9  
       2018-01-09 17:10:35 +08:00 via Android
    @xwhxbg 上班路上在那可劲儿划拉一堆黄图不会被当作变态么😂
    lyusantu
        50
    lyusantu  
       2018-01-09 17:19:13 +08:00
    上有政策,下有对策
    monnand
        51
    monnand  
       2018-01-09 17:24:15 +08:00 via Android
    我也想提一个严肃的问题,gay, ts, shemale, ladyboy 这些系列就不在考虑范围吗?
    xwhxbg
        52
    xwhxbg  
    OP
       2018-01-09 17:43:28 +08:00
    @shintendo 目的是为了节省人力审核,尺度可以调整,具体到这里就是 SFW 的值,越大越严格
    @takato 个人觉得可以认为他们属于用 classify 的方式看待问题,理论上如果我把所有的 big nipple 作为一个分类,是可以实现其他人说的特质分析的
    @monnand 如果着装 OK 的话,性别和性取向无关
    takato
        53
    takato  
       2018-01-09 18:07:53 +08:00
    @xwhxbg 可以把每一层的数据都打出来看一下,然后你就明白了。

    人工提取特征是一件吃力不讨好的事情。。准确度还远小于机器。。

    然后你就会发现一些逻辑学上的悖论了。。
    allgy
        54
    allgy  
       2018-01-09 18:11:38 +08:00
    识别喉结?
    param
        55
    param  
       2018-01-09 18:13:31 +08:00 via Android
    为什么同样的照片,男性就算是“黄”,而不行就不能算是“黄”呢?难道只允许男性裸露上身,女性裸露上身就算是“黄”了?
    rswl
        56
    rswl  
       2018-01-09 18:17:13 +08:00
    一般宁杀错
    param
        57
    param  
       2018-01-09 18:19:42 +08:00 via Android
    黄不黄的标准,看有没有性描述、挑逗等等,更加合理。单纯赤裸上身算什么黄图。
    zingl
        58
    zingl  
       2018-01-09 20:34:04 +08:00
    试图从技术层面解决一个不符合基本逻辑的问题:汉子裸胸 OK,妹子裸胸涉黄
    WildCat
        59
    WildCat  
       2018-01-09 20:50:32 +08:00 via iPhone
    其实还有汉子的胸更大的情况吧
    singer
        60
    singer  
       2018-01-09 23:01:57 +08:00 via iPhone
    胸宽。点宽。比例。你试试?
    Trim21
        61
    Trim21  
       2018-01-09 23:07:28 +08:00
    既然男女的标准不一样,就先判断性别...
    akira
        62
    akira  
       2018-01-09 23:38:59 +08:00
    一堆男的有 B 兆杯
    alvinbone88
        63
    alvinbone88  
       2018-01-09 23:52:17 +08:00
    如果要识别性别的话,可以考虑计算手、脚的大小,腰围,臀围以及大腿,有可能还要加上面部识别

    一般来说,男的手脚相对来说大一些,腰也会比女的要粗;男的大腿和臀部没有女的那么丰满

    最后问一句,楼主的算法能识别 gay 片不?
    des
        64
    des  
       2018-01-10 00:12:46 +08:00 via Android
    @alvinbone88 怎么,你想借一部说话么?
    Faiz555
        65
    Faiz555  
       2018-01-10 00:17:49 +08:00
    如果是胖子怎么办,不是平胸呢
    alvinbone88
        66
    alvinbone88  
       2018-01-10 00:25:11 +08:00
    @des #64 不不不,纯粹是好奇
    orvice
        67
    orvice  
       2018-01-10 00:30:46 +08:00
    有时候路上都会和朋友讨论下刚刚走过去的是男还是女- -
    机器更不知道了 233
    shiyouming91
        68
    shiyouming91  
       2018-01-10 04:52:25 +08:00 via iPhone
    求训练数据顺便求 block😂
    shakespark
        69
    shakespark  
       2018-01-10 08:48:15 +08:00
    @alvinbone88 出门右转 500 米就到 pornhub
    shakespark
        70
    shakespark  
       2018-01-10 08:48:46 +08:00
    @shiyouming91 为啥要自求 block
    VicYu
        71
    VicYu  
       2018-01-10 09:08:54 +08:00
    乳头间距和肩宽,有一个比例,男女的值不一样

    帮你找找当时的数据,14 年做的,有点困难
    northisland
        72
    northisland  
       2018-01-10 09:22:56 +08:00
    既然都做了这么事儿逼的项目了,标准当然设的严一点啊

    做了这种项目,就比较类似临时工,关键时刻给内容审查、精神文明顶雷的。要有觉悟
    northisland
        73
    northisland  
       2018-01-10 09:29:49 +08:00
    @VicYu

    作这事是一大串模式识别的 pipeline 么?
    wildlynx
        74
    wildlynx  
       2018-01-10 09:42:23 +08:00
    不是“宁可错杀千个,不可放过一个”吗?
    mcone
        75
    mcone  
       2018-01-10 09:44:47 +08:00   ❤️ 1
    楼主你到底之前做过这个方向吗?看了一遍你的回复,我觉得你不太像是遇到问题求助,而是试图通过大家来入门这项工作;如果我判断错的话,我觉得你可能需要重新理一下你的思路

    我室友两年前做过这个,还发了一篇 ccfc 的垃圾会议,一个求数据的都被你屏蔽掉,我也是非常不理解,这一块真的没有像样的公开数据集,你的数据怎么来的,除非是自己抓的,不然难道没有自带 label ?至少作为甲方,乙方难道没有一个大致的需求进一步来细化某些问题(是否区分男女,图片是否露脸等)?

    另外,看你多次提到 open-nsfw,我由于室友的关系也接触过这个,只想说啊……尽信书不如无书。如果这句话做不到的话,那就尽信书别求创新就行了,至少自己不会把自己推入一个看似努力但是没什么卵用的大坑
    xwhxbg
        76
    xwhxbg  
    OP
       2018-01-10 10:04:52 +08:00
    @alvinbone88 不能。。。ish,我的样本没有那么丰富 T T
    @shiyouming91 左转 metart,我数据在那爬的
    @northisland 是啊,我都想设置 0.3NSFW 就屏蔽了。。。
    @mcone 我没做过这个方向,而且以前是前端来着。。。赶鸭子上架了,开口求数据的几位同学我观察了一下,可能单纯就是求黄图的,我的数据是 metart 上抓的,然后手动分类,训练集 1500 黄图,1500 不黄的,没得甲方,产品爸爸提的需求,不关心我怎么实现。open-nsfw 主要提供参考,我是用的 TensorFlow,它用的 Caffe,不过它的 loss 函数和激发函数都很有价值。这方面的书我基本没看过,有啥推荐的么,目前在看 andrew ng 的课,比较基础。
    xwhxbg
        77
    xwhxbg  
    OP
       2018-01-10 10:12:56 +08:00
    感觉大家对深度学习有点误会,类似于体征比如 cup 这样的数据从图上面是得不到的,除非你有人家体检的数据

    总结了一下各个楼层的回答,目前看来比较可行的是通过无监督学习先去分类,然后看看哪些类是黄图。

    其余的方法,比如测量 nipple 的大小是基本不可行的,图的像素分布并不能决定这个,除非能有体检的数据

    另外我是真的很水啊,我以前是前端来着,深度学习是因为产品爸爸有需求,然后公司又不大,所以我就来做了

    到今天我还在看人家的视频 tutorial 呢。。。
    mcone
        78
    mcone  
       2018-01-10 10:14:01 +08:00
    @xwhxbg 难怪,看你回复感觉就不是做这个的……

    没有甲方就去问产品爸爸吧,让他把需求进一步细化,你的疑问都丢给他过一遍再说。另外,你这正负样本加起来才 3k …………你让产品爸爸想办法在数据集后面加两个 0 吧,最起码加一个 0 然后用 svm 之类的简单分类器;不然要么放弃训练只拿别人模型做测试,结果随缘,要么让这个 PM 滚……

    另外,如果赶鸭子上架的话,如果不是时间特别宽裕个人建议别看 dl 的课程了,学完了你也会发现在应用中没啥大用(实际工业中几乎都是掉包侠,谁管你反向传播公式怎么推)。真想看的话,找一本统计机器学习的书从基础慢慢啃,DL 理论上主要就是数学基础+网络拓扑两部分
    Raidal
        79
    Raidal  
       2018-01-10 10:15:54 +08:00
    训练识别脸也越来越难,现在很多小男生脸部特征越来越像女生,:)逃
    auhah
        80
    auhah  
       2018-01-10 10:16:36 +08:00
    学会拒绝产品的不合理需求
    capo
        81
    capo  
       2018-01-10 10:19:23 +08:00
    深度学习的话想把模型往某个方向调整,可以试着自己主动在样本里加一些符合该方向的例子,比如你放一些没穿上衣的汉子以及一些平胸妹子,调调参让模型自己拟合玩去就行了。当然如果放太多了也会影响模型的中心思想,因为可能过分违背了真实分布。
    gleymonkey
        82
    gleymonkey  
       2018-01-10 10:22:11 +08:00
    双性人怎么办,大屌萌妹。
    xwhxbg
        83
    xwhxbg  
    OP
       2018-01-10 10:23:43 +08:00
    @mcone 数学基础还好,我之前上大学的时候学的应用数学,所以简单的概率论,数理统计,微积分都还能应付,我观察了一下 DL 所需要的知识结构,欠缺的主要是离散数学相关的知识,网络拓扑也完全没学过。。。。

    然后主要是 2018 了,大家都在搞 DL,感觉不搞一下工作都找不到了,个人觉得姑且还是学习一下,起码要有调参侠的水平,另外谢谢你的建议,very helpful !
    @auhah 产品是爸爸,我们公司的产品的地位只在 CEO 之下,而我的地位大约是跟扫地大妈平级。。。。
    ELLIA
        84
    ELLIA  
       2018-01-10 10:36:21 +08:00
    你这是涉嫌歧视平胸女性啊!暗讽他们是汉子!应该予以封号!
    dbsquirrel
        85
    dbsquirrel  
       2018-01-10 10:40:48 +08:00 via iPhone
    才 3000 数据量太少了。。。 这做出来肯定分类结果不好 建议先多收集数据
    aaronzjw
        86
    aaronzjw  
       2018-01-10 10:53:23 +08:00
    求数据,我感觉应该可以用 GAN 做个模型,吧平胸变成 BCDEF
    xomix
        87
    xomix  
       2018-01-10 11:32:36 +08:00
    我在跟你加一个恐怖的分类怕你人工都不想识别。
    胖子和比较胖的孕妇裸露上身。
    想想我都觉得可怕。
    EyreFree
        88
    EyreFree  
       2018-01-10 11:35:50 +08:00
    求问怎样识别女装大佬...
    carmark
        89
    carmark  
       2018-01-10 11:38:57 +08:00
    nullcoder
        90
    nullcoder  
       2018-01-10 11:40:08 +08:00
    3000 的数据量。。。。
    你确定你入门了吗? mcone 的回复很中肯了。
    另外如果某一类可能误杀( false positive ),就应该增大这类数据在训练集的比重。
    boileryao
        91
    boileryao  
       2018-01-10 11:41:44 +08:00 via Android
    A Cup 的妹子 nipple 还是要比男孩子大不少的 (逃
    tubanwu
        92
    tubanwu  
       2018-01-10 11:42:56 +08:00 via Android
    除了胸男女体脂分布骨骼都不一样什么肩膀手臂腰臀都能识别啊😯
    crab
        93
    crab  
       2018-01-10 11:44:29 +08:00
    平胸没乳头吗?
    bruce00
        94
    bruce00  
       2018-01-10 13:20:13 +08:00
    你们为什么要帮楼主
    dassh
        95
    dassh  
       2018-01-10 13:42:51 +08:00
    nipple 大小 /nipples 之间距离,这个比例值,肯定女的大于男的,所以如果露 2 点的话。问题就可以简化成简单的图形处理了,可以看看 opencv 大概步骤,大概就是先提取特定 nipple 颜色(粉、棕、黑?),再求 nipples 之前的距离,算比例。
    xwhxbg
        96
    xwhxbg  
    OP
       2018-01-10 14:13:26 +08:00
    @dbsquirrel 3000 都收集了很久了。。。现在公司都是短平快,没有鸡就要你生蛋的
    @nullcoder I can't say that I do.
    @tubanwu 我上面说了,要是我有体检数据那就不用这样了呀
    GenkunAbe
        97
    GenkunAbe  
       2018-01-10 22:58:00 +08:00 via Android
    对于一些比较 hard 的 cases,我觉得可以考虑用 bootstrap 的思想,提高它们对于超参的影响权重。另外,据我所知这个需求已经有现成的接口可以调用了,为何要重复造轮子。
    xwhxbg
        98
    xwhxbg  
    OP
       2018-01-11 11:46:49 +08:00
    @GenkunAbe 是有的,图谱,但是要付钱,而我对于公司来说不需要付额外的费用呀
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1388 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 17:40 · PVG 01:40 · LAX 09:40 · JFK 12:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.