V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
yx1100
V2EX  ›  程序员

本科毕设主题是「网络谣言识别」,完全没有思路,有没有大神可以指点一下迷津,感激不尽

  •  
  •   yx1100 · 2019-03-09 09:14:58 +08:00 · 12699 次点击
    这是一个创建于 2115 天前的主题,其中的信息可能已经有所发展或是发生改变。

    导师比较坑爹,只给了个这么个方向就了无音讯了。

    目前的背景情况是:平时的课程「几乎没有」学习过相关的技术,大概只知道可能要用到 Python、机器学习相关的知识,但具体再细分的就不清楚了。

    有个学长大概给了个思路:

    1. 拿一些现成的句子
    2. 使用机器学习中的 svm knn 还有优化后的算法进行训练
    3. 拿其他的句子进行比较分析准确率、召回率就好了

    1. 取一些常用的网络谣言
    2. 提取谣言的特征(语义的理解)对谣言进行分类(机器学习中较为常见的 svm 等)
    3. 使用你的优化的特征算法与传统的特征算法进行比较得出结论:你最好

    然而我承认比较学渣,也没看的懂他说的意思。。。

    所以想问的是,有没有大神指点一下,我这个学长他说的这个每个阶段,具体指的是什么?该做的是什么?比如他说谣言分类用 SVM,这个「分类」和「 SVM 」之间怎么联系起来?有没有什么「相关的推荐的书、视频、课程、论文之类的」可以阅读学习参考的?

    说到底就是,我现在到底应该干什么😂,越具体越好。现在完全无从下手

    如有帮助,万分感谢🙏

    第 1 条附言  ·  2019-03-09 12:28:58 +08:00
    截止到 3 月 9 日 12:30 分,61 楼回复。

    我的导师给了一段话「网络谣言诞生具有一些典型特征,传播特性是其中一个重要特征。如何总结谣言的传播路径、传播时间特性、传播者行为特征来识别谣言,对网络空间安全有重要意义。该题目需要大量收集资料,分析整理出可行方法,并简单加以实验验证。」

    感觉好像变成通过特征来识别了?这个还是通过机器学习来实现吗?

    迷...
    第 2 条附言  ·  2019-03-09 19:05:29 +08:00
    截止到 3 月 9 日 19:03,114 楼回复

    可能有几点需要说明一下:

    1. 这个题目是我自己选的,但我选之前确实没有这方面的了解。我们学校是这样的,所有老师每个人给出几个题目,然后汇总起来,让全院学生一起选,我只是「刚好选了」这么个题目而已,选之前我也完全没有接触过我的导师;

    2. 其实大家心里应该也有数,只是一篇本科毕业论文而已,我也只是想写出来混个毕业,所以并不是要能做出个多「完美能用」的东西出来,只要意思够了就行了。所以就是来求个思路而已;

    3. 我咨询的这个学长和这个选题和我的导师没有任何关系,只是我一个关系比较好的直系学长而已,他也不是做这方面研究的。所以他只是「建议」我这么去做而已;

    4. 做不做得了我都要做,就是因为我不会所以才来问的。如果一遇到困难就撒手的话,那永远都一事无成。所以我先谢谢所有提供帮助的人,留言太多了,我也没法一条一条的回复,感谢帮助🙏。
    135 条回复    2019-03-23 15:44:53 +08:00
    1  2  
    webfamer
        1
    webfamer  
       2019-03-09 09:20:56 +08:00 via Android
    我的毕设题是 基于模糊控制的智能油烟机.....
    dangyuluo
        2
    dangyuluo  
       2019-03-09 09:21:08 +08:00   ❤️ 38
    ```python
    rumor_words=["彻底出名了", "恳请帮忙", "马上就删了", "危害更大", "剧毒", "最新!", ...]
    for f in rumor_words:
    if f in text:
    return true
    ```
    yangzhezjgs
        3
    yangzhezjgs  
       2019-03-09 09:21:30 +08:00
    先了解一下文本分类的概念,然后了解分词,文本向量化(word2vec 等),最后分类算法
    《机器学习实战》第四章有个文本分类的例子,你可以学习一下,入个门
    https://book.douban.com/subject/24703171/
    greatx
        4
    greatx  
       2019-03-09 09:22:47 +08:00
    为什么不在百度学术 /谷歌学术之类的网站搜一搜关键词,了解一下别人怎么做的。
    yx1100
        5
    yx1100  
    OP
       2019-03-09 09:26:15 +08:00
    @yangzhezjgs 我在图书馆借了一本周志华的《机器学习》(那本西瓜书)。我简单翻了一下,那个是不是好像偏理论?你推荐的这个是偏实战操作的?

    😂我现在就是时间不是很多了,所以想能直接上手做完就够了,没那么多时间从头再学了。

    先谢谢你的帮助
    swulling
        6
    swulling  
       2019-03-09 09:28:28 +08:00 via iPhone
    机器学习什么时候能识别谣言了?随便做做吧…
    yx1100
        7
    yx1100  
    OP
       2019-03-09 09:28:35 +08:00
    @greatx 搜过了,并不多。相关的论文期刊都是一些偏理论讨论的,都是些算法之类的。并没有具体怎么做的。我们导师的要求是要「基本」(通过率不做过高的要求)能实现这个功能,他也说了,目前这个方向研究的人并不是特别的多
    xfcy
        8
    xfcy  
       2019-03-09 09:29:32 +08:00 via Android
    扒一下腾讯较真的 api (//∇//)
    yangzhezjgs
        9
    yangzhezjgs  
       2019-03-09 09:29:37 +08:00
    @yx1100 是偏实际操作的,但是未必符合你的要求
    yx1100
        11
    yx1100  
    OP
       2019-03-09 09:29:42 +08:00
    @swulling emmm,我就是因为不太懂,所以只是大概了解一下「可能」是这个方向。如果我说的不对,还希望能指明一下
    wobushizhangsan
        12
    wobushizhangsan  
       2019-03-09 09:30:35 +08:00 via Android
    前段时间看了一个谣言判断的,忘了是哪家的了。大概意思是看这个消息被哪些人转发过,有没有知名人士评论,如果有相关专业的知名人士给背书,大概率是真的。
    lhx2008
        13
    lhx2008  
       2019-03-09 09:32:18 +08:00 via Android
    就那么几种训练方法,主要是分词和词选择,人工打表估计准确率也不会低
    clifftts
        14
    clifftts  
       2019-03-09 09:34:00 +08:00
    阿里达摩院不是出了一个谣言粉碎机嘛
    zzj0311
        15
    zzj0311  
       2019-03-09 09:36:05 +08:00 via Android
    这种反正肯定做不好的东西就 xjb 扯就对了
    Tomotoes
        16
    Tomotoes  
       2019-03-09 09:36:05 +08:00 via Android
    很好奇,谣言中能有什么识别特征。。
    xiaomimei
        17
    xiaomimei  
       2019-03-09 09:39:03 +08:00 via Android
    yx1100
        18
    yx1100  
    OP
       2019-03-09 09:44:34 +08:00
    @zzj0311 能扯都好了,我的开题报告直接被导师驳回了,说写的太少了,没有具体的计划,要至少 5 页纸。。。
    yx1100
        19
    yx1100  
    OP
       2019-03-09 09:48:36 +08:00
    @necomancer 谢谢,我去看看先。英文的就是一是阅读理解有点麻烦,二是我下不了😂

    不过还是先谢谢,我想想办法
    yx1100
        20
    yx1100  
    OP
       2019-03-09 09:53:06 +08:00   ❤️ 1
    @clifftts 我导师要求的应该是要自己实现,这个现成的东西可能没办法直接用。

    而且我 Google 了一下,也没查到这个东西具体是个什么😂
    murmur
        21
    murmur  
       2019-03-09 09:54:08 +08:00   ❤️ 5
    人都识别不了谣言
    机器怎么识别
    难道是先用爬虫爬江宁婆婆的微博 然后和被识别文章对比?
    zjsxwc
        22
    zjsxwc  
       2019-03-09 10:01:41 +08:00
    监督学习 能够 判断 这句 “明天股票要涨了” 算不算谣言?



    如果可以的话,楼主可以发财了! 233333333
    php01
        23
    php01  
       2019-03-09 10:02:25 +08:00
    连人都识别不了谣言,你这毕设主题也太托大了吧
    php01
        24
    php01  
       2019-03-09 10:03:43 +08:00   ❤️ 1
    比如,惊!赶紧看!世界上第一个可以识别谣言的程序!这本身就是谣言
    bumz
        25
    bumz  
       2019-03-09 10:07:56 +08:00
    如果把谣言定义为「与事实不符的言论」,那想机器识别谣言,先得具有强人工智能,既能自己了解和考证事实,又能完全理解人类语言。然而人类语言的模糊性决定了许多陈述压根无从判定,例如「明天下雨」,哪下雨,什么时候下雨,下多少算下雨?有些地方成天下雨,是不是也算?

    如果把谣言定义为「看上去像谣言的言论」,「带有煽动性语言的言论」,那么简单地只要关键词匹配,复杂一点的用大量样例让机器自己学习,可以用统计学方法,也可以用正火的神经网络
    necomancer
        27
    necomancer  
       2019-03-09 10:19:15 +08:00
    @yx1100 你要是用校园网应该能直接下啊?学校不一般都买版权的吗?..... 要不去找找 sci-hub 一类的网站吧
    Yvette
        28
    Yvette  
       2019-03-09 10:19:36 +08:00
    你搜一些用 SVM 做 Sentimental Analysis 的(英文)博客看看就好,很多都会把代码贴上去,动手试试大概就理解一些了。或者看看吴恩达的讲义,大概知道是什么东西之后就能看懂你学长给的思路了。本质上跟你的这个差不多,就是中英文的 NLP 可能有些区别。
    zst
        29
    zst  
       2019-03-09 10:19:50 +08:00 via Android
    讲道理如果是公众号文章的话,开头一堆花花绿绿的求关注的八成都是谣言
    cnkuner
        30
    cnkuner  
       2019-03-09 10:20:50 +08:00 via Android
    这玩意如果你考虑上机器学习,就要涉及自然语意、分词、词性、表达情感这些东西。建议你总结个关键词列表比较容易,比如震惊、致癌、不转不是中国人、删前速看这种。
    reechangs
        31
    reechangs  
       2019-03-09 10:21:39 +08:00 via Android
    这个题目选的真的糟糕......
    pkokp8
        32
    pkokp8  
       2019-03-09 10:24:17 +08:00 via Android
    爬取信息,上传公安局,网警进行核查,等待并爬取书面结果,返回
    scdylk
        33
    scdylk  
       2019-03-09 10:35:05 +08:00 via iPhone
    都三月了 现在才开始看理论来不及吧 先看 python 基本使用 看看 numpy jieba sklearn nltk 的基本使用方法 最后找找文本分类的几个例子套用进去。
    asdqaz
        34
    asdqaz  
       2019-03-09 10:39:26 +08:00 via Android
    反向对比
    科学没提过,就判定谣言
    Lax
        35
    Lax  
       2019-03-09 10:47:56 +08:00
    事实判断没办法做啊!

    从谣言定义来看,可以暂时抛开事实判断这一步。
    找个角度,比如可以先看因果论证(证据 /推理链)是不是完整,缺乏证据或推理不完整的判定为谣言。
    比如楼上说“明天股票要涨了”缺前提条件和推理过程,直接就分到谣言里。
    Lax
        36
    Lax  
       2019-03-09 10:49:25 +08:00
    @reechangs “这个题目选的真的糟糕......” ---- 这个选题做好了怎么也给个图灵奖
    juju123
        37
    juju123  
       2019-03-09 10:50:34 +08:00
    这个主题很坑,目前谣言识别主要还是靠人工,不过系统可以作为辅助。系统做简单点,建一个谣言关键词库,一个文章里包含谣言关键词的比例达到多少可能是谣言。
    xianxiaobo
        38
    xianxiaobo  
       2019-03-09 10:53:35 +08:00
    找一个谣言库,找一个不是谣言的库,反复练习?
    R18
        39
    R18  
       2019-03-09 10:54:32 +08:00 via Android
    调用各大厂商的接口 :)
    gam2046
        40
    gam2046  
       2019-03-09 10:57:03 +08:00   ❤️ 1
    谣言怎么定义?

    是基于客观世界的事实做出的判断,而不是特定的语法结构或句式。换而言之,这个真的可以用机器学习嘛?

    举个例子来说,今天我说“朝鲜把美国从地球上抹除了”,这显然是谣言,但是如果明天,这件事真的发生了,那就不是谣言了。但是这句话本身并没有变,而是客观世界发生了改变。

    那么问题来了,机器学习的判断依据,也就是客观世界的每时每刻的变化,要源源不断的进行输入,这是否有可能实现?我简单的理解,基于神经网络的机器学习,最终就是一个多项式求和。然而由于判断依据一直在发生改变(客观世界一直在变化),那么这个多项式中每一项的权重都在大幅度的变化,这个多项式最终是否真的能够收敛?
    ifxo
        41
    ifxo  
       2019-03-09 10:58:02 +08:00
    首先得有可靠消息源吧,不然是不是谣言怎么能分辨呢,除了人工没有办法
    ex2vkf
        42
    ex2vkf  
       2019-03-09 10:58:50 +08:00
    建议去看看推特有没有合适的数据
    lxy42
        43
    lxy42  
       2019-03-09 11:02:53 +08:00 via Android
    和垃圾邮件识别有一点点类似,关键是谣言就算是普通人也难以识别。简单点的话就按照垃圾邮件识别的套路去做。
    FrankFang128
        44
    FrankFang128  
       2019-03-09 11:05:10 +08:00
    看外链个数和外链域名
    Williamongh
        45
    Williamongh  
       2019-03-09 11:18:04 +08:00
    @lxy42 这位说的很有道理。建议 LZ 直接搜索学习一下垃圾邮件识别的算法,搞一下。
    v2et
        46
    v2et  
       2019-03-09 11:23:07 +08:00
    怎么感觉做出来都可以发 paper 了……
    vicvinc
        47
    vicvinc  
       2019-03-09 11:35:14 +08:00
    我来冒充个大神,分词 => KenLM 提取特征向量 => 谣言 Model
    dxgfalcongbit
        48
    dxgfalcongbit  
       2019-03-09 11:35:14 +08:00
    鸵鸟政策就是个谣言,而且还传得很广,人在近距离观察鸵鸟时凭直觉就能明白这是个谣言,用网络信息来辨别这个谣言反倒有些困难。
    111qqz
        49
    111qqz  
       2019-03-09 11:38:37 +08:00 via Android
    这有点难吧……
    summer1988
        50
    summer1988  
       2019-03-09 11:40:35 +08:00
    1. 首先你需要一个爬虫, 采集语料, 监控各大新闻论坛博主
    2. 你需要 GOOLE
    3. 你需要图书馆
    4. 你需要你自己干
    catalina
        51
    catalina  
       2019-03-09 11:47:21 +08:00 via Android   ❤️ 2
    “阿里技术”公号前几天写了一篇讲“谣言粉碎机”的原理的文章:
    https://s2.ax1x.com/2019/03/09/ASt27T.jpg
    Eugene1024
        52
    Eugene1024  
       2019-03-09 11:48:01 +08:00
    训练语义识别 先识别简单的,而且你需要想下无论是你的程序也好算法也好是如何判断谣言的,后面可以逐逐渐优化
    Monstercat
        53
    Monstercat  
       2019-03-09 11:49:29 +08:00 via Android
    单纯靠语义分析是不可能的
    waruqi
        54
    waruqi  
       2019-03-09 11:53:59 +08:00 via Android
    现在什么都要扯上 ai 机器学习 智能 等字样 连毕设也如此了 哎。
    mosir
        55
    mosir  
       2019-03-09 12:00:34 +08:00   ❤️ 1
    1、收集已被认定的谣言,这个现在数量不少了。
    2、利用现有的分词处理模块,这里也可以选几种简单比较一下。
    3、然后用几种常见的方法处理训练就好了,推荐你找找贝叶斯、KNN 等关键词,你要有点野心,可以多找些分类器。
    4、分析总结,提出可能的改进方向。
    本科毕业设计重在利用现有技术进行分析比较,你稍微综合一下就好了,能有点创新那就是锦上添花,妥妥的优秀毕设了。
    siyushin
        56
    siyushin  
       2019-03-09 12:00:41 +08:00
    回溯源头,按是不是出自正规媒体加权。
    Raffaelloo
        57
    Raffaelloo  
       2019-03-09 12:01:34 +08:00
    本科毕设都这水平了啊,可怕。我觉得吧从社区论坛媒体用户数据画像下手会比从谣言本身下手容易。毕设主要的是过,你懂的,不适合做钻研技术
    otakustay
        58
    otakustay  
       2019-03-09 12:01:45 +08:00
    function isFakeBroadcasting(anyThingYouLike) {
    return true;
    }

    我说上面这算法 70%成功率不过分吧?
    glfpes
        59
    glfpes  
       2019-03-09 12:02:37 +08:00 via Android   ❤️ 2
    什么是谣言,什么不是,连人自己都不知道。
    不是讲的多的观点就是对的。
    glfpes
        60
    glfpes  
       2019-03-09 12:04:03 +08:00 via Android
    举个例子,老太太摔倒了,是讹人还是真的受害者?这你让机器去判断是不可能的。
    siyemiaokube
        61
    siyemiaokube  
       2019-03-09 12:15:03 +08:00 via iPhone
    赶紧换题目吧,这题目做好卖给 Facebook 一辈子不用愁了。多少人想打击 fake news,轮得上一个本科生搞?
    LU35
        62
    LU35  
       2019-03-09 12:26:50 +08:00 via Android
    @yx1100
    你这是要打脸嘛?

    原创译文 | 为什么 AI 不能解决 Facebook 的虚假新闻问题
    https://cloud.tencent.com/developer/article/1100933

    原文
    https://www.theverge.com/2018/4/5/17202886/facebook-fake-news-moderation-ai-challenges
    1648820920
        63
    1648820920  
       2019-03-09 12:31:41 +08:00   ❤️ 1
    感觉选这种题目是想延迟毕业。。
    crab
        64
    crab  
       2019-03-09 12:32:18 +08:00   ❤️ 1
    @wobushizhangsan 背书还是会翻车的。某年亚视报道某人挂了,最后还活着。
    yx1100
        65
    yx1100  
    OP
       2019-03-09 12:33:24 +08:00
    @LU35 请问,怎么打脸了?我不是很懂你这个语气。

    况且这只是我的一个毕设题目而已,主动权并不在我的手上。

    如果你想说是我主动选的,确实是,但我之前是缺乏了解。现实情况是当时我也不会和我的导师去理论说,这个到底能不能做出,我只能是被动的去选择它。
    mscb
        66
    mscb  
       2019-03-09 12:35:37 +08:00 via Android
    如果是想应用机器学习,那么可以先好好考虑如何提取特征,但是单纯从文章本身很难看出来是否为谣言,需要从其他方面寻找特征。所以我认为这个课题应该是偏信息聚合方面的,机器学习方面的技术可以成为信息聚合的辅助。可以从人如何验证某个观点是否为谣言的角度出发来实现。
    所以大概可以分为这么几步:
    1 文章关键信息提取,信息蒸馏。可以看看相关 paper,如果不太会的话就用“主题模型”等这些算法提取一下文章关键词。
    2 爬虫,爬去相关比较专业的网站。比如一些期刊一些国际医疗组织的文章等等。这个比较麻烦,这些数据直接决定了最终效果。
    3 想办法对这些专业网站的关键信息进行提取,以能准确提取出一个“专业观点”为目的。这个是最难的,这些文章很专业,和网络上的流水文不一样。
    4 如果能完成第 3 步,接下来就是文章关键词和专业观点匹配了,这个相对来说简单一点。
    5 得到观点匹配数据以后,就能把这个作为特征(关键词匹配度,相关专业文章的权重,时效性等等),搞个神经网络、SVM、决策树什么的进行二分类。

    我认为做这个课题难度太大了😂,建议选点简单的。
    largecat
        67
    largecat  
       2019-03-09 12:38:19 +08:00 via Android
    在商言商,在计算机圈只能想到编程,
    我觉得这个问题可以脱离编程,人工智能也更加遥远
    可以考虑一些社会学工程类的想法啊。


    比如有一个纯公益平台,非盈利性,就像维基百科,大家想找什么东西真伪都会去这个平台,
    而且提供一个通用接口,和几大互联网大平台合作比如百度腾讯(你这个是论文,尽管放开想象,百度腾讯不一定会给你机会合作,反正就是假设嘛,), 和他们合作并在一些比较偏僻的角落或者聊天创建偶尔甚至一天只一次,闪现一个真伪短句按钮,用户只需要是还是否给予反馈。


    平台根据全国用户的反馈来做一些分析,但是简单多了,
    LU35
        68
    LU35  
       2019-03-09 12:39:36 +08:00 via Android   ❤️ 1
    @yx1100
    我的意思是你选题前连花 5 分钟时间 google 一下的时间都没有吗?还是说毕设对你来说无所谓。
    关于打脸的意思,众多大佬说做不了,你是要打脸他们说能做吗?
    lxy42
        69
    lxy42  
       2019-03-09 12:44:30 +08:00 via Android
    可能这个毕设的目的还是侧重理论分析,然后写一个 demo 级别的程序去验证。实现 100%功能是不太可能的。
    ayase252
        70
    ayase252  
       2019-03-09 12:51:55 +08:00 via iPhone
    首先先明确一下问题,是识别句子“看起来像”谣言还是识别句子“是”谣言。这两个问题的难度可是天差地别的。
    yx1100
        71
    yx1100  
    OP
       2019-03-09 12:54:30 +08:00
    @LU35 首先,我承认我没有第一时间去查证。但是,即使你发的那篇文章也只是一家之词,如果真的毫无希望,为什么国内外还有那么多人在研究?其次,题目是老师出的让我们选的,我不会想着说老师会出个根本做不出来的东西来刁难我的。然后,我觉得大多数人都在给我提供帮助,其他人也只是说难,并没有所谓的「众多大佬说做不了」。最后,我很清楚的说了,我只是来求个思路的,我也没要有人直接给我一个或者我要一个现成的东西,我觉得大家都是在平等的交流而已,我也不觉得就算我真的有本事做出来,就是打谁的脸了。

    完毕。

    我希望还是说技术的多,不要再有这些情绪方面的争论了。再有我也不想回复了。仁者见仁,智者见智吧。
    yx1100
        72
    yx1100  
    OP
       2019-03-09 12:55:38 +08:00
    @lxy42 是的,我问了我以前的学长,差不多到这个程度,毕设就可以通过了。其实我就是想安心毕业,也不是要真的做出个啥东西来😂
    xxgirl2
        73
    xxgirl2  
       2019-03-09 12:55:39 +08:00
    https://medium.com/@sheseee/6c71bf4e347
    确实存在这么个机器人,大概就是你的题目要求吧。

    本科做这种东西是真大佬。
    grimpil
        74
    grimpil  
       2019-03-09 13:09:16 +08:00 via Android
    难道只有做到 100%识别谣言才有意义?
    asdqaz
        75
    asdqaz  
       2019-03-09 13:16:06 +08:00 via Android
    另外,楼主做不到太高,甚至会大量误伤
    从微信到工信部,文化部再到中科院
    都想要这样的东西
    yuikns
        76
    yuikns  
       2019-03-09 13:16:48 +08:00   ❤️ 1
    我没做过。这个做得非常准确很难,f1 跑个 80, 90 还是不困难的。主要是低水平的太多了。

    下面有个我小时候的习作,大致就是 dataset 下面有两个目录,分别是 baseball 相关的邮件和 hockey 相关的邮件。

    https://github.com/yuikns/hello-perceptron

    然后随机 shuffle 后用最粗糙的感知机做个 training 和 testing。

    英文邮件最重要的处理是 stem,就是取词干,去停用词。中文最重要的是分词,然后去停用词。

    然后每个文本样品通过上面的处理得到一个非常粗糙的 n 维数组( Xn ) 以及一个标记 1 或者 0 的 Y。

    perceptron, svm 等等判别模型的目标就是假定存在一个方程

    x1*w1 + x2 *w2 +..... xn * wn + b = y

    你先抽取各个 feature X 以及结果 y, 然后丢模型里面训练出一组 W 和 b。

    生成 x 的方法有很多,nlp 的话,最简单的跑个词袋,弄个 w2v 什么。然后拉出 feature 后丢过去跑就是。

    经典机器模型用 svmlight 或者 xgboost,不行的话拿 pytorch 撸个 cnn 什么也行。参数随便选选,然后降个纬随便看看。其实跑个中不溜秋的结果还是可以的。
    yuikns
        77
    yuikns  
       2019-03-09 13:21:35 +08:00   ❤️ 1
    丢两个以前无聊随手写的科普
    https://blog.argcv.com/articles/2857.c
    https://blog.argcv.com/articles/1036.c


    工具的话,看看这些:
    xgboost: https://xgboost.readthedocs.io/en/latest/index.html
    svmlight: http://svmlight.joachims.org/
    台大的 libsvm 也挺好玩的,他们老板当年每年换学生重新实现,我还见过几个。https://www.csie.ntu.edu.tw/~cjlin/libsvm/

    fb 的 fasttext 也值得看看 https://github.com/facebookresearch/fastText/
    yuikns
        78
    yuikns  
       2019-03-09 13:23:31 +08:00
    特征是语言表述的特征,你人看到这些特征后,要想办法把它变成一个 n 维的向量。机器学习是帮你划出一个超平面,面的这边是谣言,那边不是。

    有多少人工就有多少智能,就是对这种学习的总结。over
    watzds
        79
    watzds  
       2019-03-09 13:29:48 +08:00 via Android
    机器学习就是需要足够特征
    KevZhi
        80
    KevZhi  
       2019-03-09 13:34:34 +08:00 via iPhone   ❤️ 1
    换个思路吧
    比如百度网盘的鉴黄
    与其机器学习识别视频内容,不如收集用户行为习惯,看是哪些视频经常被快进了看,而且源于同一人

    真要是说通过识别文章内容主体,让机器去理解,估计目前你还是做不到的
    不如去识别来源及传播的特征,辅以原始但成熟的关键词过滤想想家族群里的老人转发的都是什么吧
    fox0001
        81
    fox0001  
       2019-03-09 13:45:12 +08:00 via Android
    导师不想你毕业了?要不去看看小马怎么解决假新闻?
    KevZhi
        82
    KevZhi  
       2019-03-09 13:46:27 +08:00 via iPhone
    说到这,不得不说一下有些目标用户群是中老年人的微信公众号,其内容绝大部分是耸人听闻的假新闻、国际关系类谣言、错误的医疗常识、不符合主流价值观的家庭关系类故事(婆媳关系居多)、标题党、震惊、沸腾。
    从我个人来看,微信官方完全是在对这种行为置之不理。这种公众号已经成为产业链了,雇佣会打字的低学历人员,批量生产这些文章,文章质量就是“能过微信反抄袭”就行,一个工作室下有若干这样的公众号。
    yuikns
        83
    yuikns  
       2019-03-09 13:50:42 +08:00
    这个问题其实很 straightforward。就是尝试分辨谣言传播者在制造这些句子的时候,不自觉使用的异常用词习惯。如果前面说的假设为真,那么有几千个标注好的训练集,很容易就能弄出一个比乱猜要高得多的预测结果。

    很大多数的谣言,其实水平都非常低下。而这种问题主要是吊打各种低级黑子的。

    楼上有些没玩过的能不能别乱撺掇...你们都在说啥啊
    LingJi
        84
    LingJi  
       2019-03-09 13:51:52 +08:00
    关键是提取谣言的特征,一种是人为定义特征或规则,这是专家系统的思路;还有一种就是采集足够的谣言数据,利用深度学习或机器学习的算法,自动提取特征。一个可用的系统,可能需要两者结合起来。首先,需要针对微信公众号、微博喜欢传谣的人,比如公知之类的,爬取他们的数据,制作成一个数据集,如果能搞个几十万或数百万的数据集,基本上可以进入下一步了。
    no1xsyzy
        85
    no1xsyzy  
       2019-03-09 13:54:46 +08:00
    机器学习不就是做特征识别吗?
    特性 不是 特征。
    另外,我拍脑袋想到的:
    1. 谣言具有更强的文字情绪特征,比如 “不转不是中国人” “震惊!” “竟然”
    2. 人名 查无此人,组织名 查无此组织,地名 查无此地
    ……另外我觉得做出来可以和 OpenAI 的那个假新闻生成器相提并论了。
    oisc
        86
    oisc  
       2019-03-09 14:14:47 +08:00
    自然语言处理很多工作其实都是对语料的处理和特征工程,机器学习算法也是依赖特征的。
    1. 我建议你先从平衡语料的构建开始,可以分几个主题比如关于医学、新闻等每个主题去收集一些正负样例,样例的正负比例尽量均衡。每个样例标注上所属的主题类别、是否是假新闻、来源、时间等。然后把你构建的语料进行划分,可以划分为训练集和测试集,也可以留一部分做开发集,如果你不想用交叉验证的话。

    2. 对你构建的语料库进行预处理,包括分词、词性标注等

    3. 基于一个有监督的机器学习算法完成模型的训练和性能评价,比如最简单的先用 ngram、tfidf,lda 等方法提取离散特征,然后用 SVM 分类,或者用现在比较流行的 LSTM CNN4text 等模型。
    等你熟悉流程和数据之后,就可以从数据上做一些文章,看哪些方面可以改进的。
    oisc
        87
    oisc  
       2019-03-09 14:26:13 +08:00
    如果不做中文的,其实已经有现成的数据集可以用了,https://github.com/KaiDMML/FakeNewsNet
    liyi
        88
    liyi  
       2019-03-09 14:43:57 +08:00
    感觉可以降低问题难度,先做个简化版,把进行谣言识别的范围缩小到对指定谣言的识别,例如只识别转基因相关的谣言,就先识别话题,不是转基因的都不用管,然后再识别是不是谣言
    这样范围小一点,就算机器学不会,你自己多看看也能找到规律,能有点事做
    yangyaofei
        89
    yangyaofei  
       2019-03-09 14:45:27 +08:00 via Android
    首先爬数据,思路可以是根据用户发帖的数量个关系网来确定,水军的特征和正常用户的特征是不一样的
    murmur
        90
    murmur  
       2019-03-09 14:53:03 +08:00   ❤️ 2
    @LingJi 谣言哪里有什么特征 同样的新闻 正规渠道发表的 只要地名换一下 时间换一下 就成了谣言
    lihua
        91
    lihua  
       2019-03-09 14:55:57 +08:00 via Android   ❤️ 1
    人日亩产万斤了解一下
    yepinf
        92
    yepinf  
       2019-03-09 15:16:15 +08:00
    哈哈
    我对这个也相当感兴趣,
    lz 可以来个联系方式,咱们一起折腾哈
    23f0baf3
        93
    23f0baf3  
       2019-03-09 15:50:39 +08:00
    你要搞清楚毕业设计要的是什么,要的是看起来有一定工作量的东西,要的是看起来合理并且过查重的论文,除此以外随便糊吧。网络谣言识别想办法去哪里找个好的数据集,找不到就自己写个爬虫去爬一些数据集(就是几万条正常新闻和谣言,从一些谣言举报平台之类的爬)。找个现成的分词算法,找些现成的分类器,把数据全扔进去,出个结果,不同分类算法各自准确率。最后出来的结果又不用发表,又不用公开代码,言之有理即可。
    请自觉遵守学术诚信和学术道德,不对此造成的一切后果负责,后果自负。
    bxb100
        94
    bxb100  
       2019-03-09 15:54:15 +08:00 via Android
    我觉得你能有个百万谣言数据都可以不用做结论就能毕业了
    robinshi2010
        95
    robinshi2010  
       2019-03-09 16:04:33 +08:00
    时间不错+完全没思路=挂
    jssyxzy
        96
    jssyxzy  
       2019-03-09 16:23:29 +08:00
    你的导师和学长应该告诉你第一步是读论文吧。
    jssyxzy
        97
    jssyxzy  
       2019-03-09 16:25:59 +08:00
    就是总结出特征,然后用 svm 之类就可以,

    了解下 svm 之类算法,
    读下谣言有哪些特征,自己发散思考下
    jssyxzy
        98
    jssyxzy  
       2019-03-09 16:26:14 +08:00
    你学长说的很对。
    murmur
        99
    murmur  
       2019-03-09 16:34:28 +08:00
    "网络谣言诞生具有一些典型特征,传播特性是其中一个重要特征。"
    你们导师太小看现在的网络了 现在是记者造谣 辟谣成本极高
    还记得缝肛门那个案子吧 直接就是记者造谣 这谣言直接毁了一个医生
    还有绵阳的医生被逼自杀 现在那个营销号还逍遥法外
    一个谣言
    要先转到对应的公安局 然后公安去调查所属地是不是真的有案子发生
    如果不是 还要查全国有没有类似的案子 被调换了时间 地点 甚至有些是国外的案子故意隐藏重要信息 甚至将图模糊化来蒙蔽视听
    都没有 就跟北京那个编造外卖给差评杀你全家的 直接抓人关起来完事
    所以说 单从微博一个平台来看 除了各家警方的蓝 V 和新闻联播这种保守型媒体 没一个可信的 尤其是新京报 恶名罩住
    Aixtuz
        100
    Aixtuz  
       2019-03-09 16:43:01 +08:00
    对其中一种谣言的特征有印象:

    内容大量重复,时间地点只有模糊值:

    比如只有月日周没有年,只有昨天、这星期、月底前之类的模糊时间,
    比如某某路、某某公园之类的模糊地点。

    且在泛滥的谣言,往往会因为无脑转发而在原文之外的发布平台或转发人补充内容中,
    出现各种不同的年月日和省市区等精确值。
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   903 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 22:26 · PVG 06:26 · LAX 14:26 · JFK 17:26
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.