V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
Huntor
V2EX  ›  问与答

求各种推荐指导,毕设题目是《垃圾网页检测及其在垂直搜索中的应用》,作为大四毕业生还没有做过类似的项目,不知从何入手,希望有大牛能指点一二~

  •  
  •   Huntor · 2012-03-08 13:19:41 +08:00 · 4674 次点击
    这是一个创建于 4628 天前的主题,其中的信息可能已经有所发展或是发生改变。
    16 条回复    1970-01-01 08:00:00 +08:00
    shellex
        1
    shellex  
       2012-03-08 13:28:50 +08:00
    类似内容审查吧。关键是怎么你们定义垃圾网页的?
    Huntor
        2
    Huntor  
    OP
       2012-03-08 14:01:40 +08:00
    毕设只有题目,关于垃圾网页的界定,可以由自己判断,通常对于垃圾网页的定义:不能为用户提供有效信息,仅仅为了提升在搜索结果中的排名。另外,关于这本书《开发自己的搜索引擎-Lucene 2.0+Heritrix》谁有电子版的可以发我吗?
    Tianpu
        3
    Tianpu  
       2012-03-08 14:39:13 +08:00 via iPad
    我觉得可以从机器学习的角度考虑

    对应着比如垃圾邮件就有比较成熟的方案,傅立叶级数筛选什么的

    具体参考ruanyifeng.com的某一篇博客,有不错的入门介绍
    lisztli
        4
    lisztli  
       2012-03-08 14:55:20 +08:00
    @Tianph "傅立叶级数筛选"求详情? 关键词没搜到,只知道贝叶斯
    kfc315
        5
    kfc315  
       2012-03-08 17:02:56 +08:00
    俺不做这一块儿。
    不过,进入一个新领域前,google scholar 和 arnetminer.org 会是最好的工具。
    找一些 survey / review 之类的看看吧。这种课题不可能没有人没做过。

    @Tianpu 说的那篇博客是《黑客与画家》中的一章。这本书很好,推荐。
    wong2
        6
    wong2  
       2012-03-08 17:16:30 +08:00
    《黑客与画家》里说的那个是朴素贝叶斯方法,博文在这:

    http://www.paulgraham.com/spam.html

    可以看下《集体智慧编程》,里面有一章讲这个的。
    Huntor
        7
    Huntor  
    OP
       2012-03-09 19:56:00 +08:00
    感谢楼上各位给予的帮助,《黑客与画家》这本书虽然一直有听过,但是没怎么看过,正好借此机会,仔细研究下这本书~
    Ricepig
        8
    Ricepig  
       2012-03-09 20:30:14 +08:00
    用贝叶斯,或者SVM吧

    其实感觉很多垃圾邮件过滤的技术可以直接用
    hq5261984
        9
    hq5261984  
       2012-03-09 21:38:34 +08:00
    这个往深了说就是语义网络。

    单靠关键字肯定不行。涉及到人工智能N复杂,你们导师出这个题目,他自己都不懂,国内没几个能搞明白的。随便写写忽悠他吧。
    Huntor
        10
    Huntor  
    OP
       2012-03-11 00:45:55 +08:00
    语义网络?人工智能?介个表示压力越来越大。。。记得某童鞋说过:咱搞技术的,写论文就算要忽悠,也要忽悠出技术含量~
    sobigfish
        11
    sobigfish  
       2012-03-11 01:21:22 +08:00 via iPad
    按分数来怎么样广告多20分(粗略的算法)flash/控件多20 全是关键词,没有完整的文章80 没有原创50。只要分数高于60就算垃圾网站了
    tttwww18
        12
    tttwww18  
       2012-03-11 01:29:50 +08:00
    一两句说不清,自己看论文学吧
    http://ilpubs.stanford.edu:8090/646/1/2004-25.pdf

    https://wiki.engr.illinois.edu/download/attachments/188588798/WebSpamSurvey.pdf?version=1&modificationDate=1318004145000

    涉及一些基本思想和个别算法,希望能给你思路
    (英文看得蛋疼就看中文吧,给个中文博客给你
    http://hi.baidu.com/shichunqi/home)
    argentum
        13
    argentum  
       2012-03-11 12:28:02 +08:00
    lz毕设咋弄这么学术的、、、我见过的有计算机重点学科的985也有人在做图书管理系统啊、、、
    freefcw
        14
    freefcw  
       2012-03-11 12:48:24 +08:00
    这个题目还真是噱头大。。。如果真要说做的话,估计光垃圾网页的检测这个课题我估计就可以做一堆博士出来了= =

    但是我真的不知道垃圾网页的检测和垂直搜索有啥关系。。。怎么扯上来
    argentum
        15
    argentum  
       2012-03-11 12:57:40 +08:00
    @freefcw

    这么巧啊,第一天来这里就看到见过的id、、、这么多年没换过头像啊、、、
    freefcw
        16
    freefcw  
       2012-03-11 14:51:05 +08:00
    @argentum 啊。。。囧,嗯,好像从06年还是05年开始就没换过头像
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5355 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 08:42 · PVG 16:42 · LAX 00:42 · JFK 03:42
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.