1
Alcar 2012-06-16 23:00:24 +08:00
先写个爬虫抓取学校的网站
然后再对抓取的内容进行索引,建立数据库 再是写搜索页面,以及服务器端的搜索数据库的程序吧 应该是这样,我也不太了解... |
2
virushuo 2012-06-16 23:02:12 +08:00
http://www.udacity.com/overview/Course/cs101/CourseRev/apr2012
入门级别,原理是没错,但优化还需要很多很多很多,用来搜索一点点东西和学习不错。 |
3
sorry 2012-06-16 23:04:00 +08:00
heritrix+lucene
|
4
66450146 2012-06-16 23:16:59 +08:00
数学之美的内容,看起来简单,实现起来非常复杂
比如中文分词,Google特地雇了一大堆phd研究韩梅梅(HMM)方法,效果也只能达到“还不错”而已 再说相关性排序,数学之美说的是TF*IDF,听起来确实很简单,但是最后你会发现搜索排名的相关度不是很理想,尤其是你的内容有偏向性的时候,所以Google另外雇了一帮phd来改进搜索结果 如果只是为了练手的话,做这样的东西挑战也有点太大了。。。 |
5
HowardMei 2012-06-17 09:01:14 +08:00 1
Programming Collective Intelligence 所有你需要的算法都在里面了,包括搜索引擎、推荐算法,只是很多基于海量数据样本,正是这本书激起我学Python的兴趣,否则就赶时髦去学 ROR 了。越用Python越觉得,它不断引诱你知其然还要知其所以然,呵呵。
|
6
luoqeng 2012-06-17 19:30:09 +08:00
|
7
clippit 2012-06-17 19:51:09 +08:00
Apache Nutch: http://nutch.apache.org/
另外LZ觉得这本书如何?我也想看看 |
9
shine_lee OP |
10
saturn 2012-06-17 23:16:33 +08:00 3
不要为了算法而算法,首先要知道为什么需要这些算法?
如果你想做的搜索引擎内容是垂直的(亦即搜索范围固定),给你几个工具用来参考: * 开源的Java爬虫:https://github.com/yasserg/crawler4j * 开源的索引引擎:Sphinx / lucene * mmseg 中文分词算法:http://technology.chtsai.org/mmseg/ * 你最熟悉的一款脚本语言,比如PHP。 如果你程序功底过硬、英文水平过关,有了这 4 个东西,你应该只需要2周左右即可实现一个简单的全功能站内搜索引擎了。 上面的每个领域都有大量的开发者和科学家在做研究。把上面这几个东西搞明白之后,你会发现自己的知识非常不够用、结果不甚理想。这个时候就开始着手学习Text Extraction、Machine Learning来辅助你完成提高结果精准度的东西了。这里推荐一款工具给你:Weka. |