V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
velee
V2EX  ›  程序员

雅虎宣布将 Web 爬虫工具 Anthelion 开源

  •  
  •   velee · 2015-12-20 20:16:06 +08:00 · 2735 次点击
    这是一个创建于 3261 天前的主题,其中的信息可能已经有所发展或是发生改变。
    就在今天,雅虎宣布开源了自家的网页爬虫工具 —— Anthelion 。 Anthelion 是雅虎用来爬取 HTML 中的语法结构数据的网络爬虫。然而对于雅虎来说,网络爬虫其实一直是处于非常核心的位置。其地位甚至高于雅虎的许多其他的核心应用,比如 Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr, 和 Tumblr 等。 毫无疑问, Anthelion 的开源对雅虎在 web 搜索领域的竞争力提升意义重大。

    去年在上海的一次会议中,雅虎就公布了 Anthelion 的很多细节,会议中提到, Anthelion 最初致力于爬取嵌入 HTML 网页中的语义数据。例如: microdata 、 microformats 和 RDFa 等。在这次会议上同时还提到了很多关于 Anthelion 爬虫实现的技术。

    Anthelion 的代码现在以 Apache 开源授权协议托管到 GitHub : https://github.com/yahoo/anthelion ,感兴趣的朋友可以直接下载。
    1 条回复    2015-12-20 21:58:40 +08:00
    stevegy
        1
    stevegy  
       2015-12-20 21:58:40 +08:00
    Search 技术当前可能仍旧是 cutting edge 的东西。。。这货主要是用来实现一些新的搜索技术概念的。
    https://github.com/yahoo/anthelion/blob/master/anthelion/README.md
    使用的是 apache nutch 1.6 , Anthelion 是个插件,做具体的语义分析和页面 scoring ,然后可以交给 Solr 存储。。。
    本来香拉下来跑跑看,但是看到-Xms15G 。。。就有点懒得动手了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2735 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 06:56 · PVG 14:56 · LAX 22:56 · JFK 01:56
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.