V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
AsaDong
V2EX  ›  程序员

搭建一个技术类的垂直搜索引擎有什么方案?

  •  
  •   AsaDong · 2017-03-31 14:11:20 +08:00 · 3133 次点击
    这是一个创建于 2792 天前的主题,其中的信息可能已经有所发展或是发生改变。
    呃 如题。

    有哪些开源方案可以组合起来实现,包含爬虫 存储 检索 排名算法。
    只定向收录一些网站即可。
    6 条回复    2017-04-03 11:17:22 +08:00
    ss098
        1
    ss098  
       2017-03-31 14:44:44 +08:00
    爬虫得自己写,搜索可以用 ElasticSearch 。
    dreampuf
        2
    dreampuf  
       2017-03-31 15:01:47 +08:00
    自定义爬虫 + ES
    规模几十 T 不是问题
    murmur
        3
    murmur  
       2017-03-31 15:04:26 +08:00
    垂直搜索的问题不是你底层抗不扛得住 是你抓别人数据能抓多少
    你能想到的可以聚合的内容基本都有反爬虫设计
    gwind
        4
    gwind  
       2017-03-31 17:22:47 +08:00
    你需要的是:

    1. scrapy 抓
    2. elasticsearch 搜
    jackroyal
        5
    jackroyal  
       2017-04-01 10:23:11 +08:00 via Android
    最简单的, google 自定义搜索,直接限定域名,哈哈
    AsaDong
        6
    AsaDong  
    OP
       2017-04-03 11:17:22 +08:00
    @jackroyal 自己用倒是可以
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2543 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 15:41 · PVG 23:41 · LAX 07:41 · JFK 10:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.