V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
Fing
V2EX  ›  Python

基于 python 写的一个 google 的爬虫

  •  
  •   Fing · 2015-08-04 21:14:17 +08:00 · 4426 次点击
    这是一个创建于 3400 天前的主题,其中的信息可能已经有所发展或是发生改变。
    解析器用的是beautifulsoup,框架是Django,数据库mysql。爬虫的数据会放到数据库,所以对磁盘IO有要求,不过就我一个人用,峰值很低很低,所以一直想看看云盘承受能力,内存使用情况其实也很感兴趣。中午在程序员节点发个贴(12点发的),考虑到V2的强大,做好了down机随时重启VPS的准备,一直等到12点半才来一个访问者,后来干脆去吃饭了(公司12点开饭),吃完回来一看有了7,8个人访问了,一看V2,帖子沉了,应该我发了网址,V2把帖子当成软广告了,我是希望有人能够回复,做的怎么样,哪里不行,什么水平,可以怎么改进,哪怕是一句“这也好意思放到V2”我都能接受,所以选在大家下班之后的这个点厚着脸皮再发一次,看能不能有大牛评价下,发现什么bug或者黑掉我的主机(可能是我想多了)之类的,网址是googlebridge.com,求重踩...
    第 1 条附言  ·  2015-08-04 23:06:11 +08:00
    明天要上班,我先睡了。目前的情况汇报下,内存上升到62%,CPU上升10%。我叫googlebridge,我在V2等你(回复)~
    28 条回复    2015-09-05 17:26:50 +08:00
    limuxy
        1
    limuxy  
       2015-08-04 23:09:42 +08:00 via Android
    为什么要存进数据库啊 会经常搜索同样的关键词? #我是来消灭零回复的#
    anexplore
        2
    anexplore  
       2015-08-04 23:16:09 +08:00
    google会封你不
    Fing
        3
    Fing  
    OP
       2015-08-04 23:21:27 +08:00
    @limuxy 刚做出来的时候不放,后来由于国内要备案,而且做这个站的目的很单纯,所以我选择要过滤一批数据,用数据库过滤,感觉跟栈的概念差不多,先放进去再拿出来~
    Fing
        4
    Fing  
    OP
       2015-08-04 23:22:23 +08:00
    @anexplore 我能用阿里云爬 ,我就能让他封不了。
    est
        5
    est  
       2015-08-04 23:25:42 +08:00
    @Fing 如何做到的?阿里云出口IP是动态的?
    Fing
        6
    Fing  
    OP
       2015-08-04 23:27:12 +08:00
    @est 我技术很菜,但我还是想保持一点神秘感~
    anexplore
        7
    anexplore  
       2015-08-04 23:27:19 +08:00
    @Fing 代理ip?
    Fing
        8
    Fing  
    OP
       2015-08-04 23:28:21 +08:00
    @anexplore bingo
    zhicheng
        9
    zhicheng  
       2015-08-04 23:30:10 +08:00
    我写过一个 es + crawler ,基本可以实现一个简单的 Search Engine 了,可以爬指定站,各位小伙伴有兴趣吗?
    limuxy
        10
    limuxy  
       2015-08-04 23:35:18 +08:00 via Android
    @Fing 直接在内存里处理不是比较快么 写进去再读出来很影响性能吧
    话说为了能备案也不容易 还得自我审查啊
    x4
        11
    x4  
       2015-08-04 23:35:44 +08:00 via Android
    Fing
        12
    Fing  
    OP
       2015-08-05 09:11:18 +08:00
    @limuxy 我也跟你有同样的想法,所以我才想到到V2发贴,多一点访问我好在后台看状态。然后目前的情况就是:
    1,服务器负载很小,做这些读写操作不会影响到服务器的运行。
    2,内存处理跟这种读写的方式也许会有延时,不过是ms为单位,而这个站点主要做的是抓取google国外站,抓取分析可能要2-6秒,所以后者是s为单位,所以前者的ms级别对于这个站点就微乎其微了。而且对于常用关键词放到数据库反而是个缓存,这是我目前的想法。
    tdifg
        13
    tdifg  
       2015-08-05 10:47:59 +08:00
    还以为是自己爬呢,原来是爬google啊。ok,当镜像站收了……
    Fing
        14
    Fing  
    OP
       2015-08-05 10:52:29 +08:00
    @tdifg 你说了算咯~
    invite
        15
    invite  
       2015-08-05 11:44:24 +08:00
    没看明白,这个不就是一个代理?主要想做哪方面技术攻关?
    zhuzhenyu
        16
    zhuzhenyu  
       2015-08-05 13:08:49 +08:00
    Fing
        17
    Fing  
    OP
       2015-08-05 13:11:19 +08:00
    @zhuzhenyu ......
    Fing
        18
    Fing  
    OP
       2015-08-05 13:13:46 +08:00
    @invite 你可以给我一个关键词,我给演示一下
    invite
        19
    invite  
       2015-08-05 14:04:29 +08:00
    @Fing 你随便挑个关键词,然后给个演示就好了。
    heaton_nobu
        20
    heaton_nobu  
       2015-08-05 17:45:39 +08:00
    搜索结果url中文没有编码回来
    下面分页没有显示当前页码
    搜索某个关键词后14页往后结果都一样,但是可以不断向后翻页
    Fing
        21
    Fing  
    OP
       2015-08-05 17:59:37 +08:00
    @heaton_nobu 你是棒棒的
    WKPlus
        22
    WKPlus  
       2015-08-06 13:45:08 +08:00
    是我在googlebridge上搜索一个词,然后googlebridge实时去搜索google,然后把结果缓存起来供下次使用的意思么?

    话说,如果只是要看性能,自己不是也可以测试么?
    Fing
        23
    Fing  
    OP
       2015-08-06 14:00:18 +08:00
    @WKPlus 目前是的,以后可能只存一天或者根据热度来决定保存时间
    sinosure
        24
    sinosure  
       2015-08-08 17:05:49 +08:00
    提个建议,可否支持类似这种搜索,site:v2ex.com/t bottle,算是v2ex的福利了
    Fing
        25
    Fing  
    OP
       2015-08-11 11:36:03 +08:00
    sinosure
        26
    sinosure  
       2015-09-05 17:00:49 +08:00
    好用,我用 wox 建了个快捷方式,这下查东西方便了, v 对应在 V2EX 下查, gg 对应在 googlebridge 下查。非常赞。貌似作者还是个 wower
    Fing
        27
    Fing  
    OP
       2015-09-05 17:18:30 +08:00
    @sinosure 作者已经堕落的很多年~
    sinosure
        28
    sinosure  
       2015-09-05 17:26:50 +08:00
    wox 凑合用了,也没见到 win 下其他类似的更新的很勤快吧
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4887 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 01:17 · PVG 09:17 · LAX 17:17 · JFK 20:17
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.