V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sohoer
V2EX  ›  分享发现

爬虫在 Raspberry Pi 上跑得挺欢的 。

  •  
  •   sohoer · 2013-03-15 02:26:48 +08:00 · 5090 次点击
    这是一个创建于 4273 天前的主题,其中的信息可能已经有所发展或是发生改变。
    之前用GAE 的本地环境访问Raspberry Pi 很慢很慢,以为是Raspberry Pi 的性能问题,后来发现不是。
    原来可以跑得这么欢,当然我要求不高。
    不久后我会提供外网访问的DEMO。

    WEB版的通用型采集工具 NewCrawler.COM

    上两张图,

    14 条回复    1970-01-01 08:00:00 +08:00
    workaholic
        1
    workaholic  
       2013-03-30 20:18:58 +08:00
    用java写的? 基于什么库?
    ipoh
        2
    ipoh  
       2013-03-30 22:51:16 +08:00
    楼主怎么买的 我也想买一个
    sohoer
        3
    sohoer  
    OP
       2013-03-31 01:09:25 +08:00
    @workaholic 用的HttpURLConnection+正则,没有用其它第三方库,xpath,javascript支持倒是用了,不过现在把他当成插件了。



    @ipoh 淘宝买的,如果需要你留个邮箱我把交易记录发给你,我现在每天晚上都是开着的,在爬煎蛋妹子图,稳定性挺好的。
    workaholic
        4
    workaholic  
       2013-03-31 12:36:43 +08:00
    我最近也在爬图片,请教个问题:图片上水印你怎么处理的?肯定不希望自己的图片上带上别的网站的水印吧?
    chemhack
        5
    chemhack  
       2013-03-31 12:43:00 +08:00 via iPad   ❤️ 3
    @workaholic 自己的图片。。。。。 我真是吐槽无力了
    workaholic
        6
    workaholic  
       2013-03-31 12:45:57 +08:00
    @chemhack 神经病
    cooiky
        7
    cooiky  
       2013-03-31 15:50:12 +08:00
    @sohoer 求个淘宝地址 3q
    34D
        8
    34D  
       2013-03-31 16:04:23 +08:00 via Android
    自己的图片吐槽无力+1。
    workaholic
        9
    workaholic  
       2013-03-31 16:32:26 +08:00
    @34D QNMLGB
    goxofy
        10
    goxofy  
       2013-03-31 16:59:06 +08:00
    自己的图片吐槽无力+1
    ywencn
        11
    ywencn  
       2013-03-31 17:06:06 +08:00
    没懂你们在说什么自己的图片?
    chemhack
        12
    chemhack  
       2013-03-31 17:13:33 +08:00
    @ywencn 爬别人的图片,还说“不希望自己的图片上带上别的网站的水印”
    jason52
        13
    jason52  
       2013-05-19 16:27:25 +08:00
    -----------------

    from pyquery import PyQuery as pq
    import time


    fp=open("meizhitu.txt",'w')
    for i in range(800,813):
    url = 'http://jandan.net/ooxx/page-' + str(i)


    d1 = pq(url)

    posts = []

    for anchor in d1('#comments p>img'):
    anchor = d1(anchor)
    ans = anchor.attr('src')
    posts.append(ans)
    print >>fp,ans
    print ans
    fp.close

    ----------------------
    用pyquery写了一个简单的爬妹子图的脚本
    jason52
        14
    jason52  
       2013-05-19 16:29:04 +08:00
    哎呀,v2ex发代码都乱掉了。。python缩进都没了。。看来以后不能直接放代码了。。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   944 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 22:21 · PVG 06:21 · LAX 14:21 · JFK 17:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.