V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
GrahamCloud
V2EX  ›  程序员

关于云爬虫用户场景和需求的讨论帖

  •  
  •   GrahamCloud · 2016-12-06 13:00:41 +08:00 · 10611 次点击
    这是一个创建于 2910 天前的主题,其中的信息可能已经有所发展或是发生改变。

    四周以来,几个小伙伴在做云爬虫易用性上下了很多功夫,功能和交互上都保持了每周两次 push 的节奏,不足还很多,现在问题是,大家对爬虫的应用场景有什么看法,我们下一步想要做定制,开放 api 。

    想做到最好的造数,主页在这里 zaoshu.io

    想想很欣慰,四周以前我们还是一团糟,现在已经基本功能比较清楚了,关于云爬虫的前景,应用场景,需求,希望大家都来聊聊。嘿嘿。 欢迎合作

    第 1 条附言  ·  2016-12-07 11:32:39 +08:00
    希望大家能一起探讨爬虫的应用场景和商业模式,欢迎加微信 Zaoshuio 。
    第 2 条附言  ·  2016-12-12 11:28:16 +08:00
    这周又上了全新的 ui ,撒花,耶!
    第 3 条附言  ·  2017-01-10 17:04:24 +08:00
    链接失效了,地址在这里:
    www.zaoshu.io
    70 条回复    2017-01-10 16:16:27 +08:00
    wyntergreg
        1
    wyntergreg  
       2016-12-06 14:13:12 +08:00   ❤️ 1
    把标换了吧,弄个纵泰的标好么...

    另外,爬虫为什么要做云...
    GrahamCloud
        2
    GrahamCloud  
    OP
       2016-12-06 14:22:54 +08:00
    想做个好用的通用爬虫嘛,顺便解决数据量大硬盘不够的问题,哈哈
    jccg90
        3
    jccg90  
       2016-12-06 16:15:40 +08:00   ❤️ 1
    之前用这个爬虫试了一下监控链家每日成交价。。。确实很方便,只用了几分钟就搞定了每天定时监控。。。但是。。。一周后过去看数据,结果发现竟然只保存了最近几次的结果,爬了一周的数据竟然没有保存,每天的邮件推送里面也没把数据推送过来,只是给个链接让自己过去取数据。。。虽然是免费服务吧,但是感觉数据应该按量计费而不是按次计费
    akira
        4
    akira  
       2016-12-06 16:25:35 +08:00   ❤️ 1
    已抓取数据免费保存 1 周,付费用户保存 30 天。。。

    唔。。这样的计费模式如何
    Mizzi
        5
    Mizzi  
       2016-12-06 17:06:38 +08:00   ❤️ 1
    爬取直接转 rss/atom
    GreatMartial
        6
    GreatMartial  
       2016-12-06 21:04:41 +08:00   ❤️ 1
    额,好奇你们这“使用范例”,是怎么根据用户的浏览器历史自动生成的吗?
    alexapollo
        7
    alexapollo  
       2016-12-06 22:29:12 +08:00   ❤️ 1
    感觉这行越来越泛滥了。。技术倒都是前几年的
    firefox12
        8
    firefox12  
       2016-12-07 08:34:40 +08:00 via iPhone   ❤️ 1
    你能把淘宝的各种商品爬下来吗?
    bzzhou
        9
    bzzhou  
       2016-12-07 09:26:20 +08:00   ❤️ 1
    做这块的太多了,做好了,分一杯羹是可以的;但是市场规模估计玄乎。
    jyf
        10
    jyf  
       2016-12-07 10:20:53 +08:00   ❤️ 1
    @wyntergreg 做雲好處是可以 cache 住對目標站點的壓力 這跟某些大博主提倡大家用 rss 訂閱一個道理 不過我覺得這個服務目前做得還是很一般
    GrahamCloud
        11
    GrahamCloud  
    OP
       2016-12-07 11:28:56 +08:00
    @jccg90 这个稍微有点苦衷,之前邮件出了点问题,现在这样是过渡一下。
    按理说一周的数据是保存了的,我在后台再看一下。
    GrahamCloud
        12
    GrahamCloud  
    OP
       2016-12-07 11:29:23 +08:00
    @akira 还是只能按量收费,时间不是主要问题。
    GrahamCloud
        13
    GrahamCloud  
    OP
       2016-12-07 11:30:12 +08:00
    @GreatMartial 对,不一样地点不一样。
    GrahamCloud
        14
    GrahamCloud  
    OP
       2016-12-07 11:30:39 +08:00
    @alexapollo 第四周忙东忙西的,技术上好多还没上。
    GrahamCloud
        15
    GrahamCloud  
    OP
       2016-12-07 11:31:02 +08:00
    @jyf 关键就是应用场景,我觉得应用场景还需要思考。
    jyf
        16
    jyf  
       2016-12-07 12:10:05 +08:00   ❤️ 1
    @GrahamCloud 应用场景思考这个不能闭门造车 最好的办法就是产品好用 前期免费给大家随便用 从用户的行为中去分析大众需求
    GrahamCloud
        17
    GrahamCloud  
    OP
       2016-12-07 12:11:28 +08:00
    @jyf 说得对,现在定制个人服务免费,网站功能是全免费的目前。
    GrahamCloud
        18
    GrahamCloud  
    OP
       2016-12-07 12:12:15 +08:00
    @jyf 啊,说错了,定制个人服务收费,网站功能全免费。
    GrahamCloud
        19
    GrahamCloud  
    OP
       2016-12-07 12:13:07 +08:00
    @jccg90 感觉怪不好意思的,求加微信 Zaoshuio
    jccg90
        20
    jccg90  
       2016-12-07 13:41:36 +08:00   ❤️ 1
    @GrahamCloud 哈。。。没事,当时就是随手测试一下,也不是真的需要抓数据。。。感觉这种服务还是挺方便的,如果我要用的话,一般就是用这种服务做简单的页面监控用,比如就监控某个页面的某几个数据,每天定时抓下来,并保存下来。 再高级点的功能就是,把每次抓到的数据聚合一下,出个表格之类的。但是只能保存最近 10 次的结果,这个就不太友好了,可以把限制改一下,比如限制保存的记录行数或者空间占用之类的。。。毕竟我每天抓几次数据,每次就存几个数,多存一些也不会额外占用资源吧


    我用这种服务的话,一般都在抓很简单的,数据量很小东西的时候。。。复杂的需求或者规模大的需求,一般也不会用这种服务了
    GrahamCloud
        21
    GrahamCloud  
    OP
       2016-12-07 14:06:21 +08:00
    @jccg90 其实是没有删掉还在服务器上,之前出了个问题,就是定时任务邮件无法取消的 bug ,所以先这样过渡,实在不好意思。
    lslqtz
        22
    lslqtz  
       2016-12-08 00:56:35 +08:00   ❤️ 1
    @firefox12 我用着还行。。
    GrahamCloud
        23
    GrahamCloud  
    OP
       2016-12-08 11:11:07 +08:00
    @lslqtz 谢谢支持,哈哈,欢迎探讨
    JoyNeop
        24
    JoyNeop  
       2016-12-08 11:49:45 +08:00
    KgM4gLtF0shViDH3
        25
    KgM4gLtF0shViDH3  
       2016-12-08 17:00:49 +08:00 via Android   ❤️ 1
    即刻?
    GrahamCloud
        26
    GrahamCloud  
    OP
       2016-12-08 17:06:32 +08:00
    @bestkayle 不是,就随便讨论
    warjiang
        27
    warjiang  
       2016-12-08 17:22:57 +08:00   ❤️ 1
    这东西开源么?对爬虫也比较感兴趣
    em70
        28
    em70  
       2016-12-09 11:40:22 +08:00   ❤️ 1
    建议商业模式:

    工具和储存都免费开放给大家,让人用你们的工具去抓取有价值数据,然后提供一个市场来交易数据,你们从中抽成
    stcasshern
        29
    stcasshern  
       2016-12-09 11:42:26 +08:00   ❤️ 1
    试用了一下,首先觉得邮件注册的确很友好,但是可能不能限制用户使用...同样比较赞同按使用量计费
    KenGe
        30
    KenGe  
       2016-12-09 11:54:06 +08:00   ❤️ 1
    这个字体 我能吐槽吗?
    GrahamCloud
        31
    GrahamCloud  
    OP
       2016-12-09 17:19:55 +08:00
    @warjiang 目前不开源
    GrahamCloud
        32
    GrahamCloud  
    OP
       2016-12-09 17:20:13 +08:00
    @em70 想法好棒!
    GrahamCloud
        33
    GrahamCloud  
    OP
       2016-12-09 17:20:53 +08:00
    @KenGe 谢谢您的时间和耐心,谢谢。
    changwei
        34
    changwei  
       2016-12-12 23:24:13 +08:00   ❤️ 1
    使用了一下,前端做的还是很不错的,不过之前在 v2 也看到很多人在做了,持续观望 ing
    SlipStupig
        35
    SlipStupig  
       2016-12-13 02:22:21 +08:00   ❤️ 1
    功能还是太弱了,还不能接入 sdk ,抓取速度真的好一般,如果是给一些互联网公司运营和编辑用还可以,如果想给开发者用的话,还是先开源吧
    SlipStupig
        36
    SlipStupig  
       2016-12-13 02:26:57 +08:00
    @em70 数据堂就在做这些事情,卖数据、抽取规则还有数据 API 接口
    wangxiaoer
        37
    wangxiaoer  
       2016-12-13 10:56:52 +08:00   ❤️ 1
    春风得意,自我感觉良好,真是呵呵哒。
    试用了一下,就感觉是个玩具。
    不说其他,就说神箭手云爬虫,你们跟别人差的也不是一点半点
    GrahamCloud
        38
    GrahamCloud  
    OP
       2016-12-13 11:22:21 +08:00
    @SlipStupig 给不会编程的做一点简单的应用可以, api 定制是将来的方向。
    GrahamCloud
        39
    GrahamCloud  
    OP
       2016-12-13 11:22:46 +08:00
    @wangxiaoer 刚开始一个多月,肯定有差距啦。
    GrahamCloud
        40
    GrahamCloud  
    OP
       2016-12-13 11:46:22 +08:00
    @wangxiaoer 有建议直接提,这本来也是个讨论帖,也欢迎提 bug 。
    phantom1124
        41
    phantom1124  
       2016-12-13 12:14:23 +08:00   ❤️ 1
    只能爬取当前页吗?如果我想爬取所有分页的数据怎么做?
    xycool
        42
    xycool  
       2016-12-13 12:49:58 +08:00   ❤️ 1
    分页的数据没办法爬,我就放弃了。还是继续做神箭手的付费用户吧。。还有什么云爬虫,求推荐。
    iannil
        43
    iannil  
       2016-12-13 13:37:53 +08:00   ❤️ 1
    hanbing135
        44
    hanbing135  
       2016-12-13 13:45:53 +08:00   ❤️ 1
    能不能特定的检测某个数据变化呢 比如 epub.sipo.gov.cn 我想追踪每天发明专利公开和授权的数量变化 设定了这个网页抓取不到数据啊
    iannil
        45
    iannil  
       2016-12-13 13:46:55 +08:00   ❤️ 1
    桌面版的开源程序: https://github.com/ferventdesert/Hawk

    和造数功能接近,很好用,可以参考。
    GrahamCloud
        46
    GrahamCloud  
    OP
       2016-12-13 14:28:31 +08:00
    @phantom1124 爬取分页在你的工作台里设置规则可以做。
    GrahamCloud
        47
    GrahamCloud  
    OP
       2016-12-13 14:29:07 +08:00
    @hanbing135 我们可以把现在的 bug 修复以后专门帮你自定义。
    GrahamCloud
        48
    GrahamCloud  
    OP
       2016-12-13 14:29:41 +08:00
    @xycool 分页现在其实是完全可以爬的,在你的控制台的设置规则里。
    GrahamCloud
        49
    GrahamCloud  
    OP
       2016-12-13 14:41:20 +08:00
    @iannil 很强大,感谢。
    imn1
        50
    imn1  
       2016-12-13 14:59:27 +08:00   ❤️ 1
    爬虫这个问题,和 ad block 工具某些方面有点类似,其目的都是帮助用户舍弃“无效信息”,直接获取“有效信息”
    但争议性非常大,建议还是低调,盈利以服务性质为主,而不能以内容作为衡量
    做得好,还可美其名为“聚合”,做不好、做大了还是难免成为被告的
    GrahamCloud
        51
    GrahamCloud  
    OP
       2016-12-13 15:09:44 +08:00
    @imn1 是啊,说得有道理。
    graetdk
        52
    graetdk  
       2016-12-13 15:29:34 +08:00   ❤️ 1
    为啥页数只能是 1-100 ?
    GrahamCloud
        53
    GrahamCloud  
    OP
       2016-12-13 15:33:52 +08:00
    @graetdk url 总量不能太大,目前
    xycool
        54
    xycool  
       2016-12-13 16:01:50 +08:00
    @GrahamCloud 不能用正则匹配吧?是不是需要复制所有的分页 Url 。
    xycool
        55
    xycool  
       2016-12-13 16:04:40 +08:00   ❤️ 1
    @GrahamCloud 哦哦。昨天那个设置页码的页面没有弹出来,我以为不能设置分页。现在可以弹出来了。。如果有文档就好了。
    GrahamCloud
        56
    GrahamCloud  
    OP
       2016-12-14 11:18:22 +08:00
    @xycool 分页现在除了总量有限制,要改进的看来还有很多。
    tikazyq
        57
    tikazyq  
       2016-12-26 21:01:20 +08:00   ❤️ 1
    神箭手
    hcymk2
        58
    hcymk2  
       2016-12-29 14:06:50 +08:00   ❤️ 1
    支持需要登录后才能爬取的页面么?
    GrahamCloud
        59
    GrahamCloud  
    OP
       2016-12-29 14:09:01 +08:00
    @hcymk2 现在还不支持。
    GrahamCloud
        60
    GrahamCloud  
    OP
       2017-01-04 11:23:39 +08:00
    @hcymk2
    @xycool
    @graetdk 新的界面要出来了,谢谢大家的意见。
    orzcc
        61
    orzcc  
       2017-01-04 23:47:19 +08:00   ❤️ 1
    基础服务肯定要稳定: ip 库(可分价格档)、自动打码、允许小号模拟登录、 api 导出、 api 种子导入。

    最最关键当然还是稳定!稳定!稳定!不要动不动就服务宕掉、莫名的卡顿、代理 ip 全线被禁等。
    GrahamCloud
        62
    GrahamCloud  
    OP
       2017-01-05 11:49:45 +08:00
    前三个月功能迭代上心血很多,稳定性上确实……只能说逐步改进,这周马上又要出一个更好的新版了。
    如果还愿意赏脸。吼吼
    GrahamCloud
        63
    GrahamCloud  
    OP
       2017-01-05 11:50:53 +08:00
    @orzcc 求加微信 Zaoshuio
    GrahamCloud
        64
    GrahamCloud  
    OP
       2017-01-05 11:51:20 +08:00
    @orzcc 求给您发红包
    zjw60320
        65
    zjw60320  
       2017-01-05 16:57:02 +08:00   ❤️ 1
    404 啦
    GrahamCloud
        66
    GrahamCloud  
    OP
       2017-01-05 20:31:39 +08:00
    @zjw60320 现在还 404 么
    zjw60320
        67
    zjw60320  
       2017-01-06 13:36:42 +08:00
    @GrahamCloud 我这还是 404 哎。。
    hoocok
        68
    hoocok  
       2017-01-10 13:15:50 +08:00   ❤️ 1
    今天还是 404
    GrahamCloud
        69
    GrahamCloud  
    OP
       2017-01-10 15:15:02 +08:00
    @hoocok 求问哪个,我这边测了好多个都正常运行
    alexnone
        70
    alexnone  
       2017-01-10 16:16:27 +08:00   ❤️ 1
    @GrahamCloud 低级错误 超链接变成了 https://www.v2ex.com/t/www.zaoshu.io ...
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   934 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 22:11 · PVG 06:11 · LAX 14:11 · JFK 17:11
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.