在公司一直写 webapi ,要么就是业务相关的 CURD 操作。想抽空做个小工具,拓展一下技能面,也可以实用。 市面上一些爬虫软件用过一些,感觉太分散,没有集中管理功能。 语言 JAVA , NODEJS 都写过服务端,前端套 angular 和 bootstrap 的水平。 看到爬虫用 PYTHON 实现的很多,是不是用来写这个最合适,这几天刚看了语法。 自己列了个需求如图。如果用 python 的话,有哪些成熟的第三方库可以直接用的,谢谢。
1
xuzywozz 2017-01-15 21:05:20 +08:00
requests scrapy :)
|
2
upczww 2017-01-15 21:12:24 +08:00 via iPhone
补充下 pyspider 也不错。
|
3
bdbai 2017-01-15 21:32:13 +08:00 via Android
如果还要站点管理什么的,感觉要搞复杂了。上 Django ,再来个消息队列吧。
|
4
gouchaoer 2017-01-15 21:33:50 +08:00 via Android
|
5
gouchaoer 2017-01-15 21:36:27 +08:00 via Android
django 折腾过,我表示做简单的 web 后台 php 随便找一个框架都很方便( laravel 除外)
|
7
ne6rd OP @gouchaoer pixiv 我以前用过 PixivUtil2.exe ,感觉功能很强大。就是在存储路径上有一些不满意。
主要想实现集中管理,包括更新日期之类的。 站点管理你们第一反应都是 web 后台?我想做客户端的呀 orz |
8
bdbai 2017-01-15 21:58:38 +08:00 via Android
我觉得有了 web API ,跨平台就好实现了,没有 B/S 和 C/S 之分。想做网页端就来套前端框架,想做客户端就写客户端代码, Java 、 C# 都行,毕竟 GUI 不是 Python 强项。而用 Django 做一套 web 服务很方便。
|
9
araraloren 2017-01-16 09:26:54 +08:00
~~你这需求列的
就不像小工具。。。。 简单来讲 还是先搞个 demo 自己试试吧,然后根据自己的需求设计。。 比如我这个 https://github.com/araraloren/Getopt-Kinoko/blob/master/sample/fetch-picture.p6 也算是一个爬虫了,足够简单实用(图片下载工具只是简单的借用 wget ,最近我才加入了 LWP 模块的支持,没来得及更新),我拿来下百毒贴吧的图片用 考虑到其他的网站,可能最现实的就是还需要登录,甚至会有验证码,或者是 IP 的访问限制,还是挺麻烦的,前期的时候尽量要考虑全面。。 |
10
dantegg 2017-01-16 11:29:34 +08:00
scrapy
|
11
beidouxun 2017-01-16 12:34:24 +08:00 via Android
我用的 C#爬虫框架,自己写的 web 管理页面。不是 GUI 和没有日志生成,其他都实现了
|
12
doumeki 2017-01-16 16:51:17 +08:00
初学者有个疑问,我看 python 爬虫都推荐那个 scrapy.
求问 selenium 这个自动化工具也很方便啊,为什么没人推荐使用? |
13
argsno 2017-01-16 22:25:39 +08:00 via iPad
@doumeki selenium 主要用在需要模拟浏览器,需要 Javascript 的执行环境下
scrapy 是个并行的爬虫框架,简单而且速度快 |
14
figofuture 2017-01-17 10:08:09 +08:00
|