1
jasya 2013-08-10 11:42:37 +08:00
_(:3」∠)_来写写练练手可以吗
|
2
kenneth 2013-08-10 11:46:52 +08:00
@Ariagle 我可以提供全套的抓取解决方案,范例:www.mvmap.com
|
3
chengyuhui 2013-08-10 11:50:51 +08:00 1
喵w
|
4
davepkxxx 2013-08-10 11:53:30 +08:00
惊现圆长
|
5
Ariagle OP |
8
kenneth 2013-08-10 12:06:59 +08:00
@Ariagle 爬的同时,可以帮你把图片生成各种尺寸,按路径规则保存,等比例缩略+水印。爬虫全自动,无人值守,自动更新。mvmap就是全自动更新,不需要维护的。
|
11
jasya 2013-08-10 12:17:34 +08:00
来了个高端人士...匿了..(´・ω・`)
|
16
kenneth 2013-08-10 13:55:51 +08:00 1
@gullon 我会各种各样的爬虫,各种各样的语言的爬虫方案。Scrapy只是一个方案,mvmap用的不是这个方案。爬虫的难点在于,分布式,异步,并发,队列,数据管道,数据持久化等,考虑的点有很多。但是灵活的用。
|
17
fetchcoin 2013-08-10 14:02:32 +08:00
不就一定向采集吗?为啥不用火车头,耗费人力物力自己写?
|
20
gullon 2013-08-10 21:48:02 +08:00
@kenneth 多谢指教。
但分布式,异步,并发,队列,数据管道,数据持久化等基本上已经是搜索引擎蜘蛛的要求了吧?对普通的数据采集需要考虑这么多因素么? |
22
lewisc402 2013-08-11 00:06:54 +08:00
@kenneth 问个问题:假设我想用爬虫访问 a.html,结果服务器会重定向到 redirect.html?url=a.html,而redirect.html中是一些javascript代码,用来写cookie,那么我该怎么办才能访问到原网页呢? 一般有哪几种方案可以解决这个问题??
|
24
chengyuhui 2013-08-12 00:21:15 +08:00
@binux 一般的站点用jsdom甚至更简单的一些HTML Parser就能搞定
最蛋疼的就是那些各种AJAX的Web App..... |
25
binux 2013-08-12 00:56:50 +08:00
@chengyuhui 我指的是,对不同的网站“自动”提取结构化数据
|
28
F0ur 2013-08-12 11:54:03 +08:00
搬凳子听讲课。。平时爬虫接触的真心不多
|
29
emohacker 2013-08-24 23:49:03 +08:00
用node最简单的地方在于web上html内容抓回来之后可以把内容当dom操作,server端用jQuery操作dom获取指定内容,极大降低了门槛,不会传统爬虫技术的童鞋也可以无痛写定向爬虫了。
请问楼主选择node是否处于这方面的考虑? |
30
Ariagle OP @emohacker 是的,若原本就懂类JQuery的选择器操作,那会有天然的优势。另外就是相对诸如Python等其他后端语言,我们对JS更熟一些。
|
31
xieren58 2013-08-25 09:54:07 +08:00
用上node的cheerio,我和我的小伙伴们都惊呆了 ~~
|
32
gdzdb 2013-08-29 15:08:04 +08:00
我也来推荐一个node的爬虫模块:https://github.com/cgiffard/node-simplecrawler
|
33
ling0322 2013-08-29 15:26:43 +08:00
咱报个名呢> <
|
34
jinwyp 2013-08-30 11:33:08 +08:00
没人用phamtomjs? 和node phamtom
|
35
martinbruce 2013-08-30 15:13:06 +08:00
@kenneth 这方面的高手啊! 求携带,最近一直在研究crawler
|
36
kenneth 2013-08-30 15:20:29 +08:00
@martinbruce 欢迎来我网站和我交流mvmap.com,或者直接加我QQ:50009371
|
37
kenneth 2013-08-30 18:03:25 +08:00
|
38
clowwindy 2013-08-30 22:14:03 +08:00
@kenneth 非定向抓取去重是个难题,我们以前的搜索项目也遇到了,没有很好的解决。比如爬淘宝,如何发现商品,如果顺着链接忙爬,会陷入各种搜索过滤条件的组合之中。这些搜索条件大部分是搜不出结果的。搜出结果的,结果条目也大量重复。我们虽然尝试用一些模型去学习和预测,但效果很差。最后只能单纯限制抓取深度。
|
40
TimePower 2013-08-31 20:17:51 +08:00
你们服务器被墙了~?
|