看了大多数爬虫,都是 java 的。
现在需求时,希望能在本地运行的。最好是 Mac ,不行就 win ,再不行就 php 吧
直接把 h tml 全部 down 下来就行。自动按照正则去爬
1
13348859836 2016-04-27 12:22:59 +08:00
python 的爬虫框架多 随便找一个吧
|
2
zhouxuchen 2016-04-27 12:50:50 +08:00
life is short, you need pyquery
|
3
xiamx 2016-04-27 13:30:05 +08:00
html is context free grammar btw
|
4
jnduan 2016-04-27 15:09:36 +08:00
java 的就不能本地运行了?
那你用 Offline Explorer 吧 |
5
sadhen 2016-04-27 15:35:59 +08:00
不太理解楼主的需求
貌似是把 HTML 全部下载到本地后,再在没有网络环境的情况下抓取信息 是么? 还是普通的爬虫框架? |
6
pr2b OP |
7
cxbig 2016-04-27 15:57:08 +08:00
php/ruby/python 随便哪个语言都可以,手写一个百来行。
|
8
SCaffrey 2016-04-27 16:06:04 +08:00
nodejs/python
|
9
Tink 2016-04-27 16:06:42 +08:00
这个貌似叫离线浏览器?
|
10
wmhx 2016-04-27 16:39:43 +08:00
wget 啊, 一丢丢的
|
11
qq839994901 2016-04-27 18:44:59 +08:00
scrapy
|
12
Ouyangan 2016-04-27 18:55:58 +08:00
java 不能本地么......
|
13
break 2016-04-27 19:12:28 +08:00 via iPhone
都是 html 的话, wget 就可以了, wget 的镜像复制命令
|
14
imn1 2016-04-27 19:19:33 +08:00
爬虫很多,能用正则的不多
|