下载地址: https://github.com/zorlan/skycaiji
好多爬虫都是 python 的,作为世界上最好的语言,做爬虫怎么少得了 php 呢!
蓝天采集器 可视化的采集系统(和 cms 一样使用),可以和网站对接,将采集到的数据实时入库 无需你会代码,直接编写采集规则绑定数据库入库即可!
主要功能:
全自动定时定量采集
绝大多数文章智能识别
支持正则表达式、xpath、json 匹配数据
支持多级、多页、分页采集
几乎能采集任何形式的数据内容(小说、影视、列表数据等等)
无缝耦合各种 cms 程序实现免登陆发布数据
还可以直接导入数据库、导出 excel、生成 api 接口等等
图片下载到本地服务器
ip 代理等等
1
qianmeng 2018-07-19 14:06:24 +08:00 via Android
简单看了看文档,挺不错
|
2
xxx749 2018-07-19 14:09:19 +08:00 via Android
js 天下第一!
|
3
imdong 2018-07-19 14:21:33 +08:00
确实还是挺简单的,先标记一下,感觉后期能用到。
|
4
Rekkles 2018-07-19 14:22:00 +08:00
可以 已 star
|
5
zqjilove 2018-07-19 16:29:55 +08:00
已 star,粗略的看文档,和老牌的类似工具,差不多。貌似没看到,可以采集列表数据信息,同时和内容字段一起入库的情况。不知道是否功能存在?
|
6
baiyun888 2018-07-19 17:56:32 +08:00
很不错哦
xpath 是不是有些类似 dom 采集 |
7
jamesliu 2018-07-19 18:07:06 +08:00
star
|
8
1O 2018-07-19 18:09:43 +08:00
已 star
|
9
zuohuadong 2018-07-19 18:11:17 +08:00
php-fpm 就不要拿出来说了~~ 做采集真的很低效。
这类任务,老老实实异步非阻塞 |
10
chinaglwo 2018-07-19 18:15:43 +08:00
动态页可以采集吗
|
13
zorlan OP @zuohuadong 大佬,不妨分享下经验
|
15
richChou 2018-07-19 20:24:16 +08:00 via iPhone
厉害,已 star 👍🏻
|
16
mingyun 2018-07-19 23:13:14 +08:00
注意:PHP5.3dev 版本和 PHP6 均不支持 表示没有见过 php6.。。
|
19
e6nian 2018-08-01 22:46:42 +08:00
@zorlan 看完你的 licenses http://www.skycaiji.com/licenses
再看你的 composer.json 相互都是冲突的,我觉得应该直接从 github 上直接 fork 就好 :) |