php+mysql 开发的数据采集发布系统
支持 php5.3~php7
支持多级、多页、分页抓取
支持正则、xpath、json 匹配内容
可将数据导入 cms 系统或自己开发的程序、直接入库、保存为文件等
实现定时定量全自动采集发布
界面自适应宽度,手机也可以操作采集
1
eluotao 2018-05-04 11:09:02 +08:00
支持一下...感谢你的开源分享.
|
3
martyartrt1 2018-05-04 11:43:46 +08:00
支持 Js 解析么
|
4
183387594 2018-05-04 11:48:30 +08:00
共享采集规则这个也不错
|
5
zorlan OP @martyartrt1 你说的是 js 渲染吗?这个还不能有些难度
|
7
LevineChen 2018-05-04 12:28:34 +08:00 via iPhone
@zorlan php v8js 了解一下
|
8
zorlan OP @LevineChen 好东西,研究一下!
|
9
mf2019d 2018-05-04 12:39:08 +08:00 via iPhone
好好。
|
10
gouchaoer 2018-05-04 12:55:19 +08:00
说 v8js 的,js 代码一般和 dom 高度绑定的,v8js 里面又没有 dom,所以并没有用
|
11
siknet 2018-05-04 13:54:21 +08:00
挂上服务器试试
|
12
LeungJZ 2018-05-04 14:06:55 +08:00
支持。
|
13
Nott 2018-05-04 14:27:46 +08:00
赞,PHP 版火车头
|
14
gouchaoer 2018-05-04 14:36:43 +08:00
源码里面把换行符去掉略蛋疼,一方面这个没用,另一方面造成一个暗示就是你不希望有人贡献代码
|
15
xjroot 2018-05-04 15:08:25 +08:00
phpspider , 一样的问题, 重复内容该如何处理.. 通配规则等..
|
16
aiseo 2018-05-04 15:36:31 +08:00
这个怎么感觉就是 php 版火车头呢
|
20
nosay 2018-05-04 17:08:13 +08:00
赞,就是 tp 版本低了点,可能是一个不稳定的因素。
|
23
xttttt 2018-05-05 02:16:41 +08:00
为什么汉化只有一半看着好蛋疼
|
25
zorlan OP @xttttt 出 bug 了吗?麻烦在 bbs.skycaiji.com 反馈下,谢谢!
|
26
files 2018-05-05 10:06:58 +08:00
去掉换行符不让别人修改,这也叫开源?
|
29
zorlan OP 哎,心凉,这是哪位大佬啊 https://github.com/zorlan/skycaiji/issues/4
|
30
hxy100 2018-05-06 14:00:10 +08:00
@zorlan 真的很蛋疼啊,开个源还打乱格式。我知道有工具可以格式化,但你这个让别人看你代码的成本增加了,不符合开源精神,还有很多需要在 Github 在线查看代码的怎么破?要开源,就注意点规范,不要随便破坏行业规则,不好!
|
31
zorlan OP @hxy100 好吧,标题应该把开源改成免费(现在改不了了),不过这个程序不是框架只是软件,大家根本不需要改源码,只要部署到服务器上使用就可以了,我上传到 github 也是方便大家下载使用的,不知道你们老是抓着源码干嘛?再说了,这个也不是格式化,只是 php 很简单的一个功能 php_strip_whitespace,ctrl+i 还是能看的,这就破坏行规了?
|
32
mmd1989 2018-05-10 14:24:21 +08:00
xpath 有案例可以参考么,用手册里的例子 //*[@id="epContentLeft"]/h1 抓网易新闻内容页标题抓不到呢
|