1
heyli 2013-08-08 15:38:19 +08:00
好奇爬虫是如何实现的?方便的话共享下思路
搜索没有的小说是否会自动抓取? 是否要手动处理 怎么取正文的内容 之前在做的 一直无法做得很好 |
2
joyqi OP 目前小说是要手工录入的,还没做到那么自动化
取正文的内容用的php dom对象的xpath实现的,针对不同的网站实现不同的匹配就行了,是个体力活 |
3
heyli 2013-08-08 15:48:59 +08:00
555 跟我实现的一样 但当有几百个人在看不同类型的小说时 就崩溃了 完全无法满足
|
4
joyqi OP 这还不简单,在淘宝上买个带数据库的小说站,自己倒一遍就行了,就几十块钱
|
5
pandada8 2013-08-08 15:59:36 +08:00
//我居然看到了凤凰面具
网页似乎没有居中啊…… linux + Chrome |
6
heyli 2013-08-08 16:01:25 +08:00
都是已有小说就没有吸引力了 处理的绝大部份都是正在连载的小说
|
7
jedicxl 2013-08-08 18:08:13 +08:00
大陆的所谓奇幻和武侠修真的都没法看啊楼主
网络小说的话,已完结的推荐《阿里布达年代祭》、《风姿物语》,未完结的有《妖刀记》、《六朝清羽记(系列)》(呃。。除了风姿物语,其他三个都是H的。。。) 上述这些都是台湾作者的,仅仅是做推荐阅读,但是否适合放到你这个站上,个人觉得不太合适,毕竟涉及版权。 |
8
shierji 2013-08-08 19:44:02 +08:00
凡人修仙传啊。。。。传说中的大坑啊
|
10
jedicxl 2013-08-08 20:07:17 +08:00
@shierji 凡人修仙传的人物塑造和剧情实在是我看过的网络小说中数得着的烂的,文笔也差的一比。但是很奇特的是想象力却还算不错。整篇小说基本就靠想象力撑起来了
|
13
why 2013-08-08 20:32:41 +08:00
等你抓好了我再抓你的
|
14
binux 2013-08-08 20:39:02 +08:00 2
我干过 http://www.shupeng.com/netnovel 是我抓的,带内容
|
16
davepkxxx 2013-08-08 20:46:48 +08:00
D坂杀人事件 (午夜文库) 江户川乱步
龙文身的女孩 斯蒂格·拉森 (Stieg Larsson) 日瓦戈医生 (诺贝尔文学经典) 帕斯捷尔纳克 白银时代 (时代三部曲) 王小波 一九八四(译文名著精选) 奥威尔(George Orwell) 动物农场 (译文经典) 乔治•奥威尔(George Orwell) 黑客与画家:硅谷创业之父Paul Graham文集 阮一峰 悟空传(完美纪念版) 今何在 诺贝尔文学奖作品典藏书系:鼠疫 A.加缪 福尔摩斯探案大全集(超值金版) (家庭珍藏经典畅销书系:超值金版) 阿瑟·柯南·道尔(Arthur Conan Doyle) 明朝那些事儿(第5部):帝国飘摇 当年明月 明朝那些事儿(第6部):日暮西山 当年明月 明朝那些事儿(第4部):粉饰太平 当年明月 明朝那些事儿(第7部):大结局 当年明月 明朝那些事儿(第3部):妖孽宫廷 当年明月 明朝那些事儿(第2部):万国来朝 当年明月 明朝那些事儿(第1部):洪武大帝 当年明月 塔希里亚故事集3 吴淼 帝国最后的荣耀:大明1592抗日援朝(套装共2册) 马伯庸 追风筝的人 胡赛尼 |
17
hewwcn 2013-08-08 21:07:05 +08:00
|
18
msg7086 2013-08-08 21:57:27 +08:00
刀剑神域
樱花庄的切糕女友 |
19
Mcatt 2013-08-08 22:16:39 +08:00
《无限恐怖》
|
21
faceair 2013-08-08 22:53:15 +08:00
去抓安卓搜狗阅读的api
|
22
daoluan 2013-08-09 09:02:50 +08:00
具体是哪个网站,分析网站的结构,然后抓?
|
23
williamx 2013-08-09 10:07:57 +08:00
《修真世界》绝对要入啊!
|
24
yumkyo 2013-08-09 10:37:53 +08:00
http://www.lkong.net/book.php
龙空的推书榜,个人比较认可。 |
25
Tiny 2013-08-09 10:43:01 +08:00
没人看雪中悍刀行?
|
26
kachens 2013-08-09 12:18:53 +08:00
我是个算命先生
|
27
hanbaoo 2013-08-09 12:19:43 +08:00
大家看的书五花八门哈哈,真是繁荣
|
28
missdeer 2013-08-09 14:33:07 +08:00
嗷嗷嗷,我也想做这样一个扒小说的东西很久了,抓文本正文容易,用Readability就行了,就怕是图片正文然后要求重排以适应不同大小屏幕(移动设备),其实貌似也有现成算法和实现了(k2pdfopt)。。。万事俱备,只欠动力。。。
|
30
mofan 2013-08-09 19:30:01 +08:00
livid竟然还没出来说「请不要在V2EX讨论盗版」~
|
32
shinwood 2013-08-09 22:01:38 +08:00
赞!喜欢这种不带修饰的文字版站点,就是用 Safari mobile 版本看字略小。
|
33
asca 2013-08-10 11:09:42 +08:00
猫腻写的几部都不错啊
|
34
wingoo 2013-08-10 11:24:43 +08:00
猫腻最近停更了啊...
最近在追 升邪, 很有意思 |
35
riccar 2013-08-16 14:48:57 +08:00
风姿物语
|
36
hutushen222 2013-08-16 15:04:14 +08:00
在追方想大大的《不败战神》,最近申请了Mailgun的免费账户,正在写定时抓取更新并将内容发送到邮箱的脚本。
|