小说转码,小说换源的技术手段是爬虫吗?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2093 天前的主题，其中的信息可能已经有所发展或是发生改变。

迫于好奇,

爬下来网页,将固定格式的页面转换为文本?是这个意思不?

7 条回复 • 2019-05-22 09:35:36 +08:00

keepeye

2019-05-22 08:58:35 +08:00

1. 识别大段文本
其他的楼下补充

TomVista

2019-05-22 09:00:56 +08:00

那么 doc.loaded(){ajax 异步} 请求下来的数据能爬到吗?

Phuasheng

2019-05-22 09:08:51 +08:00

ajax 的直接调用接口不就得了，抓下的内容随便往数据里面存，你可以在抓的时候过滤，也可以在读、渲染的时候过滤

Light3

2019-05-22 09:12:02 +08:00

要看页面是啥样的有的是接口有的是直接显示的可能要抓页面当然有的可能是图片..

TomVista

2019-05-22 09:22:26 +08:00

明白了,谢谢诸位.

mouren

2019-05-22 09:31:07 +08:00

正文提取我用的是 Arc90 Readability 的算法
章节列表自动提取是自己写的算法

ismyyym

2019-05-22 09:35:36 +08:00

浏览器某种意义上也是爬虫

小说转码,小说换源 的技术手段是爬虫吗?