求一个面向非码农的爬虫入门 Tutorial

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 3316 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近身边好多法学啊，经济的同学问能不能学习一下爬虫的姿势，这样以后搜集资料就不需要老是复制粘贴这样的体力劳动了。于是就想来看看有木有符合这样需求的 tutorial ，大家可以 share 一下呢~

Tutorial

非码农

粘贴

26 条回复 • 2016-02-16 14:59:06 +08:00

GG668v26Fd55CP5W

2016-02-10 11:30:53 +08:00 via iPhone

自己做个爬虫系统，教他们写正则表达式

xcodebuild

2016-02-10 11:36:46 +08:00

@falcon05 正则表达式不适合处理爬下来的 HTML

wdlth

2016-02-10 11:40:12 +08:00

可以试试 XPath

gamexg

2016-02-10 11:40:40 +08:00

那么用 xpath ，有浏览器插件可以自动生成 xpath 表达式。
但是还是需要正则或* ? 做一些提取。

gaocegege

2016-02-10 11:51:43 +08:00

正则还是 Xpath ，都是需要教才能用的嘛，有什么教不会写代码的人用这样的技术的文档么 0;0
总不能来一个，教一个吧

WildCat

2016-02-10 11:56:02 +08:00 via iPhone

pyquery 比较适合？

fengxiang

2016-02-10 11:58:10 +08:00 via Android

直接用火车头得了

XadillaX

2016-02-10 12:19:51 +08:00 via Android

nodejs + cheerio

scarlex

2016-02-10 12:32:18 +08:00

试试 Nightmare.js

ericls

2016-02-10 12:45:24 +08:00

https://segmentfault.com/a/1190000002544142
写过一篇面对入门的

ammzen

2016-02-10 12:56:48 +08:00

看楼主说到那些同学搜集资料时就不用老是复制粘贴的抱怨，我觉得他们需要的可能不是爬虫，而是快捷保存资料的工具。
Evernote 插件用好，完全可以保存重点内容与出处（ URL ）。
要么就去找选中即保存的那种工具，浏览完网页后，重要的东西都已经存下来了。

zog

2016-02-10 13:05:59 +08:00

我推荐你用 wget 这个命令行工具. 普通爬取工作都可以胜任. 非程序员编写爬虫很难. 爬虫是个很大很大的话题.

Tink

2016-02-10 14:11:14 +08:00

其实主要还是要教他们处理 js 生成的内容

Jimrussell

2016-02-10 14:31:31 +08:00 via Android

好的回答总是简单的，比如 7 楼。再加个按键精灵好了。

imn1

2016-02-10 15:27:39 +08:00

你需要搞清楚需求，你确定他们真的需要一个爬虫么？
他们可能更需要的是一个后台获取文档、前台截取主要部分（去除无关内容）的工具
个人觉得他们对文字阅读还是有必要的，但爬虫往往却是忽略“阅读”
可能一个离线浏览器+笔记类工具会更合适，文章采集器可能合适，不过我不太了解

同质（指 HTML 结构）少于 1000 都无必要学习爬虫，成本更高
先弄清需求吧