不会python写爬虫,来v2ex求助
要求:
1 支持用户名密码登陆论坛,论坛为一问一答形式,深度都为1级。
2 匹配特征字段“生日”帖子标题,并抓取指定论坛网页1-300页。
3 根据帖子的跟贴,抓取的生日帖子的跟贴的源内容,加工并排列成指定格式的txt文本文件。
生成txt文件
格式如 姓名 抓取日期 生日
王五 20150803 20100801
赵六 20150803 19800901
3 放到vps里7*24小时运行,抓取会员生日。
如能用shell脚本实现更佳
本人QQ 324013020
1
shierji 2015-08-03 20:34:53 +08:00
呃价钱够吸引人的话倒是可以试试。最近恰好在帮导师做一个类似的事情。。。
|
2
shierji 2015-08-03 20:36:50 +08:00
shell爬取。。貌似目前还没多少人做吧。。。
|
4
uuspider 2015-08-04 17:59:43 +08:00 via iPhone
这个需求,curl+sed+awk,应该够了。
|
6
zyujuan OP |