1
devon 2013-08-22 10:22:00 +08:00
1,找找有没有综引页,那种按问题分类,或者按字母排序的页面。如果有,从索引页开始爬起,分析索引页中的具体answer页面,再抓具体的页。
2,从具体的内容页分析用户名,到fb中去取数据。 这么大的数据量,需要很大的存储空间。还需要注意: 1,跑多线程,这么大量,需要很多线程才能加快抓的速度。 2,不要抓太快,可能会被封,具体的速度,需要用脚本去测试一下。 3,有可能需要很多IP地址,从不同的IP地址去爬。 细节很多,在做的过程中去摸索。 |
2
yue5805880 OP @devon 谢谢你的思路。但从具体的内容页分析用户名,到fb中去取数据这一步。 这是如何做到的? 如何保证此用户和fb上的用户是一个用户呢? yahoo answer 和fb都是使用email来登陆的。
|