最近用 Python 写了一个简书用户的爬虫,单机耗时 30 小时抓取了简书 30 万用户的数据(设置了适当的下载延迟,所以耗时较长。当然了,主要是避免简书服务器造成不必要的压力)。简书用户用户量我不知有多少,这 30 万只是其中相对活跃的一小部分,但个人认为这份数据还是具有一定的代表性
1
gaoyadianta 2017-06-13 14:16:37 +08:00
玩 python 多久了,看着还挺有意思的嘛
|
2
kokdemo 2017-06-13 14:43:29 +08:00
这个应该算是用户统计,还谈不上画像。
但是能爬了这么多数据也挺有意思的…… |
3
xiaoyu9527 2017-06-13 15:03:05 +08:00
我现在想抓微博的网红和模特和 COSER 然后抓他们发的套图。 你们有没有思路?
|
4
xiaoyu9527 2017-06-13 15:03:25 +08:00
然后做一个瀑布流网站。
|
5
xiaoyu9527 2017-06-13 15:13:42 +08:00
@keisuu 有没有思路
|
6
lzjun 2017-06-13 15:31:26 +08:00
有点意思
|
7
keisuu OP @gaoyadianta 努力成长的菜鸟一枚
|
8
keisuu OP @xiaoyu9527 第一步获取数据( github 有开源的微博爬虫),第二步用 web 框架( django、flask )搭建一个网站将抓的数据展示出来。
|
9
xiaoyu9527 2017-06-13 16:58:04 +08:00
@keisuu 就是没有思路怎么整理数据(如何知道他是女模特或者 COSER )
|
10
haoba 2017-06-13 18:05:09 +08:00
@xiaoyu9527 只抓指定的几个人的 feed,或者关联的就再抓上他关注的人的 feed。然后拉回本地分析一下图。
|
11
zzljzeng 2017-06-13 18:10:19 +08:00 via iPhone
好 6666
|
12
l32606 2017-06-14 03:24:30 +08:00 via Android
画图用的是什么?
|
13
xiaoyu9527 2017-06-14 10:10:36 +08:00
@haoba 我目前的思路也是先抓 1 人再抓剩下的人。这种思路。
|
14
longchisihai 2017-06-14 17:15:44 +08:00
同问怎么画图的
|
15
bget 2017-06-20 07:13:47 +08:00
推荐一个好用的爬虫软件,看能否帮上忙:www.sensite.cn/bget,速度快、稳定、灵活性高,可节省写代码的时间。
|