我想做一个豆瓣小组发帖搜索引擎,主要是要爬指定豆瓣小组的数据,保存的数据包括文本和图片。
前几天上了腾讯云的车,但是感觉配置达不到要求( 2G 内存,50G 硬盘),什么样的配置可以跑?
1
golmic 2018-03-15 13:13:49 +08:00 via Android
看你抓的频率和范围吧,像豆瓣的小组更新频率并不高,再看看你要抓全部小组么。可以联系我详聊,层主是数据工程师。公众号 pydatame 有我联系方式。
|
2
tailf 2018-03-15 13:54:23 +08:00
先解决被封的问题再来说吧。。。。
|
3
Hzzone 2018-03-15 13:57:39 +08:00 via iPhone
一个爬虫主要有多好的配置……
|
4
murmur 2018-03-15 14:02:20 +08:00
需要超级多的代理
|
8
aoxiansheng 2018-03-15 14:18:39 +08:00
如果你想降低频率破封,你现在的配置足够了。
|
9
ke1vin OP @aoxiansheng 硬盘呢,要不要担心写满的情况,我第一次开发爬虫程序。
|
10
em70 2018-03-15 14:34:14 +08:00
爬了页面,提取了需要的数据就删了啊,留着这些文件干嘛
50G 硬盘分 10 个 G 做数据库,能存个几千万条记录吧 |
11
em70 2018-03-15 14:35:21 +08:00
文本和图片上传 oss,七牛这些专业储存服务去,便宜
|
13
tscat 2018-03-15 14:39:39 +08:00
1g 内存都爬的很开心啊。
50g 硬盘问题也不是特别大。除非你保存图片 |
14
2ME 2018-03-15 14:40:50 +08:00
图片多的话很快就塞满硬盘了 不过你策略不好的话可能还没爬满硬盘就被 ban 掉了 单爬数据就无所谓了 这配置跑爬虫绰绰有余
|
15
aoxiansheng 2018-03-15 14:55:20 +08:00
大哥你先干,有问题再解决。还没开始干,就想着解决问题了。
不够买云盘即可。 |