1
renmu 2019-11-16 13:02:59 +08:00 via Android
MongoDB 简单粗暴
|
2
lhx2008 2019-11-16 13:05:49 +08:00 via Android
文本追加
|
3
eq06 2019-11-16 13:21:18 +08:00
多线程吗?多线程弄 SQLite 拆几个数据库呢
|
4
w2er 2019-11-16 13:28:11 +08:00 via iPhone
搬好小板凳,听大佬讲课
|
5
tomczhen 2019-11-16 13:49:53 +08:00
哪个数据库熟悉用哪个,爬太快小心变成 DDOS/CC 直接进去包吃包住。
|
6
ClutchBear 2019-11-16 13:57:47 +08:00
阿里云的 表格存储
|
7
RicardoY 2019-11-16 13:58:13 +08:00 via Android
配置不高就直接写文件 或者 MongoDB 现在 v2 一提到爬虫就是监狱警告..
|
8
FaceBug 2019-11-16 15:01:28 +08:00
配合消息队列先,再管数据库
|
9
locoz 2019-11-16 15:07:19 +08:00
数据量比较大是多大?配置不高是多高?爬完之后要做什么用?数据分析还是文本检索?啥都没有那只能说哪个熟悉用哪个了
|
10
crclz 2019-11-16 15:11:10 +08:00 1
只写过玩具爬虫。一点其他领域得来的拙见:如果存储空间够的话,postgres 的插入速度完全够用:用 N+1 个线程,N 个线程往 1 个 queue 里面写数据,1 个线程定期( 100ms )将数据 bulk insert 到数据库。普通的 insert 可能吃力。
也建议了解 Cassandra。 mongo 可能速度不够用。 |
11
wangyzj 2019-11-16 15:49:39 +08:00
kafka -> es
|
12
scriptB0y 2019-11-16 16:01:04 +08:00
Mongo 最简单实用了,感觉到千万的数据都问题不大。再大可能要具体情况具体分析了。
|
13
dbow 2019-11-16 16:04:37 +08:00
选一个 Key-Value 数据库用, 比如 leveldb, rocksdb 啥的, 自建 Mysql 顶不住千万级写入。
|
14
ClericPy 2019-11-16 16:52:13 +08:00
这个不能闭着眼来啊...
数据量大, 有多大? 不过单机放的下, 估计也不会有太大... 数据类型是什么样的, 结构化? 半结构化? 非结构化? 文章那种段文本? 用途是什么, 热数据还是冷数据, 给什么部门用, 怎么用 你这问的有点宽泛了, 如果是跟我一样的羊毛机, mysql 可以涵盖多数需求了, 几百兆内存能跑起来一个 |
15
HTSdTt3WygdgQQGe OP 大家分析的好专业,暂定 mongo 谢谢各位
|
16
wangxiaoaer 2019-11-16 17:25:07 +08:00
无脑用 MongoDB 的怕不是磁盘不要钱?
|
17
0x400 2019-11-16 17:29:18 +08:00 via Android
.csv
|
18
sadfQED2 2019-11-16 17:36:22 +08:00
mongodb 后期做分析好用,另外容错率高,比如爬价格,Mysql 你用 int 存,但是某个数据可能给你返一个“100 以上”,然后你就 GG 了,如果 mysql 用 json 存,后期分析数据贼难用
But,用 mongodb 可能机器配置要求比 mysql 高,装了 mongodb 的机器基本上没法干其他的了 |
19
lc7029 2019-11-17 02:45:13 +08:00
MongoDB
|
20
encro 2019-11-17 19:58:55 +08:00
分布式爬虫:
缓存队列在 redis 部署开发方便, 索引存 mysql 查询方便, 内容存 leveldb 压缩比好 |
21
onyourroad 2019-11-18 00:45:27 +08:00
爬虫是犯法的知道吗?
|
22
indicoliteplus 2019-11-18 07:49:01 +08:00 via iPhone
postgres 吧,存 json 也无压力。mongodb 虽说对开发友好,但是对业务就有点恶心了
|