抛开大数据本身那些什么 hadoop 、spark 的不谈,那些都太重量级,比如我面临的场景也就几十万,几百万,顶多千万的数据,有什么相关的轻量级框架去处理这些吗? 比如我了解的有 springbatch 框架,但好像不支持各个维度的统计各种自定义排序啥的,也不支持从大量数据中快速检索等,就是支持大量数据一边读一边写而已。 老哥们有了解其他的流行的或小众的开源框架吗,欢迎推荐,多谢!
1
zoharSoul 2021-07-29 18:06:34 +08:00 1
轻量级不需要这些框架
几十万还处理个毛的大数据. mysql 直接就扛了 |
2
arbit 2021-07-29 18:07:59 +08:00
现在用的 mongodb,一个大表 collection 也有上亿数据,根据业务建好对应字段索引,感觉检索和排序的速度可以满足系统要求
|
3
potatowish 2021-07-29 18:17:09 +08:00 via iPhone
上 es
|
4
chendy 2021-07-29 18:43:03 +08:00
几千万 db 就搞定了
|
5
nanjingwuyanzu 2021-07-29 19:25:07 +08:00 1
我理解楼主的意思应该是处理,高性能框架 。更什么数据库没啥关系
|
6
ikas 2021-07-29 19:36:09 +08:00
矛盾...大数据,轻量级,除非是做 ppt
|
7
young1lin 2021-07-29 19:38:05 +08:00 1
就用 Spring Batch 就行了,几千万数据自定义排序什么的,上 Es 。Spring Batch 官网学不到什么,还得看《 Spring Batch 权威指南》,而且这个好像是 Pivotal 团队贡献了 JSR 352 的规范,有能力的话可以把这个搭配下 Velocity 之类的模版框架,开源个 DashBoard 出来。这个 Spring Cloud Data Flow 我用了,我还提了个 issue,有代理会启动不了,Spring Batch Admin 已经不维护了,Spring Cloud Data Flow 官方就是强推 Maven 仓库 + K8s,本地启动,有点麻烦。
|
9
zhenjiachen 2021-07-29 20:55:42 +08:00 via iPhone
apache flink ?可以 main 方法直接运行
|
10
littlewing 2021-07-30 00:10:54 +08:00
这点数据量放内存里暴力搜索没啥区别
|
11
zmzeng12 2021-07-30 08:21:10 +08:00
用 spark 就行,不需要部署,执行时候会自动在本地拉起 standalone 部署,运行结束后自动销毁。
|
12
abcbuzhiming 2021-07-31 11:20:44 +08:00
没有,Java 拖着一个虚拟机就不可能轻量,数据量小建议直接搞个脚本语言开搞,重型框架只有数据量足够大的时候才有价值
|