各位，大数据入门应该从什么地方开始下手？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 436 天前的主题，其中的信息可能已经有所发展或是发生改变。

需求：对小规模部署条件下 Hadoop 及衍生框架的读写性能做数量级分析（不需要太精确）

问题：之前从来没用过 Hadoop 相关系统，印象里 hadoop 是一套不光包括储存，还包括分析的工具套件，我单纯想测下它在存储方面性能和延迟有没有什么优势和劣势，不太需要分析，应该从什么地方下手？

B 站搜教学动辄几十小时太难顶了，相关概念也确实多，Hadoop ，MapReduce ，Hive ，Spark 等等。如果想单纯实现存储/取出的功能的话应该用哪个工具啊？

===============

理想需要的就是那种 docker 一条命令直接就跑起一个 mysql 客户端，然后可以直接用语言接个客户端往里写数据，类似这种的，不过查了查资料感觉 hadoop 配置起来好像特别麻烦

hadoop

下手

客户端

mapreduce

13 条回复 • 2025-03-03 15:14:58 +08:00

echo1937

2024-02-06 23:56:12 +08:00 via iPhone

现在很少有人用 Hadoop 了，你这是啥需求

FlyingBackscratc

2024-02-07 00:42:13 +08:00

@echo1937 就是想试一下，因为以前没用过。不用 hadoop 的话数据量大的时候怎么存？也不是特别大吧，比如 20T 这样，实在要存的话单机也能存

cnsdytedison

2024-02-07 08:56:37 +08:00 via Android

@echo1937 那现在都用什么啊

wanv1171

2024-02-07 10:29:32 +08:00

@cnsdytedison Hive 跟 Spark 应该相对多一些把

kaysdl

2024-02-07 11:07:58 +08:00

你可以去本地搭个单节点的 hadoop ，就不需要依赖别的东西，能直接写入文件以及读取。带 web 的，只找存文件和读文件的代码来跑，这样你可以不理解 MR 。

lyt001

2024-02-07 11:11:11 +08:00

别来学，快跑

llllllllllllllii

2024-02-07 11:29:15 +08:00

@echo1937 #1 不用 hadoop 用什么呀

@FlyingBackscratc 看尚硅谷。搭集群，写脚本产数据开始学呗，看你想弄实时还是离线，hadoop 生态那些呗，kafka 很重要，别图省事。集群会搭整明白原理，然后写 spark ，flink 各种 source ，sink 。cdc 。还有 hive 数仓，你看尚硅谷就知道了，但劝你别学。啥都得知道，各种维护，各个环节，最后就一用各种工具倒腾数据的，小公司用不起，大公司不用你，或者就一写 sql 导数据的

suuuch

2024-02-07 13:55:13 +08:00

hadoop 是个计算框架，里面东西很多，一般都是集群安装。
里面最主要包含 MapReduce 和 HDFS 。
HDFS 是分布式文件系统，MR 是计算框架。
HIVE 是一个类 SQL 的查询引擎，查询 HDFS 里面的数据。底层计算引擎默认是 MR 的，可以改成 tez ，spark 之类的计算引擎。
SPRARK 是计算引擎，用的 RDD 概念实现的。

性能的话，粗暴点估算，3 台 CPU *2 ，内存 128G *2 的服务器，算是起始配置。低于这个配置，找列存储数据库做 OLAP 系统即可。比如 clickhouse ，greenplum 之类的，数据同步直接 kettle 就行。
还有其它一些基于 PostgreSQL 的数据库，在 OLAP 领域都不错。

没必要纠结。。上了 hadoop 涉及的到程序本身的性能和运维人员的能力要求都会高很多，并不是那么容易直接上去的。

devilweime

2024-02-07 16:32:02 +08:00

学来找过工作？小公司都是单独再拉个库同步数据再折腾，学这些可能都用不上，会写 SQL 就入门了。大公司你先看招聘要求门槛满不满足，别最后绕了一圈走外包进去写 SQL

abcbuzhiming

2024-02-07 18:37:30 +08:00

现在后端是 crud boy ，大数据是 SQL boy 。你数据量不够大的话（低于 1 亿其实都不算大），其实无所谓什么大数据，就是写 query 代码查数据而已，大数据目前已经很成熟了，上限就在那里，解决不了的问题还是解决不了，你就当个大号的 mysql 去用，其实也没差什么。当然你要深入的话，那就可能要去读一下分布式系统方面的著作了

FlyingBackscratc

2024-02-10 21:27:27 +08:00

@suuuch 谢谢，介绍得很全面，所以总结起来如果要查询不带计算的话似乎是 hive 跟 sql 的抽象比较像，也比较适合对比。hdfs 这东西是需要替换系统的文件系统才能用么还是基于系统的文件系统上的另一层 fs ，不知道 hive 有没有办法 docker 直接部署单节点

suuuch

2024-02-11 19:00:53 +08:00

@FlyingBackscratc 安装 hive 的前置条件是安装好 hdfs ，据我所知是没办法直接 docker 部署的。

ispong

46 天前

@llllllllllllllii 太真实了，小公司用不起，大公司不用你，哈哈哈哈
推个轻量级数据计算平台： https://github.com/isxcode/spark-yun