hdfs 可以存储文件对象,就是 jpg doc xls avi 这种纯文件,
hadoop 具有 hdfs 文件系统管理功能,
hive 则是 hadoop 的 hql 管理版增强包,
那么推论则是,hive 可以通过 hql 来管理 hdfs 内的文件对象
但是呢,我看 hive 的建表文件一定要有个分隔符,而且不管是 textfile 还是 sequencefile 都要有分隔符,要么逗号要么\001 ,那么 hive 在写入数据是一定会去解析文件吗?
换言之,如果我想用 hive 来实现文件对象的管理,就是用 hql 来查询文件对象,即 doc xls jpg 这种纯文件,hive 能实现吗
1
liprais 2023-07-22 21:35:22 +08:00
你要读 excel 自己写个 serde 就行了
hive 管理的是数据不是文件,jpg 你也可以当成数据,不过没啥意义 |
2
macvis OP @liprais 突然明白了,我不必拘泥于文件格式,写入读取时关注序列化与反序列化,要存取什么使用对应的 serde 就好了,对吧
|
3
Alias4ck 2023-07-22 21:45:22 +08:00
你这种非结构化的数据 ,hive 是无法处理的,
对于传统的 RDBMS 处理这种数据的方式也是基本存储对应的文件路径,也不会直接解析二进制数据 你真的想在 hadoop 上存储这个的话 ,你可能需要的是 hbase 或者 es 不过主流方案也是存储它在 hdfs 上面的路径吧 |
4
rrfeng 2023-07-22 21:49:38 +08:00 via Android
hdfs 是 ext4
hive 是 mysql 这样对比是不是容易理解了 |
7
rrfeng 2023-07-22 21:58:38 +08:00 via Android
HBase 是 MongoDB 。
不如说一下你的原始需求 |
9
xue777hua 2023-07-23 12:49:49 +08:00
可以实现 增加一个 udf 就行 用来解析文件
|