V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
WangLiCha
V2EX  ›  程序员

大数据到底是干嘛的?正在做大数据项目但仍然一头雾水中……

  •  
  •   WangLiCha · 2023-08-19 15:42:28 +08:00 · 4780 次点击
    这是一个创建于 462 天前的主题,其中的信息可能已经有所发展或是发生改变。

    是这样的,我是前端开发,然后公司内部调动新成立了一个开发大数据平台的组,然后我就被调过去了,只是以一个普通前端开发的身份,我本身也没做过任何大数据相关的工作,更没有过相关的知识储备。

    然后就发现海量的陌生概念和陌生名词出现在了我的视野里,什么数据仓库,数据域,数据湖,数据市集,数据指标等等等等。毕竟我是前端开发,不了解后台的实际实现方式只是照着需求硬开发也能做出能交差的产品来,但是我还是不知道我到底做了个啥……

    42 条回复    2023-08-21 14:23:27 +08:00
    Chad0000
        1
    Chad0000  
       2023-08-19 15:44:01 +08:00   ❤️ 2
    就是一堆名词,说得好像大数据这个词出来前就不存在大数据的业务似的。类似的概念参考:云。
    dji38838c
        2
    dji38838c  
       2023-08-19 15:46:46 +08:00
    做 ppt
    你做基础业务的不用关心。
    wangxiaoaer
        3
    wangxiaoaer  
       2023-08-19 15:49:41 +08:00 via iPhone
    @Chad0000 更该参考的是 数据挖掘吧
    Chad0000
        4
    Chad0000  
       2023-08-19 15:50:47 +08:00
    @wangxiaoaer # 3
    哈哈,提醒了我,之前确实流行这个术语。不过你看大数据感觉更高大上了
    billlee
        5
    billlee  
       2023-08-19 15:51:44 +08:00
    我是大数据后台开发,后台的实现方式也和这些概念没什么关系。
    i8086
        6
    i8086  
       2023-08-19 15:53:36 +08:00
    更多用于对外宣传。近些年有:区块链+、元宇宙、智慧+、5G+、大数据、大预言模型……

    区块链发票、智慧+生活、5G+交通、5G+医疗、
    owen800q
        7
    owen800q  
       2023-08-19 15:56:10 +08:00
    大数据 == 爬虫
    xmumiffy
        8
    xmumiffy  
       2023-08-19 15:56:40 +08:00 via Android   ❤️ 1
    数据库改名:大数据
    NoOneNoBody
        9
    NoOneNoBody  
       2023-08-19 15:59:04 +08:00
    前端的话,主要应该就是做展示吧?
    统计图表、数据排版整齐……

    如果到你这里就是一堆数据,那不用关心什么概念,非展示的当成类别,展示的就当成座标的名称、行列的名称就好了
    如果你做的不是展示,还要做修正计算,例如 sum, avg 之类,那就另说
    snw
        10
    snw  
       2023-08-19 16:07:34 +08:00 via Android   ❤️ 5
    数据仓库( data warehouse )不是什么新概念,至少在 1980 年代就已经有商业应用了。
    数据市集( data mart )也是有了数据仓库后自然延伸的概念,比数据仓库更小,一般是从数据仓库里提取了一小部分数据,便于做报告。就像商店从仓库里取出部分货物放到货架上一样。
    以上两个都是很早就有的概念,和大数据没直接关系,和传统 OLAP 、ETL 等概念关系更大一些。

    传统数据大多是结构化数据,用二维表很容易存储,用 ETL 很容易处理,用 OLAP 很容易分析。
    大数据,是现在数据量更加庞大、数据关系和逻辑更加复杂(比如非结构化数据),需要和传统数据库不同的设计和工具,概念大概出现在 2010 年代前期。
    数据湖( data lake )是和大数据差不多时期出现的概念。

    至于数据域、数据指标,虽然能搜到,但具体不太清楚。

    大部分是数据库管理员的事情,和前端工作关系不大,前端可能要做的是 BI 报告平台。
    cheese
        11
    cheese  
       2023-08-19 16:09:41 +08:00
    大数据前端跟提到的概念没啥关系,主要工作就是当一个画表画图机器人,界面越炫酷越科幻,越牛逼
    hcbb
        12
    hcbb  
       2023-08-19 16:19:23 +08:00
    把数据放到一块,进行数据分析,数据挖掘
    WangLiCha
        13
    WangLiCha  
    OP
       2023-08-19 16:35:53 +08:00
    @snw 我感觉这些概念就是,换了名字的数据库,抽象的数据库,数据库的数据库……?
    报表只算我们要做的东西的一部分,主要还是要做一个具体操作数据仓库啥的中台页面,所以才会疑惑我做这些东西到底是干嘛的
    WangLiCha
        14
    WangLiCha  
    OP
       2023-08-19 16:36:48 +08:00
    @billlee 这么来说有必要弄懂了解这些概念的应该只有产品经理或者项目经理了?
    jackOff
        15
    jackOff  
       2023-08-19 17:32:14 +08:00 via Android
    术语太多以至于我有时候觉得这不是后端和爬虫,可能是报表员的工作
    Kiriya
        16
    Kiriya  
       2023-08-19 17:36:41 +08:00
    通过统计细分用户
    yunye
        17
    yunye  
       2023-08-19 17:56:52 +08:00
    大数据就是说数据非常多,非常牛逼
    yuluoxinsheng
        18
    yuluoxinsheng  
       2023-08-19 18:04:43 +08:00   ❤️ 1
    真不如业务后端开发
    metalvest
        19
    metalvest  
       2023-08-19 18:10:36 +08:00 via Android
    大数据重点在这个“大”字。量变引发质变,换个词:相变,再换个词:涌现
    akira
        20
    akira  
       2023-08-19 18:10:51 +08:00
    大数据前期上前端就是人多的没地方用了。。。

    猜测是让你去做大屏之类的 数据展示吧,反正你就按需求去后台请求数据,然后用不同的图表展示出来就可以了。
    pengtdyd
        21
    pengtdyd  
       2023-08-19 18:28:10 +08:00
    很多公司所有的数据加起来都没 1TB ,就跟风上马大数据,这种现象简直不要太多。
    Zephania
        22
    Zephania  
       2023-08-19 18:51:38 +08:00
    有啥好喷的,不正是有这些概念,程序员们才有一口饭吃吗
    lingalonely
        23
    lingalonely  
       2023-08-19 18:52:45 +08:00
    大数据相关的前端工作,90%和之前的没啥不同,剩下的 10%就是报表,图表,分析结果输出
    nanvon
        24
    nanvon  
       2023-08-19 19:05:01 +08:00
    数据量特别大、从这些数据中分析、得出 xxxx 结论
    max1
        25
    max1  
       2023-08-19 19:20:23 +08:00
    行业相关,我司是做异常检测的,ELK ,数据清洗后,输出标准化数据,给模型去跑,检测人不能发现的异常。
    myesn
        26
    myesn  
       2023-08-19 19:57:07 +08:00
    虽然我没接触过,不过我的感觉和你一样,但我思考片刻后,我觉得如果直白的说数据多、很多、非常多、超级多、超级无敌多,这样听起来好像不容易骗到钱啊,但是我换一种牛逼的说法,让人觉得哇真高端,真牛逼,我一定要投资你,反正,就像元宇宙一样,把词语尽量高端化复杂化,这样才能发财吧。

    这些都是门外汉的个人片面见解,不知道事实如否如此呢?
    lbbff
        27
    lbbff  
       2023-08-19 20:32:16 +08:00 via Android
    楼上的应该都没做过大数据。其实大数据就是在数据量大,非结构化数据多,数据价值密度低场景下的一种解决方案。遇到这种场景,哪怕是自己从头设计开发,最终也会发展出现在的大数据工具与理论,就是为了更方便管理,更方便分析,更能产生价值。可以设想一下有 10TB 服务器 nginx 日志,如何应对每天给项目经理提供一份 URI 使用情况
    WangLiCha
        28
    WangLiCha  
    OP
       2023-08-19 21:15:24 +08:00
    @lbbff 那可不可以这么理解,大数据就是把海量的原始数据从原始数据库里整理转移到新数据库里方便使用和查看的这么一种业务
    kingjpa
        29
    kingjpa  
       2023-08-19 21:37:12 +08:00
    curd 后先计算再展示,仅此而已
    lbbff
        30
    lbbff  
       2023-08-19 21:40:06 +08:00 via Android   ❤️ 1
    @WangLiCha 这个是大数据需要处理的对象之一,一般都会用到常规数据库里面存储的业务数据,再加上服务产生的日志,边缘设备( app 上报)的日志,放在一起管理和分析,最后的结果可能是给领导汇报的报表,客户看的自己使用情况,产品经理看的分析,运营需要的用户画像,以及反馈给业务系统本身。这些取决于业务形态
    snw
        31
    snw  
       2023-08-19 22:04:32 +08:00 via Android
    @WangLiCha
    普通的数据仓库大多是二维表的数据库,和大数据没直接关系,即使有关也是从大数据源(比如数据湖)里抽取并整理之后的少量数据,处于大数据项目偏下游位置。至于数据中台,处在比数据仓库更下游的位置,只比报表制作者和报表使用者稍上面一些。

    真正接触大数据上游的人大多都是数据科学家/数据工程师+IT ,写代码敲命令居多,不太需要 GUI 。

    至于你问大数据有什么特别的,你可以看一下大数据的基本特征,没有哪条能用常见数据库来达成。
    * 量 volume: TB 只是基础单位,上到 PB EB 的数据量,你用普通通用数据库能应付吗?
    * 种类 variety: 结构化数据容易用通用数据库处理,给一堆非结构化数据你怎么处理呢?
    * 速度 velocity: 比如 1 个车间有 100 台机器,每台机器有 100 个传感器,每个传感器以 1kHz 采样,那么每秒就有 1000 万个采样点,你用传统数据库每秒 insert 1000 万行数据吗?当然 PostgreSQL 可能勉强能达到,但过段时间你有 10 个车间,传感器采样率提高到了 16kHz ,你继续堆数据库硬件吗?
    * 可信度 veracity: 传统数据库里的公司内部数据,DBA 很容易管理数据质量,但当你的爬虫从互联网上爬来一大堆乱七八糟的数据时,你怎样从中提取有效信息做成可靠的报告?
    wheat0r
        32
    wheat0r  
       2023-08-19 23:41:51 +08:00   ❤️ 1
    技术上的大数据和销售上的大数据不是同一种东西
    EminemW
        33
    EminemW  
       2023-08-20 00:12:15 +08:00
    顺便问一下各位大佬,介绍大数据系统设计思路的文章推荐,能详细到底层数据库选型,数据表设计,数据分层设计更好
    Betsy
        34
    Betsy  
       2023-08-20 10:10:28 +08:00 via iPhone
    这产品定位像极了我前司的产品,后来部门解散了…
    qiumaoyuan
        35
    qiumaoyuan  
       2023-08-20 11:12:18 +08:00
    就是发明各种词汇的,他们也不知道自己在干嘛。
    jinsongzhao
        36
    jinsongzhao  
       2023-08-20 12:11:55 +08:00
    大叔局,涵盖了很多内容,尤其最近小鲜肉快速加入,淘汰了大量老东西,所以关键还是看要解决什么问题,再选择合适的手段,否则就像李彦宏说的,很多 APP 都要重头写过了。
    xuanbg
        37
    xuanbg  
       2023-08-20 16:20:18 +08:00
    大数据最大的作用就是在你不知道因果关系的领域,揭示相关性给你看,以供你去分析其中的因果关系。
    metalvest
        38
    metalvest  
       2023-08-20 16:47:20 +08:00 via Android
    最典型的应用就是电商网站通过大数据对用户画像作智能推荐。
    metalvest
        39
    metalvest  
       2023-08-20 16:49:01 +08:00 via Android
    当你觉得 b 站或者淘宝监听了你的对话的时候,其实就是大数据在起作用。
    abcbuzhiming
        40
    abcbuzhiming  
       2023-08-21 00:12:25 +08:00
    当数据量到达一定级别的时候,可以从中挖掘出规律来预测未来,这就是大数据。比如说我们收集既往的天气数据加以总结并训练模型,就可以用来预测未来天气。再比如我们可以通过分析 20-30 岁年龄的淘宝用户最近 10 年买的衣服款式的变迁,分析出明年可能流行哪一款。

    这里面涉及的海量数据远超传统关系数据库能处理的数量级,所以用了 [大数据] 这个专门的词语来形容这个领域,不过传统关系数据库厂商也不是吃素的,它们也在演进自己的技术系统追上这个时代,总之,其实还是在处理数据,只是这个数据的量级特别大而已。

    最后,其实很多公司不需要大数据,因为他们的数据量实在太可怜了。连 1 亿都没有,却说自己在搞大数据。
    SmiteChow
        41
    SmiteChow  
       2023-08-21 10:06:44 +08:00
    统称数据库,现在大数据领域已经没有开发工作了,工具都是现成的,全是运维+SQL 的工作。
    WangLiCha
        42
    WangLiCha  
    OP
       2023-08-21 14:23:27 +08:00
    @abcbuzhiming 被调过去之前我对大数据的想象跟你的下第一段描述基本是一样的,实际开发的时候就是在系统里增删改查数据仓库,数据域,数据湖,数据市集,数据指标之类的,数据是一点见不到……
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2896 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 07:58 · PVG 15:58 · LAX 23:58 · JFK 02:58
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.