企业数据仓库质量不高,数据质量建设跟不上业务发展,最后慢慢拖累业务。此外 IT 人员良莠不齐等等问题,都是当前数仓建模的痛点问题。 企业内有各种 dws 表支撑着各种业务需求。然后借住 ETL 工具每天自动维护。很多 dws 之间存在很大的重复性,但是通常只要 ETL 时间在接受范围内,很少有人去优化(当然也没必要优化)但是很快就会发现 ETL 时间过长,T+1 都可能不够了,此时发现很多很难改动了。目前很多企业通过数据湖来增加数据实时性,同时降低 ETL 压力,这是一个很好的方向。但是需要对于企业数据底座进行改造,算上实施和配套人员,成本不低。
我的想法是,利用大模型通过行业建模数据和企业业务数据进行泛化。通过 AI 得出哪些 ETL 有公共计算,并且将公共计算的结果落表,这个操作是提效的,最终通过空间换时间。
我和几个客户 IT 部门也聊过,他们也觉得如果可落地还是非常解决问题的。可问题是我找了一圈,好像没发现有做相关的(唯一有点关系的是,杭州那有阿里出来的好像在做,方向一致但是解决方案不是完全利用 AI ,是通过改写计算的 AST 树减少 ETL 计算),这就很郁闷了。会不会是现在大模型可商用的不多,应用成本还是太高,还没到 2b 应用大模型的时候。
大家怎么看这个。
1
NXzCH8fP20468ML5 2023-09-23 12:02:14 +08:00
通过 AI 得出哪些 ETL 有公共计算
没必要,写一个 parser 解析一下字段/表血缘不就知道了。 |
2
min 2023-09-23 14:04:52 +08:00
你是做产品吗?
有客户愿意买单吗? |
3
liprais 2023-09-23 14:06:38 +08:00 via iPhone
梦里啥都有
你以为数仓做成这样是因为啥 |
4
raycool 2023-09-24 11:01:19 +08:00
目前的大模型真的能解决这些问题吗?
|