基于Flink SQL构建流批一体实时数仓

2022-01-26 15:45来源:肉眼品世界

基于Flink构建流批一体的实时数仓是目前数据仓库领域比较火的实践方案。随着Flink的不断迭代,其提供的一系列技术特性使得用户构建流批一体的应用变得越来越方便。本文主要分享基于FinkSQL构建实时数仓的基本架构以及相关的技术点,

希望本文对你有所帮助,以下是全文:

  • 两个前置知识

  • 五个基本概念

  • 两个具体实现

  • 两种架构对比

  • 一个综合实操


流处理VS批处理


图片




图片




五个基本概念


图片




图片




图片




图片


图片




图片




维表JOIN与双流JOIN

图片




图片




图片




图片




两种架构对比

图片




图片




图片


传统数仓

  • 问题

1.两条计算链路、造成重复工作、计算资源浪费
2.两套数据模型,一致性难以保障

图片

实时数仓

  • 统一了基础公共数据

  • 保障了流批结果的一致性

  • 提升了离线数仓的时效性

  • 减少了组件和链路的维护成本


图片




一个综合实操

图片




图片




图片


北京青能科技有限公司

北京市朝阳区安立路78号马哥孛罗大厦6层605室

湖南中青能科技有限公司

湖南省长沙市雨花区新韶东路308号红星国际公寓1931-1932室

山东青能数字科技有限公司

山东省济南市市中区经四路11号万达广场C座2008室

备案号:湘ICP备2021005270号 Copyright© 2019-2021 湖南中青能科技有限公司