【 Github地址:https://github.com/Mrkuhuo/data-warehouse-learning 】
【 Gitee 地址:https://gitee.com/wzylzjtn/data-warehouse-learning 】
【 推荐开发平台:https://github.com/642933588/jiron-cloud 】
"《实时/离线数仓实战》是一个以电商系统为基础,围绕电商业务指标统计需求而构建的数仓项目。该项目涵盖了基于Doris、Piamon、Hudi和Iceberg的离线数仓和实时数仓(数据湖)的构建。两种场景在数据处理逻辑上保持一致,但采用了不同的技术实现,为数仓建设提供了多样化的思路。
电商数仓项目(实时/离线)的技术架构由四个关键部分组成:
-
数据源模块:本模块通过 JAVA 编写的代码来生成电商业务数据,并将这些数据写入 MySQL 数据库。同时,生成的用户日志数据被写入 Kafka 消息队列。模块支持在配置文件中设定数据生成的日期,以满足不同时间点的数据需求。
-
数据采集模块:利用 Dinky 开发的 FlinkSQL 代码,消费 Kafka 中的用户日志数据,并将其写入 Doris 、Paimon 、 Hudi 和 Iceberg 的在线数据存储(ODS)层。此外,使用 DolphinScheduler 配置 SeaTunnel 任务,以同步 MySQL 中的业务数据到 Doris 的ODS层。FlinkSQL/CDC 技术则用于从 Kafka 和 MySQL 采集数据,并将它们分别写入 Paimon 、Hudi 和 Iceberg 的ODS层。
-
数仓模块:遵循行业标准的ODS(操作数据存储)-> DWD(数据仓库明细层)/ DIM(维度数据层)-> DWS(数据服务层)-> ADS(应用数据存储)的四级数据分层架构。数据在Doris 、Paimon、Hudi 和 Iceberg 中通过批量和实时两种调度方式进行有效流转。
-
数据可视化:ADS层和DWS层的数据可以利用 SuperSet 和 DataRT 工具进行报表和数据大屏的制作与展示,以直观地呈现数据洞察。
软件 | 版本 | 安装包 | 对应依赖包 |
---|---|---|---|
Zookeeper | 3.9.1 | apache-zookeeper-3.9.1-bin.tar.gz | |
Kafka | 3.6.1 | kafka_2.12-3.6.1.tgz | |
Seatunnel | 2.3.3 | apache-seatunnel-2.3.3-bin.tar.gz | seatunnel-hadoop3-3.1.4-uber-2.3.3-optional.jar |
Dolphinscheduler | 3.2.0 | apache-dolphinscheduler-3.2.0-bin.tar.gz | mysql-connector-java-8.0.16.jar |
Doris | 2.0.4 | apache-doris-2.0.4-bin-x64.tar.gz | |
Flink | 1.18.1 | flink-1.18.1-bin-scala_2.12.tgz | flink-sql-connector-mysql-cdc-2.4.2.jar flink-sql-connector-kafka-3.1.0-1.18.jar flink-sql-connector-hive-3.1.3_2.12-1.19.0.jar flink-connector-jdbc-3.2.0-1.19.jar |
Iceberg | 1.5.2 | iceberg-flink-runtime-1.18-1.5.2.jar | |
Hudi | 0.15.0 | hudi-flink1.18-bundle-0.15.0.jar | |
Paimon | 0.8 | paimon-flink-1.18-0.8-20240301.002155-30.jar | flink-shaded-hadoop-2-uber-2.7.5-9.0.jar |
Dinky | 1.0.0 | dinky-release-1.18-1.0.0-rc4.tar.gz | |
Hadoop | 3.1.3 | hadoop-3.1.3.tar.gz | |
Hive | 3.1.3 | apache-hive-3.1.3-bin.tar.gz | paimon-hive-connector-3.1-0.7.0-incubating.jar iceberg-hive-runtime-1.5.2.jar hudi-hadoop-mr-bundle-0.15.0.jar |
Maven | 3.9.6 | apache-maven-3.9.6-bin.tar.gz | |
Centos | 8 | CentOS-8.5.2111-x86_64-dvd1.iso | |
OpenJDK | 8 | openlogic-openjdk-8u402-b06-linux-x64.tar.gz |
生成业务库数据如下图所示:
生成用户日志数据如下图所示:
涉及组件:Kafka + Flink + Doris + Seatunnel + Dolphinscheduler
Kafka 数据通过 Flink 接入 Doris
MySQL 数据通过 SeaTunnel 接入 Doris
数据采集进 Doris ODS 层,实现效果如下图所示:
开发 DorisSQL 进行 DIM 层数据处理
DIM 层数据实现效果如下图:
开发 DorisSQL 进行 DWD 层数据处理
DWD 层数据实现效果如下图:
开发 DorisSQL 进行 DWS 层数据处理
DWS 层数据实现效果如下图:
开发 DorisSQL 进行 ADS 层数据处理
ADS 层数据实现效果如下图:
最终的任务概览如下图所示
任务编排效果如下图所示
涉及组件:Kafka + Flink(CDC/SQL/UDF) + Paimon/Hudi/Iceberg + Hive + Dinky
Kafka 数据通过 FlinkSQL 接入 Paimon/Hudi/Iceberg ,实际数据落到 Hive
MySQL 数据通过 FlinkCDC 接入 Paimon/Hudi/Iceberg ,实际数据落到 Hive
数据采集进 Paimon ODS 层,实现效果如下图所示:
开发 FlinkSQL 进行 DWD 层数据处理
DWD 层数据实现效果如下图:
开发 FlinkSQL 进行 DIM 层数据处理
DIM 层数据实现效果如下图:
开发 FlinkSQL 进行 DWS 层数据处理
DWS 层数据实现效果如下图:
开发 FlinkSQL 进行 ADS 层数据处理
ADS 层数据实现效果如下图:
【 Flink2.0 ForSt状态后端 学习文档V1.0 】
【 Spark Checkpoint 和 Flink Checkpoint有什么区别 V1.0 】
【 基于Flink + Paimon的全流程数仓建设实践指南 V1.0 】
【 Flink1.19 + Paimon1.2构建实时数仓教程文档 V1.0 】
【 Flink SQL 四种 Join 方式详解:原理、场景与实战 】
【 Flink SQL + Paimon 数据湖建设全流程详解 】
【 结合Flink + GitLab + K8s实现代码变更追踪与自动化部署 】
【 基于Kubernetes的湖仓一体高可用架构部署指南 】
【 Flink精确一次提交原理深度解析:从机制到源码实现 】
【 Flink 逐条处理模式详解:毫秒级延迟的实现原理与源码剖析 】
【 Flink 流水线执行(Pipelined Execution)原理详解 】
【 Flink异步Checkpoint机制详解:原理、流程与源码剖析 】
【 Flink三种状态后端(State Backend)实现原理详解 】
【 Flink 三种时间语义(Time Semantics)详解:原理、源码与实践 】
【 Flink Watermark 机制深度解析:原理、源码与实践 】
【 Flink窗口机制(Windowing)详解:从原理到源码深度解析 】
【 Flink分布式快照(Checkpoint)机制深度解析 】
【 Spark RDD (Resilient Distributed Dataset) 机制详解 】
【 Spark 调度模型深度解析:Stage 划分、任务调度与本地性优化 】
【 Spark Tungsten执行引擎深度解析:突破JVM性能瓶颈的内存与计算优化 】
【 Spark内存管理模型详解:统一内存管理与堆外内存机制 】
【 Spark 缓存机制详解:Storage Level 与序列化存储原理及源码分析 】
【 Spark Shuffle 核心技术深度解析:从原理到源码 】
【 Spark Catalyst 优化器详解:从逻辑计划到物理执行的深度优化 】
【 Spark DataFrame/Dataset API详解:从RDD到向量化查询执行 】
【 Spark数据源API (DataSource V2)详解:统一读写接口与优化技术 】
【 Spark微批处理模型(Micro-Batch)深度解析:原理、容错与源码实现 】
【 Spark状态管理详解:State Store与Watermark机制 】
【 Spark Pipeline API:基于Transformer和Estimator构建机器学习流水线 】
【 Spark Pregel模型详解:基于BSP的迭代图计算框架 】
【 Spark图分区策略详解:Edge Partition与Vertex Partition优化及源码剖析 】
【 Spark数据倾斜优化详解:Salting技术与自定义分区器 】
【 Spark Join 优化策略深度解析:Broadcast Join 与 Bucket Pruning 】
【 Spark AQE (Adaptive Query Execution) 深度解析:动态优化查询执行 】
【 Iceberg 基于文件的元数据管理:三层架构与源码深度解析 】
【 Iceberg 时间旅行(Time Travel)深度解析:原理、实现与应用 】
【 Iceberg统计信息驱动优化:从列级统计到文件级过滤的深度解析 】
【 Iceberg数据布局优化深度解析:排序与Z-Order的多维性能提升 】
【 Iceberg 分区演进(Partition Evolution)详解:无需重写数据的动态分区策略调整 】
【 Iceberg 孤儿文件清理(Orphan File Cleanup)深度解析 】
【 Iceberg数据校验与修复:深度解析rewrite_data_files与rewrite_manifests 】
【 Iceberg 存储无关性深度解析:架构、实现与跨存储系统适配 】
【 Iceberg多引擎兼容性详解:统一数据访问的新范式 】
【 Iceberg 流批一体支持详解:流式写入与增量读取的原理与实践 】
【 Iceberg 分支与标签详解:实现数据版本管理的强大功能 】
【 Iceberg行级删除与更新(Row-Level Deletes & Updates)深度解析 】
【 Paimon LSM-Tree存储结构详解:高效写入与更新的核心引擎 】
【 Paimon列式存储格式深度解析:基于Parquet/ORC的优化、压缩与谓词下推 】
【 Spark 缓存机制详解:Storage Level 与序列化存储原理及源码分析 】
【 Paimon流批一体架构深度解析:统一实时与批处理的数据湖技术 】
【 Paimon实时数据更新技术深度解析:从主键行级更新到CDC场景实践 】
【 Paimon 轻量级元数据(Lightweight Metadata)详解 】
【 Paimon 分区与桶(Partitioning & Bucketing)详解:原理、源码与实践 】
【 Paimon 小文件自动合并(Auto Compaction)技术详解 】
【 Paimon事务支持详解:基于快照隔离的读写事务与数据一致性 】
【 Doris 前缀索引(Prefix Index)深度解析:原理、实现与性能优化 】
【 Doris 数据分桶与分片 (Bucketing & Sharding) 深度解析 】
【 Doris 冷热数据分层(Tiered Storage)技术详解 】
【 Doris MPP架构详解:从查询拆分到分布式执行与线性扩展 】
【 Doris向量化执行引擎(Vectorized Execution)深度解析 】
【 Doris 物化视图 (Materialized View) 技术详解 】
【 Doris 元数据管理深度解析:基于 BDBJE 的强一致存储与高可用实现 】
【 Doris 自动负载均衡机制深度解析:原理、实践与源码剖析 】
【 Doris高并发查询支持:MPP架构、内存计算与队列管理的深度解析 】
【 Doris延迟物化(Late Materialization)技术详解:原理、实现与源码分析 】
【 Doris 智能缓存深度解析:BE节点Block Cache的设计与实现 】
【 Kafka分布式集群架构详解:从Broker到KRaft的演进 】
【 Kafka主题(Topic)与分区(Partition)深度解析:架构、原理与源码实现 】
【 Kafka索引设计详解:稀疏索引与时间索引的深度剖析 】
【 Kafka零拷贝(Zero-Copy)详解:原理、实现与源码分析 】
【 Kafka Leader 选举机制深度解析:从原理到源码剖析 】
【 Kafka生产者深度解析:分区策略、幂等性与事务支持 】
【 Kafka二进制协议深度解析:高效紧凑的TCP通信基石 】
【 Kafka批处理(Batching)详解:从原理到源码分析 】
【 Kafka线程模型深度解析:从Broker到客户端的全链路并发机制 】
【 Kafka Exactly-Once 语义详解:从原理到源码实现 】
【 Elasticsearch底层存储与索引引擎详解(基于Apache Lucene) 】
【 Elasticsearch集群与节点深度解析:架构、角色与源码实现 】
【 Elasticsearch分片(Shard)深度解析:架构、原理与源码实现 】
【 Elasticsearch集群发现(Discovery)机制深度解析:从Zen Discovery到现代实现 】
【 Elasticsearch相关性评分 (Relevance Scoring) 详解:基于TF-IDF与BM25算法 】
【 Elasticsearch搜索上下文(Search Context)深度解析:Query与Filter的原理、源码与实践 】
【 Elasticsearch跨索引搜索(Cross-Index Search)详解:原理、实践与优化 】
【 Elasticsearch副本机制(Replication)深度解析:从原理到源码 】
【 Elasticsearch 快照与恢复 (Snapshot & Restore) 详解:原理、配置与源码分析 】
【 Elasticsearch跨集群复制(CCR)深度解析:异步复制与灾备实践 】
【 Elasticsearch索引生命周期管理(ILM)详解:从原理到实践 】
【 Elasticsearch缓存机制深度解析:从原理到源码 】
【 Elasticsearch索引优化深度解析:索引模板、动态映射与索引压缩 】
【 Elasticsearch查询优化深度解析:查询重写与提前终止机制 】
【 Hive Metastore详解:元数据存储的核心组件 】
【 Hive执行引擎详解:从MapReduce到Tez再到Spark 】
【 Hive SerDe详解:数据序列化与反序列化的核心组件 】
【 Hive事务支持详解:ACID、Delta文件与源码分析 】
【 HBase存储引擎详解:基于LSM-Tree的高性能写入架构 】
【 HBase Region管理机制深度解析:从核心概念到源码实现 】
【 HBase Compaction(合并)机制深度解析:从原理到源码 】
【 HBase缓存机制深度解析:BlockCache、MemStore与BucketCache的协同艺术 】