项目经历
实时用户行为分析平台
2023.03 - 2024.06项目背景:构建支撑千万级日活用户的实时行为数据分析平台,提供秒级延迟的实时数据指标计算与多维分析能力。
技术栈:
Flink
Kafka
StarRocks
Paimon
Java
主要职责:
- 负责实时数据流处理架构设计,基于 Flink 构建低延迟实时计算链路
- 设计并实现多维度实时指标聚合逻辑,包括 PV、UV、留存率等核心指标
- 优化 Flink 任务性能,通过窗口优化、状态管理优化等手段,将 P99 延迟从 5s 降至 1.5s
- 基于 Paimon 构建实时数仓存储层,解决数据一致性与更新性能问题
- 设计并实现数据质量监控体系,保障任务稳定运行,可用性达 99.9%
项目成果:
- 平台日处理数据量超 10 亿条,支持实时指标查询响应时间 < 500ms
- 通过 Flink 任务优化,节省计算资源约 30%,显著降低集群成本
- 支撑业务方实时数据需求,助力业务决策效率提升
企业级数据仓库建设(ODS → DWD → DWS)
2022.06 - 2023.12项目背景:从零构建企业级离线数据仓库,打通多业务线数据源,建立标准化的数据分层模型,支撑业务分析与数据应用。
技术栈:
Hive
Hadoop
DolphinScheduler
MySQL
Shell
主要职责:
- 设计数据仓库分层架构(ODS、DWD、DWS、ADS),建立数据标准化规范
- 负责核心 DWD 层表结构设计与开发,完成 50+ 核心业务表的清洗与建模
- 基于 Hive SQL 进行复杂业务逻辑实现,编写高质量 UDF 函数提升开发效率
- 通过 SQL 调优、分区策略优化等手段,将大表查询性能提升 5-10 倍
- 使用 DolphinScheduler 构建任务调度体系,保障每日 T+1 数据准时产出
- 建立数据质量监控与告警机制,保障数据准确性与任务稳定性
项目成果:
- 完成 200+ 离线任务开发,数据仓库日处理数据量达 TB 级别
- 数据产出准时率提升至 99.5%,数据质量准确率 > 99.9%
- 支撑 10+ 业务线的数据分析需求,显著提升数据使用效率
实时日志处理与监控系统
2023.01 - 2023.08项目背景:构建统一的实时日志采集、处理与监控系统,实现多业务线日志的统一管理与实时分析。
技术栈:
Kafka
Flink
Doris
Java
Python
主要职责:
- 设计并实现基于 Kafka 的日志采集架构,支持多数据源日志统一接入
- 使用 Flink 实现日志实时清洗、解析与异常检测,处理延迟 < 2s
- 基于 Doris 构建实时 OLAP 存储层,支持快速多维度查询分析
- 开发日志异常告警模块,实现关键错误的实时监控与通知
- 优化 Kafka Consumer 性能,提升吞吐量至 50w+ 条/秒
项目成果:
- 系统日处理日志量超 50 亿条,支撑 20+ 业务线的日志处理需求
- 异常告警响应时间 < 30s,显著提升问题定位效率
- 通过架构优化,系统资源利用率提升 40%,降低运维成本