项目经历

实时用户行为分析平台

2023.03 - 2024.06

项目背景:构建支撑千万级日活用户的实时行为数据分析平台,提供秒级延迟的实时数据指标计算与多维分析能力。

技术栈: Flink Kafka StarRocks Paimon Java
主要职责:
  • 负责实时数据流处理架构设计,基于 Flink 构建低延迟实时计算链路
  • 设计并实现多维度实时指标聚合逻辑,包括 PV、UV、留存率等核心指标
  • 优化 Flink 任务性能,通过窗口优化、状态管理优化等手段,将 P99 延迟从 5s 降至 1.5s
  • 基于 Paimon 构建实时数仓存储层,解决数据一致性与更新性能问题
  • 设计并实现数据质量监控体系,保障任务稳定运行,可用性达 99.9%
项目成果:
  • 平台日处理数据量超 10 亿条,支持实时指标查询响应时间 < 500ms
  • 通过 Flink 任务优化,节省计算资源约 30%,显著降低集群成本
  • 支撑业务方实时数据需求,助力业务决策效率提升

企业级数据仓库建设(ODS → DWD → DWS)

2022.06 - 2023.12

项目背景:从零构建企业级离线数据仓库,打通多业务线数据源,建立标准化的数据分层模型,支撑业务分析与数据应用。

技术栈: Hive Hadoop DolphinScheduler MySQL Shell
主要职责:
  • 设计数据仓库分层架构(ODS、DWD、DWS、ADS),建立数据标准化规范
  • 负责核心 DWD 层表结构设计与开发,完成 50+ 核心业务表的清洗与建模
  • 基于 Hive SQL 进行复杂业务逻辑实现,编写高质量 UDF 函数提升开发效率
  • 通过 SQL 调优、分区策略优化等手段,将大表查询性能提升 5-10 倍
  • 使用 DolphinScheduler 构建任务调度体系,保障每日 T+1 数据准时产出
  • 建立数据质量监控与告警机制,保障数据准确性与任务稳定性
项目成果:
  • 完成 200+ 离线任务开发,数据仓库日处理数据量达 TB 级别
  • 数据产出准时率提升至 99.5%,数据质量准确率 > 99.9%
  • 支撑 10+ 业务线的数据分析需求,显著提升数据使用效率

实时日志处理与监控系统

2023.01 - 2023.08

项目背景:构建统一的实时日志采集、处理与监控系统,实现多业务线日志的统一管理与实时分析。

技术栈: Kafka Flink Doris Java Python
主要职责:
  • 设计并实现基于 Kafka 的日志采集架构,支持多数据源日志统一接入
  • 使用 Flink 实现日志实时清洗、解析与异常检测,处理延迟 < 2s
  • 基于 Doris 构建实时 OLAP 存储层,支持快速多维度查询分析
  • 开发日志异常告警模块,实现关键错误的实时监控与通知
  • 优化 Kafka Consumer 性能,提升吞吐量至 50w+ 条/秒
项目成果:
  • 系统日处理日志量超 50 亿条,支撑 20+ 业务线的日志处理需求
  • 异常告警响应时间 < 30s,显著提升问题定位效率
  • 通过架构优化,系统资源利用率提升 40%,降低运维成本