项目经历 - Evan Sun

项目经历

实时用户行为分析平台

2023.03 - 2024.06

项目背景：构建支撑千万级日活用户的实时行为数据分析平台，提供秒级延迟的实时数据指标计算与多维分析能力。

技术栈： Flink Kafka StarRocks Paimon Java

主要职责：

负责实时数据流处理架构设计，基于 Flink 构建低延迟实时计算链路
设计并实现多维度实时指标聚合逻辑，包括 PV、UV、留存率等核心指标
优化 Flink 任务性能，通过窗口优化、状态管理优化等手段，将 P99 延迟从 5s 降至 1.5s
基于 Paimon 构建实时数仓存储层，解决数据一致性与更新性能问题
设计并实现数据质量监控体系，保障任务稳定运行，可用性达 99.9%

项目成果：

平台日处理数据量超 10 亿条，支持实时指标查询响应时间 < 500ms
通过 Flink 任务优化，节省计算资源约 30%，显著降低集群成本
支撑业务方实时数据需求，助力业务决策效率提升

企业级数据仓库建设（ODS → DWD → DWS）

2022.06 - 2023.12

项目背景：从零构建企业级离线数据仓库，打通多业务线数据源，建立标准化的数据分层模型，支撑业务分析与数据应用。

技术栈： Hive Hadoop DolphinScheduler MySQL Shell

主要职责：

设计数据仓库分层架构（ODS、DWD、DWS、ADS），建立数据标准化规范
负责核心 DWD 层表结构设计与开发，完成 50+ 核心业务表的清洗与建模
基于 Hive SQL 进行复杂业务逻辑实现，编写高质量 UDF 函数提升开发效率
通过 SQL 调优、分区策略优化等手段，将大表查询性能提升 5-10 倍
使用 DolphinScheduler 构建任务调度体系，保障每日 T+1 数据准时产出
建立数据质量监控与告警机制，保障数据准确性与任务稳定性

项目成果：

完成 200+ 离线任务开发，数据仓库日处理数据量达 TB 级别
数据产出准时率提升至 99.5%，数据质量准确率 > 99.9%
支撑 10+ 业务线的数据分析需求，显著提升数据使用效率

实时日志处理与监控系统

2023.01 - 2023.08

项目背景：构建统一的实时日志采集、处理与监控系统，实现多业务线日志的统一管理与实时分析。

技术栈： Kafka Flink Doris Java Python

主要职责：

设计并实现基于 Kafka 的日志采集架构，支持多数据源日志统一接入
使用 Flink 实现日志实时清洗、解析与异常检测，处理延迟 < 2s
基于 Doris 构建实时 OLAP 存储层，支持快速多维度查询分析
开发日志异常告警模块，实现关键错误的实时监控与通知
优化 Kafka Consumer 性能，提升吞吐量至 50w+ 条/秒

项目成果：

系统日处理日志量超 50 亿条，支撑 20+ 业务线的日志处理需求
异常告警响应时间 < 30s，显著提升问题定位效率
通过架构优化，系统资源利用率提升 40%，降低运维成本