中国电信大数据团队目前需要处理数据形式多,包括有通话数据、位置数据、用户属性数据、终端数据等;数据类型涵盖结构化的用户基本信息数据、半结构化的用户访问日志数据、非结构化的流媒体数据等。除了数据多样外,数据流转过程复杂,涉及 31 省位置,DPI 等数据,全部汇聚到数据中心,大数据平台加工聚合后再供各业务方使用。因此,中国电信大数据团队面临重重挑战:
- 存在多个 Hadoop 2(CDH 5.12、Apache Hadoop 2.7)集群(几千节点规模,数据量百 PB 级别),版本无法升级、漏洞无法修复,无法使用新版本特性;
- 跨域跨集群数据无法共享,如需共享需使用 DistCp 拷贝,造成数据冗余存储;
- NameNode 使用联邦扩展,存储不均衡、元数据压力过大,经常出现 RPC 超时,不支持无限扩展;
- 计算、存储绑定,无法按需独立扩容(存算分离),造成服务器资源浪费。
面对上述痛点,中国电信大数据团队选择了基于 Hadoop 3+JuiceFS+TiKV+Ceph 的方案,打通 Hadoop 生态与 Ceph 对象存储,实现多集群数据共享和存算分离架构。同时 JuiceFS 与开源大数据组件完全兼容,传统大数据组件接入对于业务使用方几乎透明,提升了业务的使用体验,保障了业务的平滑迁移。使用 TiKV 作为元数据引擎也能在单个 namespace 中存储百亿级文件,不再需要像 NameNode 那样通过联邦来进行横向扩展。
会议时间
2023 年2月25日(本周六)下午 14:00-14:45
活动议程
14:00-14:05 社区动态
14:05-14:35 JuiceFS 在中国电信日均PB级数据场景的实践
演讲概要:
- 中国电信大数据团队业务介绍以及存储挑战
- 新架构的设计以及建设历程
- 运维实践分享(主要包括 Redis 、TiKV 、JuiceFS 等组件)
- 后期计划
14:35-14:45 现场问答 & 抽奖
分享嘉宾
王永志,电信集团大数据架构师,十多年大数据开发运营经验,负责公司大数据平台的架构设计和实施,解决各类技术疑难问题,推动存算分离技术的落地。