JuiceFS 在中国电信日均PB级数据场景的实践

中国电信大数据团队目前需要处理数据形式多，包括有通话数据、位置数据、用户属性数据、终端数据等；数据类型涵盖结构化的用户基本信息数据、半结构化的用户访问日志数据、非结构化的流媒体数据等。除了数据多样外，数据流转过程复杂，涉及 31 省位置，DPI 等数据，全部汇聚到数据中心，大数据平台加工聚合后再供各业务方使用。因此，中国电信大数据团队面临重重挑战：

存在多个 Hadoop 2（CDH 5.12、Apache Hadoop 2.7）集群（几千节点规模，数据量百 PB 级别），版本无法升级、漏洞无法修复，无法使用新版本特性；
跨域跨集群数据无法共享，如需共享需使用 DistCp 拷贝，造成数据冗余存储；
NameNode 使用联邦扩展，存储不均衡、元数据压力过大，经常出现 RPC 超时，不支持无限扩展；
计算、存储绑定，无法按需独立扩容（存算分离），造成服务器资源浪费。

面对上述痛点，中国电信大数据团队选择了基于 Hadoop 3+JuiceFS+TiKV+Ceph 的方案，打通 Hadoop 生态与 Ceph 对象存储，实现多集群数据共享和存算分离架构。同时 JuiceFS 与开源大数据组件完全兼容，传统大数据组件接入对于业务使用方几乎透明，提升了业务的使用体验，保障了业务的平滑迁移。使用 TiKV 作为元数据引擎也能在单个 namespace 中存储百亿级文件，不再需要像 NameNode 那样通过联邦来进行横向扩展。

会议时间

2023 年2月25日（本周六）下午 14:00-14:45

活动议程

14:00-14:05 社区动态

14:05-14:35 JuiceFS 在中国电信日均PB级数据场景的实践

演讲概要：

中国电信大数据团队业务介绍以及存储挑战
新架构的设计以及建设历程
运维实践分享（主要包括 Redis 、TiKV 、JuiceFS 等组件）
后期计划

14:35-14:45 现场问答 & 抽奖

分享嘉宾

王永志，电信集团大数据架构师，十多年大数据开发运营经验，负责公司大数据平台的架构设计和实施，解决各类技术疑难问题，推动存算分离技术的落地。

JuiceFS 在中国电信日均PB级数据场景的实践

会议时间

活动议程

分享嘉宾

查看更多活动