JuiceFS 在中国电信日均PB级数据场景的实践
已结束

JuiceFS 在中国电信日均PB级数据场景的实践

活动时间
2023-02-25 14:00 - 2023-02-25 15:00
活动地点
线上直播

中国电信大数据团队目前需要处理数据形式多,包括有通话数据、位置数据、用户属性数据、终端数据等;数据类型涵盖结构化的用户基本信息数据、半结构化的用户访问日志数据、非结构化的流媒体数据等。除了数据多样外,数据流转过程复杂,涉及 31 省位置,DPI 等数据,全部汇聚到数据中心,大数据平台加工聚合后再供各业务方使用。因此,中国电信大数据团队面临重重挑战:

  • 存在多个 Hadoop 2(CDH 5.12、Apache Hadoop 2.7)集群(几千节点规模,数据量百 PB 级别),版本无法升级、漏洞无法修复,无法使用新版本特性;
  • 跨域跨集群数据无法共享,如需共享需使用 DistCp 拷贝,造成数据冗余存储;
  • NameNode 使用联邦扩展,存储不均衡、元数据压力过大,经常出现 RPC 超时,不支持无限扩展;
  • 计算、存储绑定,无法按需独立扩容(存算分离),造成服务器资源浪费。

面对上述痛点,中国电信大数据团队选择了基于 Hadoop 3+JuiceFS+TiKV+Ceph 的方案打通 Hadoop 生态与 Ceph 对象存储,实现多集群数据共享和存算分离架构。同时 JuiceFS 与开源大数据组件完全兼容,传统大数据组件接入对于业务使用方几乎透明,提升了业务的使用体验,保障了业务的平滑迁移。使用 TiKV 作为元数据引擎也能在单个 namespace 中存储百亿级文件,不再需要像 NameNode 那样通过联邦来进行横向扩展。

会议时间

2023 年2月25日(本周六)下午 14:00-14:45

活动议程

14:00-14:05 社区动态

14:05-14:35 JuiceFS 在中国电信日均PB级数据场景的实践

演讲概要:

  • 中国电信大数据团队业务介绍以及存储挑战
  • 新架构的设计以及建设历程
  • 运维实践分享(主要包括 Redis 、TiKV 、JuiceFS 等组件)
  • 后期计划

14:35-14:45 现场问答 & 抽奖

分享嘉宾

王永志,电信集团大数据架构师,十多年大数据开发运营经验,负责公司大数据平台的架构设计和实施,解决各类技术疑难问题,推动存算分离技术的落地。

对这个活动感兴趣?

立即报名