JuiceFS 在中国电信日均PB级数据场景的实践

2023-02-25 14:00 - 2023-02-25 15:00
线上直播

中国电信大数据团队目前需要处理数据形式多,包括有通话数据、位置数据、用户属性数据、终端数据等;数据类型涵盖结构化的用户基本信息数据、半结构化的用户访问日志数据、非结构化的流媒体数据等。除了数据多样外,数据流转过程复杂,涉及 31 省位置,DPI 等数据,全部汇聚到数据中心,大数据平台加工聚合后再供各业务方使用。因此,中国电信大数据团队面临重重挑战:

面对上述痛点,中国电信大数据团队选择了基于 Hadoop 3+JuiceFS+TiKV+Ceph 的方案打通 Hadoop 生态与 Ceph 对象存储,实现多集群数据共享和存算分离架构。同时 JuiceFS 与开源大数据组件完全兼容,传统大数据组件接入对于业务使用方几乎透明,提升了业务的使用体验,保障了业务的平滑迁移。使用 TiKV 作为元数据引擎也能在单个 namespace 中存储百亿级文件,不再需要像 NameNode 那样通过联邦来进行横向扩展。

会议时间

2023 年2月25日(本周六)下午 14:00-14:45

活动议程

14:00-14:05 社区动态

14:05-14:35 JuiceFS 在中国电信日均PB级数据场景的实践

演讲概要:

14:35-14:45 现场问答 & 抽奖

分享嘉宾

王永志,电信集团大数据架构师,十多年大数据开发运营经验,负责公司大数据平台的架构设计和实施,解决各类技术疑难问题,推动存算分离技术的落地。

立即报名