JuiceFS 在大搜车数据平台的实践

2020-06-22

张健大搜车数据专家

JuiceFS 是云原生共享文件，完全兼容 HDFS 与 POSIX API，适用于大数据平台、容器平台，支持数据共享、数据分析、机器学习训练等场景。

本文是 JuiceFS 在大搜车数据平台的实践分享，作者张健，南昌大学毕业，目前任职于杭州大搜车软件技术有限公司数据专家，负责大数据架构设计及维护。

大搜车已经搭建起比较完整的汽车产业互联网协同生态。在这一生态中，不仅涵盖了大搜车已经数字化的全国 90% 中大型二手车商、9000+ 家 4S 店和 70000+ 家新车二网，还包括大搜车旗下车易拍、车行168、运车管家、布雷克索等具备较强产业链服务能力的公司，与大搜车在新零售解决方案上达成深度战略合作的长城汽车、长安汽车、英菲尼迪等主机厂商，以及与中石油昆仑好客等产业链上下游的合作伙伴。基于这样的生态布局，大搜车数字化了汽车流通链条上的每个环节，进而为整个行业赋能。

说到大数据，对于每个公司都不陌生。存储组件 HDFS，计算资源管理 YARN，离线计算 Hive、Spark、Spark SQL，列存储数据库 HBase，实时计算Spark Streaming、Flink等。这些组件在集群稳定情况下维护还算比较轻松，但是在公司快速发展过程中，集群容量的高速增长是不可避免的，作为大数据的设计者不得不从集群的成本和效益上思考两者的权衡。

大数据集群现状

大搜车目前大数据集群分为离线计算集群和实时计算集群，离线计算基于 Hive 和 Spark，实时计算基于 Flink，这两类集群分别基于 HDP 和 CDH 两套管理方式。早期离线计算选用了 HDP，实时计算后来选用 CDH 的初衷是多集群管理比较方便。由于离线计算引擎两者是有区别的，迁移会有兼容性问题，两套集群一直并存，集群间资源完全隔离。

集群维护痛点

数据量持续增长，成本一定的情况下做集群扩容耗时耗力

从 18 年初到 19 年 6 月份，离线集群从最初的数十个节点持续增长到上百个节点，数据量也从数十 TiB 增长了 10 多倍，并且保持每天数 TiB 的速度增加。在节省开支的情况下，每月做一次集群扩容，形成了与数据增长速度赛跑的情况。每月固定工作差不多变成了接受磁盘告警狂炸、扩容、均衡数据、再均衡数据的情况。遇到一些极端情况，比如阿里云在某个可用区没有数据类型设备资源而要新在另一个可用区创建，还会涉及到数据网段变更，就更复杂了。

存储所需资源跟计算资源不同步

在对离线集群数据做分析过程中发现，热点数据仅占大约 20%。在集群不断扩容的情况下，计算资源会有较大冗余，产生了不必要的成本，另外每次均衡会占用节点网络带宽，影响任务读写数据的速度。

跨集群数据同步

为了减少了实时任务和离线任务的相互影响，方便资源控制和云资源选型价值最大化，实时计算和离线计算集群在物理上做了资源隔离，难点也随之出现，实时和离线集群的数据无法实时同步，造成一些需求无法实现

NameNode内存持续增长，重启时间过久

在文件存储中，文件数量过多导致 NameNode 管理内存持续增加，重启一次时间过长，势必影响数据同步；并且在数仓层面不严加控制数据生命周期，资源占用也会越来越大，在对集群中整个资源做分析时也会受到影响。

选择 JuiceFS

针对以上这些问题，选取一款产品做底层存储势在必行。存储选择上作为大数据的基石，需要遵从如下特点：