挑战与痛点
- 规模效应带来的数据快速增长是互联网业务架构中很大的挑战之一,如何高效低成本的存储是始终要优化的问题。
- 日志应该是增长最快的数据类型,多为半结构化文件,一般需要经过 Kafka、Pulsar、Logstash 等消息组件采集、汇总、归档。服务日志会建立索引存储在 Elasticsearch 等产品中方便搜索,用于问题定位。用户相关的日志会经过 ETL 转为结构化数据存储数据仓库。也有大量日志仅低频使用,归档存储即可。但是,企业为它们建设了不同的存储系统,逐渐形成数据孤岛,跨系统之间难以协同。
- Hadoop 存储计算耦合的结构不适应云环境,也容易造成计算与存储资源利用率不平衡,带来资源浪费。
Why JuiceFS?
- JuiceFS 继承了对象存储的低成本和弹性伸缩的优势,又提供了完整的 POSIX 兼容性,可以与所有日志流中的工具对接,非常适合日志归档存储。
- JuiceFS 同样 100% 兼容 HDFS,可以用于各种 Hadoop 发行版。
- JuiceFS 实现了数据平台的存储计算分离架构。
- JuiceFS 依靠 POSIX 兼容性可以支持 Clickhouse、Elasticsearch、TDengine、MatrixDB 等数据库、数据仓库的数据分层存储,降低温冷数据存储成本。
- JuiceFS 可以通过 CSI Driver 、HostPath 等方式用于 Kubernetes PV,方便有状态应用完成容器化改造。
解决方案
- JuiceFS 适用于 Kubernetes PV,也适用于虚拟机、容器中的 POSIX 共享文件存储;
- 在大数据平台中,JuiceFS 可以与 HDFS 共用,也可以替代 HDFS;
- 机器学习平台中,JuiceFS 可以支持全流程的文件存储需求;
- JuiceFS 可以作为大数据平台、机器学习平台的统一存储。
客户收益
- 平滑升级,无需上层应用改造。
- 实现存储计算分离,提升资源利用率,提升存储与计算资源的管理效率。
- 在云环境中部署、维护皆简单。