回顾 2018,起航 – 成长 – 信任

苏锐 2019.01.02

大家好,2019 年的第一个工作日,给各位客户和关注我们的朋友汇报下过去的一年。

2018 是 JuiceFS 商用化运行的第一年,管理的数据量增长了 10 倍,产品发布了 10 个版本,支持全球 16 个公有云,100 个区。

这一年里,我们服务了不少优秀的科技公司,帮他们从容应对业务的快速增长。在这期间,有的业务翻倍了,有的拿到了新一轮融资,由衷为他们高兴。

丰富使用场景,做企业的数据湖

数据湖概念的提出是企业希望有一个统一的存储空间,可以保存自己的所有数据,数据的种类是多样的,使用方式也是丰富的,这个希望实现起来挺有难度。

在 JuiceFS 的开发和客户使用的过程中,我们看到企业在存储上共同面对的几个痛点:

  1. 已经有很多开源存储产品,但是用在自己的业务中,难度很大。要专人维护,要自己填坑,甚至要二次开发。
  2. 不同场景使用多套存储产品,不仅维护难,数据格式也不统一,业务上使用需要做很多调度。
  3. 贵,很贵,非常贵。现有存储方案大多还是机房时代留下来的,直接搬到云上,有时 TCO 不降反增,运维上也利用不到云的优势。

JuiceFS 能提供什么呢?

  1. 完全服务化,我们搞定所有的工作,不把任何一个坑留给客户。
  2. 完全兼容 POSIX 接口,这是 Unix/Linux 界最大、最普适的接口标准,没有之一。
  3. 基于公有云的优势,提供完全弹性的容量和账单,TCO 很低,也没有了扩容的烦恼。

JuiceFS 完全兼容 POSIX 接口,所以兼容很多通用的存储场景,这里说几个客户最爱用的:

  1. 多机日志收集、归档,用共享替代调度,无论是在 VM、Docker 还是在 Kubernetes 中都一样的简单配置。JuiceFS 一个文件系统可以同时挂载到上千个节点,每个节点生成的日志只要定时移动或实时复制到 JuiceFS 目录即可。无需再为日志收集、监控再维护和监控任何多余组件。
  2. 应用程序的数据备份,比如 MySQL、MongoDB、以太坊钱包 Parity 等。这些应用程序大多保存着最核心的数据,都需要完善的备份策略,热备、冷备、异地备份,缺一不可,而且大多需要一个很大的存储空间才能应对。JuiceFS 满足以上全部需求,还能自动压缩、自动加密,自动异地备份。
  3. 大数据分析场景中,完全兼容 Hadoop 生态中的各种产品。公有云上使用 HDFS 又贵又复杂,换成对象存储后性能又有很多损失。JuiceFS 兼顾了性能和成本,是公有云上很适合的选择。
  4. 数据共享,比如机器学习中的训练数据与模型在多机、多机群中共享。数据共享在这个业务场景里可以大幅提升工作效率。同时针对海量小文件优化,非常适合图像识别、自动驾驶等领域的计算需求。
  5. 业务部署在机房的客户,使用 JuiceFS 将数据备份上云,实现异地容灾。在云上只需要对象存储,无需其他任何资源,综合 TCO 极低,多一份异地备份、多一份安全保障,而且有全自动的传输和存储加密,进一步加强数据隐私。

缓存加速、数据安全、监控等多方面增强

一年里,JuiceFS 有几十个新功能和改进,下面的几个值得你特别关注:

  • 支持 2-Factor 二步验证,更好的保护你的账号安全。
  • 支持数据存储加密,可以使用自己的 RSA 密钥或由 JuiceFS 托管密钥,可以更安全的保存敏感、隐私数据等。(点击查看设计和使用文档
  • 提供了完整的元数据缓存和数据缓存,同时支持页大小、是否启用压缩等配置项,在一些场景中对小文件读写、随机读写性能可以大幅提升。(点击查看缓存使用文档
  • 客户端不再自动更新,改为手动升级,更容易做版本管理。(点击查看客户端升级方法
  • 更完善的监控 API,提供 Prometheus 和 OpenFalcon 的 API 输出和定制好的 Grafana 视图模板。
  • 几个增强功能,提升效率和用户体验,包括 快速删除 juicefs rmr快速搜索 juicefs grephttp 访问快速空间统计 等。
  • 完善的本地客户端日志,提供可视化性能分析工具。
  • 增加了多家公有云支持,已覆盖中美 16 家不同服务商,100个区。

去年,我们还发布了一个开源工具 JuiceSync,可以在不同服务商,不同服务区,任意两个对象存储中复制数据,方便用户给对象存储搬家、备份。

性能提升,加强小文件和随机读写性能

性能是我们持续投入的重点工作,在 JuiceFS 刚上线时,我们主要针对大文件顺序读写场景做优化。在基于 AWS 的测试中,大文件顺序读 271MB/s,顺序写 612MB/s(跑满了测试环境中的极限带宽)。

客户最先提出来的反馈也是:太快了,能把带宽跑满,我们需要限速功能。然后,就有了限速功能

我们又针对随机读写、小文件做了大量优化。具体性能指标请看我们提供的单机性能测试报告。比较残忍的客户在 JuiceFS 上运行 MySQL 从节点,复制模式追赶主节点无压力。

最近,我们正在针对机器学习场景,投入到新一波的性能优化中,目标是十亿小文件数量级存储,多 GPU 并行训练的业务场景,已经开始和客户做测试,预计在 2019 农历春节后推出。

下调最小计费大小,小文件存储的福音

为了支持服务成本,JuiceFS 参照微软 Azure 数据湖为每个文件设置了最小计费大小 256KB,它使得小文件的使用空间会显著大于实际尺寸,给用户造成了困扰。经过过去一年的实践和观察,以及对成本的优化,为了减少用户的困扰,让用户更方便地在不同场景使用 JuiceFS,决定将文件和目录的最小空间占用降低到 4KB,跟大多数单机文件系统一致。

我们希望无论你要存大文件还是小文件,要顺序访问还是随机访问,要计算还是要备份,JuiceFS 都是合适的选择。

这个调整已经在 2019 年 1 月 1 日生效,你可以观察到 JuiceFS 占用的空间比之前减少了,付费也相应减少,算是给大家的新年礼物。

2019

2018 是认真储备能量的一年,好像春笋在地下的等待。2019,即将破土而出,我们会继续扎根客户需求,支持你们的业务成长、翻倍、翻很多倍。