又到了给大家汇报全年社区工作的时候。2025 年, JuiceFS 企业版发布的第九年,社区版的第五年。这一年,我们专注一如既往,打造一款高效易用的文件系统。
各项使用指标延续了上一年的增长势头,社区版数据量增长 89%,超 1.3 EB;营收连续第三年 100% 增长,是我们持续投入社区的坚实保障。
2025 年,JuiceFS 社区版继续聚焦通用性,尤其在支持各类 AI 场景的需求。发布了 Python SDK、增强 Windows 客户端可用性,并加强了对云原生生态的支持;此外,元数据引擎 SQL 和 TiKV 也进行了针对性优化。今年,团队与社区成员一道推动了 JuiceFS 的持续迭代,共有 60 位贡献者参与,新增了 305 个 Issue,合并了 601 个 PR。
在企业版的开发过程中,团队今年面临的最大挑战来自于超大规模数据的管理。随着自动驾驶等 AI 技术逐渐融入日常生活,数据规模的增长是空前的,在千亿文件级别下,元数据管理、数据一致性等方面的管理复杂度指数级增加。为应对这些难题,企业版在元数据分区、网络性能等核心特性上进行了全面升级。上半年发布的企业版 5.2 已支持单卷千亿规模,即将发布的 5.3 版本更将支持 5,000 亿规模,让用户不必再为数据规模发愁,JuiceFS 的性能和稳定性也都能够稳妥保障。
01 社区版:支持 Python SDK、 Windows 客户端可用性大幅提升
JuiceFS 自开源以来已在企业生产环境中得到了长时间的验证,核心功能逐步趋于稳定。全年发布了 9 个版本,其中 1.3 版本是继 2021 年开源以来的第四个重要版本,并作为长期支持版本(LTS)。该版本的主要优化包括:
- 支持 Python SDK ,提升了 AI 和数据科学场景下的灵活性和性能;
- Windows 客户端的优化,增强了工具支持和系统服务挂载能力;
- 备份机制优化,1 亿文件备份分钟级完成;
- 集成 Apache Ranger,JuiceFS 支持大数据场景中的细粒度的权限管理;
- 元数据引擎方面,SQL 和 TiKV 的性能提升,在超大规模场景下表现更加高效。
下半年,团队开始积极筹备 1.4 ,计划新增多个特性,包括用户和用户组 Quota 支持、Redis 客户端缓存支持、LRU 缓存支持、SMB/CIFS 支持、Hadoop Kerberos 支持、S3 Gateway 优化、Sync 工具断点续传,数据商业算法加密支持,预读策略优化、批量删除优化和周边工具优化等 ,以进一步提升系统的性能和稳定性。
JuiceFS CSI Driver 在过去一年发布了 18 个版本,持续优化 JuiceFS 在 Kubernetes 等环境中的存储效率和稳定性。新增功能包括卷路径健康状态检测、同一文件系统共享 Mount Pod 功能、支持 Kubernetes 原生 Sidecar,以及 Dashboard 的 CacheGroup 管理。此外,还进行了性能和可靠性优化,不仅提升了稳定性,同时改进了多 Pod 配置和容器化应用的兼容性。
JuiceFS Operator,新增了定时缓存预热 功能,提升业务访问数据的性能;支持按副本部署的 CacheGroup,实现了缓存高可用性;并引入 Sync 功能,在 Kubernetes 环境中高效同步数据,确保一致性。
02 企业版:单卷千亿规模文件,强劲性能与稳定性保障
2025 年上半年,JuiceFS 企业版 5.2 版本发布,单个文件系统突破千亿文件的规模,并显著提升了超大规模集群的稳定性和分布式缓存的网络性能。为了实现这一目标,团队投入了大量时间和精力进行优化,特别是在处理超大数据集和高并发访问时的性能提升。该版本已在多个企业的生产环境中得到验证,单卷千亿文件规模下保持 1 毫秒元数据时延水平。同时,分布式缓存网络性能优化,TCP 网络下大幅减少 CPU 开销,同时提升网络带宽利用率。在 100 台 GCP 100Gbps 节点的环境下,聚合读带宽达到 1.2 TB/s,接近满负荷利用 TCP/IP 网络带宽。
此外, Python SDK 实现了 fsspec 兼容、按需导入对象存储文件,可以更方便的访问对象存储存量数据、解决特殊场景中的读放大问题以及提升全局 QoS 能力,进一步增强了系统的灵活性和性能。
多分区架构是 JuiceFS 应对千亿文件规模的关键技术之一,保证了系统的高扩展性和高并发处理能力。下半年我们的核心工作集中在 5.3 版本,对多分区架构进行了全面优化,分区限制从 256 个提升至 1,024 个,可实现单卷超过 5,000 亿文件的存储和访问需求。
这背后是一系列复杂的工作,包括系统化整理跨分区链接实现,并实现后台自检机制,提升集群的可靠性与稳定性;开发热点监测与自动迁移工具,高效处理热点问题;优化分布式缓存管理,减少缓存冲突并提高并发性能;此外,为了进一步优化分布式网络的性能,在这个版本中首次引入了 RDMA 技术,目前处于实验阶段,测试结果显示其在稳定性和 CPU 使用率方面优于 TCP 协议。5.3 版本将于 1 月发布,更多细节,欢迎关注。
03 社区发展,第 5 年高速成长,数据总量超 1.3EB
目前,JuiceFS GitHub star 超 12.6K;JuiceFS 下载量突破了 5 万次,CSI Driver 的下载量超过了 500 万次;中文社区已经有 10 个微信群组,Slack 英文社区也达千人。
社区版开源的第 5 年,也是快速增长的第 5 个年头。用户上报数据显示,JuiceFS 的各项关键数据延续了增长趋势:
- 文件系统 590K+,增长 82%
- 活跃客户端 150K+,增长 46%
- 文件数量 4000 亿+,增长 43%
- 数据总量 1.3EiB+,增长 89%
今年,我们在多个行业大会分享实践,KCD 、开源年会、CommunityOverCode Asia 等,感谢这些大会主办方对 JuiceFS 的认可;在海外行业会议也展露头脚,参与了 KubeCon+CloudNative Con North America、Opensource Summit Japan、SNIA Developer Conference 等。
为了更好地为用户提供支持,我们定期举办 Office Hours,介绍新功能、解答疑问;同时,举办了 11 场 Meetup,帮助不同行业的用户更有信心地将 JuiceFS 应用于生产环境。案例涵盖自动驾驶、生成式 AI、AI 基础平台、量化投资、生命医药等多个领域。(查看所有案例)
特别感谢以下今年参与分享的用户,他们的实践经验为社区提供了宝贵的参考:
- 丁聪,Lepton AI,加速 AI 训推:构建多租户、低延迟云存储平台
- 孙玮,中国科学院计算所,基于 JuiceFS 的大模型训推平台存储演进之路
- 郑泽东,百图生科,基于 JuiceFS 构建生命科学大模型存储平台,成本降 90%
- 吴松林,携程,稳定且高性价比的大模型存储:携程 10PB 级 JuiceFS 工程实践
- 唐义凡,合合信息,基于 JuiceFS 构建统一存储,支撑 PB 级 AI 训练
- 缪昌新,阶跃星辰,如何利用 JuiceFS 打造高效经济的大模型存储平台
- 可加,稿定科技,多云架构下的 AI 存储挑战与 JuiceFS 实践
- 邓君宇,九识智能,基于 JuiceFS 的自动驾驶多云亿级文件存储
- 高玉堂, Ariste AI,JuiceFS + MinIO:量化投资高性能存储实践
- 李威宇,光影焕像,基于 JuiceFS 搭建 3D AIGC 存储平台,数据性能 2 倍提升
- 刘道全,始智 AI,基于 JuiceFS 打造高性能、低成本 AI 模型管理存储平台
- 高杨,酷睿程,自动驾驶百 PB 级云原生存储案例
- 曾奥涵,智谱 AI,大模型训练基础设施落地实践
亲爱的社区伙伴们,我们一起度过了充实的一年。JuiceFS 从一个开源新秀,成长为今天 AI 业务中备受信任的选择,衷心感谢每一位社区成员的参与与支持,感谢你们在群里解答问题、分享实践、贡献代码!
新的一年里,JuiceFS 将继续为你的工作带来更高效、更轻松的体验。