手把手教你搭建 Ceph 集群、对接 JuiceFS 文件系统

2023-11-20

Juicedata Team

Ceph 是一款高效的开源对象存储系统。结合 JuiceFS 使用时，Ceph 可作为基础存储平台，确保数据存储的稳定性和效率。这一组合非常适合云计算、大数据分析和机器学习等数据密集型应用场景。

针对在日常在部署 Ceph 对象存储以及运维中的常见问题，基于官方文档整理了这篇博客，旨在帮助那些不太熟悉 Ceph 的工程师顺利部署和运维 Ceph，并与 JuiceFS 进行对接。

阅读之前，简单接下来操作中涉及到的 Ceph 基本概念：

cephadm 是 Ceph 集群专门的运维管理工具，我们会用他初始化 Ceph 集群
OSD（Object Storage Daemon）是 Ceph 集群的存储服务实例，分配给 Ceph 使用的每一块盘，都由一个 OSD 来负责管理
放置组（Placement Group，PG）可以简单想象成是 Ceph 中的「虚拟目录」，为 Ceph 中存储的大量对象进行分组。同一目录下的变更操作会加锁执行，而不同的目录之间可以进行并发操作。因此 PG 的数目如果太小，会由于冲突导致性能不佳，PG 数目过大，消耗的资源也会上升。在下方的教程里会遵循官方推荐的经验值计算方法进行设置

环境准备

文档中以下方环境作为示范：

操作系统：Ubuntu 22.04 LTS
内核版本：5.15.0-72-generic
数据盘：每台节点 8 块本地 NVME SSD
内存：256G
Ceph 版本：quincy v17.2.6

共计 16 节点，每个节点 8 块 SSD 盘（未格式化），在开始操作前，首先在 1 号节点配置好所有节点的免密登录，并且将节点信息记录在 /etc/hosts，类似：

10.38.0.1 ceph-node01
10.38.0.2 ceph-node02
10.32.0.3 ceph-node03
...
10.32.0.16 ceph-node16

准备完毕以后，接下来会把 ceph-node01 做为操作（兼 Ceph 主控）节点，接下来将会在这台机上进行所有 Ceph 相关的安装、运维操作，因此提前安装 pssh，方便后续批量操作：

apt install pssh

pssh 也就是 Parallel SSH，可以方便地并发 SSH 到多个节点、批量执行命令，这个工具需要读取主机列表，因此将所有节点（主控除外）的主机名记录到文本文件里：

ceph-node02
ceph-node03
...

节点基础设施

如果尚未搭建时钟同步，需要手动安装：

apt install chrony

# 查看能连接到的 servers
# 如外网不通则需要改配置连内部服务器，如果不清楚如何配置，联系云服务商技术支持
chronyc sources

# 时钟同步需要在所有节点设置，此处仅示范批量安装 chrony 的命令
# 如果需要更多配置，需要自行操作
parallel-ssh -h hosts.txt -i apt install chrony

如果节点开启了 swap（检查 /etc/fstab 是否存在 swap 字样），那么首先需要对所有节点禁用 swap：

swapoff -a
# 将 fstab 中的项目进行注释禁用
sed -i.bak "s/\/swap.img/# \/swap.img/" /etc/fstab

# 在主控节点上执行上方命令以后，还需要批量在所有其他节点执行
parallel-ssh -h hosts.txt -i swapoff -a
parallel-ssh -h hosts.txt -i 'sed -i.bak "s/\/swap.img/# \/swap.img/" /etc/fstab'

安装 Ceph

Docker 和镜像搬运

在所有节点上安装 Docker：

apt install docker.io
parallel-ssh -h hosts.txt -i apt install docker.io

在后续的安装过程中，ceph 和 node-exporter 这两个镜像是所有节点都需要的，因此推荐提前拉取下来、手动分发到所有节点。如果不做这一步，后续 cephadm 会从官方源拉，取决于当地网络环境，可能会非常慢。

docker image save quay.io/ceph/ceph quay.io/prometheus/node-exporter | gzip > images.tar.gz
parallel-scp -h hosts.txt ./images.tar.gz /tmp/
parallel-ssh -h hosts.txt -i 'docker load -i /tmp/images.tar.gz'

# 确认所有节点都加载成功后，清理镜像
parallel-ssh -h hosts.txt -i rm /tmp/images.tar.gz

部署 Ceph 主控

Ubuntu 22 可以方便地从系统源安装 cephadm，但对于其他 Ubuntu 版本或者其他系统，则可能需要手动安装，详见 https://download.ceph.com/。

# 在主控节点安装部署工具，需确认其版本为 quincy（17.2.6），这在 Ubuntu 22 已经是默认提供的版本
apt install cephadm

# 如果你的系统 apt 源提供的版本不满足要求，则需额外手动从 Ceph 官方网站下载
# 比方说 Ubuntu 20（focal），就需要用下方命令手动安装
# wget https://download.ceph.com/debian-17.2.6/pool/main/c/ceph/cephadm_17.2.6-1focal_amd64.deb
# dpkg -i ./cephadm_17.2.6-1focal_amd64.deb

# 手动安装完 cephadm 后，还需要额外将 Ceph 相关的软件源纳入到包管理器的 repo 列表
# 该命令是为了下一步能够安装版本符合要求的 ceph-common
# cephadm add-repo --release quincy

# 安装 Ceph 相关的各种工具
apt install ceph-common

初始化集群，其中 mon-ip 为主控机的内网地址，多网卡集群可以额外指定内部网络，比如 --cluster-network 10.90.90.0/24。

# 命令运行完毕以后，会打印 Ceph Dashboard 的账号密码，注意保存
cephadm --image quay.io/ceph/ceph:v17.2.6-20230920 bootstrap --mon-ip 10.38.0.1 --log-to-file

Ceph 主控进程上线后，会生成自己的密钥，需要将其安装到所有节点：

# 打印公钥，复制内容
cat /etc/ceph/ceph.pub

# 撰写命令，批量执行
parallel-ssh -h hosts.txt -i 'echo ssh-rsa xxx ceph-xxx >> /root/.ssh/authorized_keys'

公钥安装完毕以后，主控节点就能登入所有 worker 节点进行运维操作了。进入 Ceph 管理容器，后续命令都在这个管理容器内执行。但考虑到主控节点已经在宿主机层面安装了所有需要的工具，事实上不进入 cephadm shell 也是完全可以的。

# 运行该命令以后，会进入容器，但是 prompt 不会有任何变化
cephadm shell

# 可以打印进程，识别当前是在宿主机，还是容器内
ps -ef

确认集群初始状态，并进行一系列预调优：

# 查看集群状态
ceph -s

# 禁用掉无用的 nfs 模块
ceph mgr module disable nfs

# 关闭自动调节
ceph config set global osd_pool_default_pg_autoscale_mode warn
ceph config set osd osd_memory_target_autotune false

# 默认每个 OSD 内存上限 4G
# 在 Ceph 集群中，一块盘（块设备）会部署为一个 OSD
# 每节点 8 块盘，内存 256G，因此给与 16G 更大的内存上限
# 调整过后，OSD 占用的内存总上限为 128G，还有充足冗余
ceph config set osd osd_memory_target 17179869184

组建 Ceph 集群

将所有节点添加进 Ceph 集群，前 5 台节点（含主控）打上 _admin 标签，后续的节点则不需要。考虑到节点众多，将其撰写为脚本执行：

# 主控节点早已是集群成员，不需要 add
# 因此为 ceph-node[02:04] 添加 _admin 标签，其他节点则不需要
ceph orch host add ceph-node02 10.32.0.2 --labels _admin
...
ceph orch host add ceph-node16 10.32.0.16

至此，所有节点都已经加入 Ceph 集群，会自动探测节点下的可用块设备，具体而言，未经格式化、无人使用的盘，均会探测到。不必担心，在运行后续 add osd 前，这个过程不会对盘做任何修改。

# 查看所有节点可用的盘，确认与现场实际情况匹配，也就是所有的空盘都探测到了、没有坏盘
ceph orch device ls

# 非新盘需要先格式化
# ceph orch device zap host0 /dev/nvme0n1 --force

# 把所有节点的所有空闲 SSD 都添加为 Ceph OSD
# 运行完这个命令后，盘就归 Ceph 管理了
# 注意按顺序逐个添加以保证 ID 有序，这个过程耗时很长，建议做成脚本运行
ceph orch daemon add osd ceph-node01:/dev/nvme0n1
ceph orch daemon add osd ceph-node01:/dev/nvme1n1
...
ceph orch daemon add osd ceph-node16:/dev/nvme7n1

# 部署 OSD 过程中，用这个命令查看进度、状态
ceph orch ps --daemon_type osd

创建存储池

所有盘都顺利部署为 OSD 后，就可以创建存储池（pool），然后对接 JuiceFS 文件系统开始使用了。创建存储池之前，务必了解 Ceph 中支持的两种存储模式：

副本模式（replication）：默认每个对象存储 3 份（size=3）。与之伴随的另一个概念叫「最小可用副本数」，默认为 2（min_size=2），意为最少需要 2 个正常运行的副本，才能进行 I/O 操作。

可想而知，在默认的 size=3,min_size=2 的配置下，最多允许 1 个副本损坏，这也是最适宜生产环境的设置。如果改为 size=2,min_size=1，那么所有对象就只有 2 副本，如果任一出现故障，数据将只存一份，丢失的风险增加。

副本模式下的故障域也和集群的配置相关，在节点数 ≧ 3 的情况下，Ceph 会自动将副本分散到不同的节点上，因此对于默认的副本参数，允许任意一台节点异常而不影响服务。

纠删码模式（erasure code, EC）：相比副本模式提供更好的存储效率，但纠删码本身也带来一定的计算资源损耗。如果希望优先节约磁盘空间，可以选取该模式；

# 两个数字是放置组（placement group）个数，需要相同
# 取值公式：num_osd * 100 / 3 并向上取 2 的幂，num_osd 是 128，因此此处取 4096
ceph osd pool create jfsvol 4096 4096 replicated
ceph osd pool application enable jfsvol juicefs

纠删码模式的创建命令示范：

# EC 4+2 池（stripe unit 默认是 4K）
# ceph osd erasure-code-profile set jfs-ec k=4 m=2 stripe_unit=8192
# ceph osd pool create ec-pool 32 32 erasure jfs-ec

至此，Ceph 部署完可以投入使用，推荐先跳过下方的监控告警小节，直接对接 JuiceFS 文件系统。对接完成后，再搭建监控也不迟。

对接 JuiceFS 文件系统

创建 JuiceFS 文件系统，Bucket 名称对齐存储池名称，也就是上方创建好的 jfsvol。

在 CSI 驱动中挂载对接了 Ceph 的 JuiceFS 文件系统，为了让 Ceph 配置文件对 JuiceFS 客户端可见，需要把他们上传到 Kubernetes Secret：

# 上传之前，确保配置文件末尾有换行符，否则后续挂载可能引发异常
echo >> ceph.conf
echo >> ceph.client.admin.keyring

kubectl create secret generic ceph-secret --from-file=ceph.conf=ceph.conf --from-file=ceph.client.admin.keyring=ceph.client.admin.keyring

创建好 Secret 以后，还需要在文件系统认证信息里添加 configs 字段：

apiVersion: v1
kind: Secret
metadata:
  name: jfsvol-secret
type: Opaque
stringData:
  name: jfsvol
  token: xxx
  access-key: ceph
  secret-key: client.admin
  # 将上方创建的 ceph-secret 挂载到 /etc/ceph
  configs: '{"ceph-secret": "/etc/ceph/"}'

运维

Ceph 是很成熟的存储方案，如果规划和运维正确，能够很稳定地运行。阅读下方小节了解常见的运维要点。

部署监控

Cephadm 部署时，会默认安装自己的 Grafana，并且默认与其 Dashboard 进行了集成。你可以直接使用这个 Dashboard 进行监控告警，也可以选择对接已有的外部 Grafana。

如果希望复用环境中已有的外部 Grafana，那么首先浏览器打开这个 Grafana 的地址，点击左侧边栏 Administration，添加数据源，把 Ceph 集群的 Prometheus 地址填进去，默认是 http://<ceph-master-ip>:9095，如果你不确定具体端口号，也可以去主控节点 ss -lntp | grep prometheus 确认现场情况。测试并保存数据源。

Prometheus 添加成功后，导入社区的 Ceph Grafana Dashboard，监控就搭建完毕了，这个 Dashboard 里已经内置了告警规则，后续配置好告警发送通道以后，就能直接开始运行。

容量监控和故障恢复

可以方便地用 ceph -s 查看当前用量，在上一小节中导入的面板里，也已经包含了容量监控规则，对 Ceph 各个层面的容量占用进行监控：

CephNodeRootFilesystemFull：节点根分区用量监控
CephOSDNearFull|CephOSDFull|CephOSDBackfillFull：OSD 相关容量监控
CephPoolNearFull|CephPoolFull|CephPoolBackfillFull：存储池相关容量监控

上方报警项中，如果 Ceph 文件系统写满，那么会触发 CephOSDFull|CephPoolFull，同时 Ceph 不再允许写入——这是很不妙的情况，因为对于 Ceph 而言，「删」事实上也属于写请求，在 CephPoolFull 的情况下，即便是客户端发起删请求，Ceph 也会进行拦截，让请求无法完成、直至超时。出现这种故障时，如果无法立刻加盘扩容，那么处置步骤如下：

1.定位到问题文件系统，接下来将会清理该文件系统、释放容量，因此需要：

提前将回收站设置为 0，否则即便删除了文件，也会移入回收站进行保存，无法释放对象存储容量
推荐在业务侧操作下线停写（考虑到 Ceph 此时已经容量超限，所有的写请求都会卡死），这并不是必要的，只是为了增加后续运维动作的容错率

2.选取该文件系统的一个可用客户端，进入挂载点，清理文件、释放容量。

如果目前该文件系统没有任何可用客户端，那么需要即刻创建一个挂载点。考虑到 Ceph 已经处于异常状态，JuiceFS 客户端的对象存储测试无法通过，正常运行挂载命令会失败，需要使用特殊的环境变量跳过对象存储的检查：

JFS_NO_CHECK_OBJECT_STORAGE=1 juicefs mount <META-URL> /jfs

3.在 JuiceFS 挂载点删除足量的文件，如果 Ceph 一侧没有立即释放容量，则说明遇到了上方提到的「容量超限时，无法执行删除」的死锁问题，这时需要登录 Ceph 主控节点，将阈值临时提高，来允许删除请求。操作前必须确保业务已经停写，否则一旦放开阈值，就会迅速写满，再次引发故障。

# mon_osd_full_ratio 默认为 0.95，临时调高以允许写入
ceph osd set-full-ratio 0.96

# 放开阈值后，紧密观察容量是否释放
ceph -s

4.确认容量释放，准备回滚 full ratio 设置。这一步也需要谨慎操作：将 full ratio 回滚，必须保证操作不会再次让集群处于容量超限的状态、中断业务写入。因此先运行 ceph df 核实已用空间占比（%USED）。

如果 %USED 低于 90%，那么可以运行下方命令回滚配置：

ceph osd set-full-ratio 0.95

为了改善容量超限的处置流程，JuiceFS 客户端支持在 Ceph 集群写满的情况下进行删除操作（详见社区版相关代码变更），因此对于新版客户端，不再需要用 set-full-ratio 进行临调。

扩容

由于是最为常见的扩容方法，本小节只介绍用增添新盘来扩大集群容量的操作。

插盘已经在所有节点完成后，运行命令确认新盘：

# 输出表格里，AVAILABLE=Yes 的即为探测到的新盘
# 确认新盘参数符合预期
ceph orch device ls

在创建新的 OSD 之前，推荐先手动禁用数据均衡。这是由于盘数量可能比较多，OSD 创建需要格式化盘，整个操作耗时会比较长。如果在默认开启数据迁移的状态下加盘，每一个新盘都会伴随着数据迁移。为了避免低效的数据反复迁移，建议在所有新盘纳入 Ceph 后，再统一开启。

# 禁用数据均衡
ceph osd set nobackfill

# 确认生效
ceph -s | grep backfill

接下来运行命令添加新盘，操作和创建 Ceph 集群中的相关步骤是完全一样的，在对应的小节里搜索 ceph orch daemon add osd 命令，将所有新盘按顺序添加，就可以了。如果待添加的盘数量众多，建议提前撰写脚本运行。

所有盘添加完成后，运行下方命令进行收尾：

# 确认所有新盘均已加入集群（AVAILABLE=No）
ceph orch device ls

# 重新开启数据均衡
ceph osd unset nobackfill

支撑亿级文件规模：途虎养车 JuiceFS + Ceph RADOS 存储优化实践

2026-07-15

杨海堂

在统一存储底座的选型过程中，途虎养车参考了盘古在大规模 AI 存储场景中的架构思路，并结合自身私有云环境和已有 Ceph 存储基础，最终选择以 JuiceFS + TiKV + Ceph RADOS 的组合式方案构建统一 AI 存储基座。该系统统一支撑 AI 训练、AI 推理和大数据处理等场景，目…

小米云原生文件存储平台化实践：支撑 AI 训练、大模型、容器平台多项业务

2023-09-22

孙佳朋

小米存储团队自 2021 年开始启动了文件存储项目，基于 JuiceFS 构建了一个文件存储平台化产品，并通过 CSI Driver 组件提供了云原生存储的能力，以满足上述各种业务场景对文件存储的需求。目前，这个平台已经承载了超过 50 亿个文件，总容量 2.5PB 以上，集群吞吐达到每秒…

存算分离实践：JuiceFS 在中国电信日均 PB 级数据场景的应用

2023-03-17

杨磊

中国电信大数据团队需要处理数据形式多，数据流转过程复杂，涉及 31 省位置，DPI 等数据，大数据平台需加工聚合后再供各业务方使用。面对上述痛点，团队最终选择 Hadoop 3+JuiceFS+TiKV+Ceph 方案进行存算分离改造，打通 Hadoop 生态与 Ceph 对象存储，实现多集群数据…

JuiceFS 在火山引擎边缘计算的应用实践

2023-02-17

何兰州

云的能力正在从中心延展到边缘，形成新型边缘云基础设施。在只读场景，结合客户端的多级缓存，以及大文件场景，还有读多写少的场景，JuiceFS 有比较大的优势，非常契合边缘渲染场景的业务需求，本文将分享为大家介绍 JuiceFS 在边缘计算场景中的应用。