Skip to content

Commit

Permalink
commit fs&bs at sheet
Browse files Browse the repository at this point in the history
Signed-off-by: caoxianfei <[email protected]>
  • Loading branch information
caoxianfei committed Nov 20, 2023
1 parent ad7c78b commit f942eed
Show file tree
Hide file tree
Showing 44 changed files with 4,302 additions and 52 deletions.
26 changes: 0 additions & 26 deletions docs/02-CurveBS/07-maintenance/02-administrator-guide.md

This file was deleted.

Original file line number Diff line number Diff line change
@@ -0,0 +1,71 @@
# Curve 启动mds

1. 适用环境:
2. 版本号: v1.2.6+
3. CurveAdm版本:v0.2.0+
4. 最后更新日期: 2023/09/30
5. 层面: 管控面
6. 运维级别: P1
7. 所属产品: 存储
8. 需求明细: 节点名称,具体的mds服务
9. 验收标准: 该指定的mds服务启动成功,集群健康
10. 参考步骤:

```plaintext
1. 查看集群服务状态和指定节点的mds状态:
$ curveadm status
注:如果指定的mds已经处于运行状态(Status为Up状态),则不用再次启动。
2. 如果处于Exit状态的话,则使用下述命令启动服务:
如果是启动某一个指定的mds,使用--id选项:
$ curveadm start --id <Id>
如果要启动某一个节点上所有mds服务,使用如下命令:
$ curveadm start --host <host> --role mds
如果要启动所有的mds,使用如下命令:
$ curveadm start --role mds
3. 再次查看集群服务状态,查看指定mds服务是否启动成功(Status为Up状态):
$ curveadm status
4. 使用工具查看集群状态是否健康:
$ curve bs status cluster
结果输出有下面字样则集群健康:Cluster health is: ok
```

11. 参考影响:

* 时间: 无

* 业务方: 无

* 影响主题: 无

* 用户:无

12. 参考风险:

* 数据面: 无

* 管控面: 无

* 恢复能力: 无需恢复

13. 参考回滚策略: 停止mds

14. 需求发起方: CURVE

15. 接收方:

16. 评审责任人: SRE负责人,SA负责人,CURVE负责人

17. 用户通知责任人: 技术支持

18. 执行责任人: CURVE/SA

19. 测试回归责任人: CURVE

20. 执行审核责任人: SA/CURVE/SRE
Original file line number Diff line number Diff line change
@@ -0,0 +1,97 @@
# Curve 停止mds

1. 适用环境:
2. 版本号: v1.2.6+
3. CurveAdm版本:v0.2.0+
4. 最后更新日期: 2023/09/30
5. 层面: 管控面
6. 运维级别: P1
7. 所属产品: 存储
8. 需求明细: 具体节点,具体的mds服务
9. 验收标准: 该节点的mds服务停止成功,并且集群健康
10. 参考步骤:

```plaintext
1. 查看集群服务状态和指定节点的mds状态:
$ curveadm status
注:如果指定的mds已经处于退出状态(Status为Exited状态),则不用重复操作。
2. 如果处于Up状态,则使用下述命令停止服务,
如果是停止某个指定的mds,使用--id选项:
$ curveadm stop --id <Id>
如果要停止某个节点上的所有的mds服务,使用如下命令:
$ curveadm stop --host <host> --role mds
如果要停止集群中所有的mds服务,使用如下命令:(一般不会进行操作)
注意:如果停止所有的mds,则导致集群不可用,请在进行下列操作前仔细确认是否要停掉所有的mds服务
$ curveadm stop --role mds
3. 再次查看集群服务状态,查看指定mds服务是否已经退出(Status为Exited状态):
$ curveadm status
4. 使用工具使用查看当前集群状态:
$ curve bs status cluster
当停止部分mds服务后,上述命令输出提示集群处于warn状态 Cluster health is: warn,符合预期。
如果停止部分mds服务后,上述命令输出提示集群处于error状态 Cluster health is: error,则表示集群出错,需要重新拉起刚才停掉的mds。
(一般不会做此操作)停掉所有的mds服务,集群应该处于error状态 Cluster health is: error。
```

11. 参考影响:

* 情况1:停止部分mds

* 时间: 无

* 业务方: 无

* 影响主题: 无

* 用户:无

* 情况2:停掉所有的mds服务

* 时间:直至有mds服务启动之前,集群不可用

* 业务方:所有使用当前集群的业务方

* 影响主题:mds挂掉

* 用户:所有使用当前集群的用户

12. 参考风险:

* 情况1:停止部分mds服务

* 数据面: 无

* 管控面: 无

* 恢复能力: 无需恢复

* 情况2:停掉所有mds服务

* 数据面: IO暂停

* 管控面: 管控面服务不可用

* 恢复能力: 无需恢复

13. 参考回滚策略: 重新拉起mds

14. 需求发起方: CURVE

15. 接收方:

16. 评审责任人: SRE负责人,SA负责人,CURVE负责人

17. 用户通知责任人: 技术支持

18. 执行责任人: CURVE/SA

19. 测试回归责任人: CURVE

20. 执行审核责任人: SA/CURVE/SRE
Original file line number Diff line number Diff line change
@@ -0,0 +1,105 @@
# Curve 重启mds

1. 适用环境:
2. 版本号: v1.2.6+
3. CurveAdm版本:v0.2.0+
4. 最后更新日期: 2023/09/30
5. 层面: 管控面
6. 运维级别: P1
7. 所属产品: 存储
8. 需求明细: 节点名称,具体的mds服务
9. 验收标准: 指定的mds服重启成功,集群健康,并且可以正常对外提供服务
10. 参考步骤:

```plaintext
1. 使用工具查看集群是否健康,当前mds是否异常:
$ curve bs status cluster
结果输出有下面字样则集群健康:Cluster health is: ok
注:1. 集群健康(ok):如果集群健康,继续执行后续步骤。重启当前服务后需确保集群仍是健康状态。
2. 集群异常(warn/error):
使用工具查看是否是mds异常:
$ curve bs status mds
2.1 如果是当前要重启的服务导致的异常(warn/error)并希望重启恢复,则继续执行后续步骤。但重启之后不能保证集群是健康状态。
2.2 如果当前要重启的服务正常,其他的服务异常导致的集群不健康,则继续执行后续步骤。但是重启当前服务后集群仍然处于不健康状态。
2. 使用如下命令重启mds服务:
如果是重启某个指定的mds服务,使用--id选项:
$ curveadm restart --id <Id>
如果要重启某个节点下的所有的mds服务,使用如下命令:
$ curveadm restart --host <host> --role mds
(一般不会做此操作)如果要重启集群中所有的mds服务,使用如下命令:
注意:如果重启所有的mds,则导致集群短暂不可用,在重启期间所有IO出错,请谨慎进行下列操作。
$ curveadm restart --role mds
3. 再次查看集群服务状态,查看指定mds服务是否重启成功:
$ curveadm status
4. 查看集群是否健康:
$ curve bs status cluster
结果输出有下面字样则集群健康:Cluster health is: ok
注:如果集群在重启之前健康,则需要保证重启服务后集群仍是健康状态;
如果集群在重启之前异常,则有以下两种情况:
1. 重启之前,是由当前服务导致的集群异常,重启当前服务后不能保证集群仍然是健康的,是符合预期的。
2. 重启之前,不是当前服务导致的集群异常,则重启后集群仍然是不健康的状态,是符合预期的。
```

11. 参考影响:

* 情况1:重启部分mds服务

* 时间: 无

* 业务方: 无

* 影响主题: 无

* 用户:无

* 情况2:同时重启所有的mds服务

* 时间: 在所有的mds重启过程中,集群不可用

* 业务方: 所有使用当前集群的业务方

* 影响主题: mds正在重启

* 用户:所有使用当前集群的用户

12. 参考风险:

* 情况1:重启部分mds服务

* 数据面:无

* 管控面:无

* 恢复能力:无需恢复

* 情况2:同时重启所有的mds服务

* 数据面:可能有短暂的IO抖动。如果客户端缓存没有过期,则IO无影响。

* 管控面:管理服务暂不可用

* 恢复能力:无需恢复

13. 参考回滚策略: 无

14. 需求发起方: CURVE

15. 接收方:

16. 评审责任人: SRE负责人,SA负责人,CURVE负责人

17. 用户通知责任人: 技术支持

18. 执行责任人: CURVE/SA

19. 测试回归责任人: CURVE

20. 执行审核责任人: SA/CURVE/SRE
Loading

0 comments on commit f942eed

Please sign in to comment.