当前位置:网站首页>proxmox集群节点崩溃处理
proxmox集群节点崩溃处理
2022-06-29 19:57:00 【全栈程序员站长】
问题描述
在现有集群加入一个物理节点,接着再此节点创建ceph监视器、创建OSD。从宿主机系统执行ceph osd tree查看状态,创建起来的几个OSD状态都正常(up),从proxmox管理界面看也是这样。
突然不知道什么原因,刚加入的节点就突然不能从集群中失效了。
再进宿主机系统查OSD状态,居然自己从up变成down。新增节点没数据,于是就试试重启,看能不能正常。重启以后,网络能通,ssh不能连接,web管理界面也不能访问。接下来,需要先把故障节点从集群中撤离出来,恢复以后,再加入集群。
从集群中删除故障节点
按操作顺序分两个步骤:从集群中删除故障ceph和从集群中删除物理节点。
ü 从集群中删除故障ceph
1. 登录集群任意物理正常节点系统,执行如下命令查看ceph osd状态:
[email protected]:~# ceph osd tree
ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF
-1 18.00357 root default
-3 4.91006 host pve48
0 hdd 1.63669 osd.0 up 1.00000 1.00000
1 hdd 1.63669 osd.1 up 1.00000 1.00000
2 hdd 1.63669 osd.2 up 1.00000 1.00000
-5 4.91006 host pve49
3 hdd 1.63669 osd.3 up 1.00000 1.00000
4 hdd 1.63669 osd.4 up 1.00000 1.00000
5 hdd 1.63669 osd.5 up 1.00000 1.00000
-7 4.91006 host pve50
6 hdd 1.63669 osd.6 up 1.00000 1.00000
7 hdd 1.63669 osd.7 up 1.00000 1.00000
8 hdd 1.63669 osd.8 up 1.00000 1.00000
-9 3.27338 host pve51
9 hdd 1.63669 osd.9 down 0 1.00000
10 hdd 1.63669 osd.10 down 0 1.00000从输出可知物理节点pve51的两个OSD有问题,需要删除。
2. 离线有问题的ceph osd,执行的操作如下:
[email protected]:~# ceph osd out osd.9
osd.9 is already out.
[email protected]:~# ceph osd out osd.10
osd.10 is already out.操作时要仔细,别把正常的osd离线了。
3. 删除已经离线osd认证信息,执行的操作如下:
[email protected]:~# ceph auth del osd.9
updated
[email protected]:~# ceph auth del osd.10
updated4. 彻底删除故障osd,操作如下:
[email protected]:~# ceph osd rm 9
removed osd.9
[email protected]:~# ceph osd rm 10
removed osd.10注意:此操作ceph最后一列参数与前边的不同,是纯数字格式!!!
5. 查看集群osd状态,操作如下:
[email protected]:~# ceph osd tree
ID CLASS WEIGHT TYPE NAME STATUS REWEIGHT PRI-AFF
-1 18.00357 root default
-3 4.91006 host pve48
0 hdd 1.63669 osd.0 up 1.00000 1.00000
1 hdd 1.63669 osd.1 up 1.00000 1.00000
2 hdd 1.63669 osd.2 up 1.00000 1.00000
-5 4.91006 host pve49
3 hdd 1.63669 osd.3 up 1.00000 1.00000
4 hdd 1.63669 osd.4 up 1.00000 1.00000
5 hdd 1.63669 osd.5 up 1.00000 1.00000
-7 4.91006 host pve50
6 hdd 1.63669 osd.6 up 1.00000 1.00000
7 hdd 1.63669 osd.7 up 1.00000 1.00000
8 hdd 1.63669 osd.8 up 1.00000 1.00000
-9 3.27338 host pve51
9 hdd 1.63669 osd.9 DNE 0
10 hdd 1.63669 osd.10 DNE 0 操作完成后,故障节点的osd状态从down变成了DNE
6. 删除故障节点的ceph磁盘,操作如下:
[email protected]:~# ceph osd crush rm osd.9
removed item id 9 name ‘osd.9’ from crush map
[email protected]:~# ceph osd crush rm osd.10
removed item id 10 name ‘osd.10’ from crush map7. 从ceph集群中删除物理节点,操作如下:
[email protected]:~# ceph osd crush rm pve51
removed item id -9 name ‘pve51’ from crush map8. 执行指令 ceph osd tree 查看状态,看是否把故障节点[email protected]:~# ceph osd crush rm pve51 removed item id -9 name ‘pve51’ from crush map从ceph集群清理出去。
ü 从集群中删除故障节点
Ø 集群上的操作
登录集群中任意正常节点,执行如下指令进行驱逐操作:
[email protected]:~# pvecm delnode pve51
Killing node 4Ø 故障机恢复操作
最好全部干掉,重新安装系统,并用新的ip地址,加入集群。
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/101292.html原文链接:https://javaforall.cn
边栏推荐
- Sword finger offer 41 Median in data stream
- 【U盘检测】为了转移压箱底的资料,买了个2T U盘检测仅仅只有47G~
- JVM (3) class loading
- Flume配置1——基础案例
- 【Try to Hack】vulnhub narak
- freemarker模板框架生成图片
- Measures to support the development of advanced manufacturing industry in Futian District of Shenzhen in 2022
- Common knowledge of ECS security settings
- [boutique] detailed explanation of Pinia
- @Sneakythlows annotation
猜你喜欢

Connaissance générale des paramètres de sécurité du serveur Cloud

The list of winners in the classic Smurfs of childhood: bluedad's digital collection was announced

npm ERR! fatal: early EOF npm ERR! fatal: index-pack failed

Exploration and practice of NLP problem modeling scheme

As the "only" privacy computing provider, insight technology is the "first" to settle in the Yangtze River Delta data element circulation service platform

idea中方法上没有小绿色三角

Flume configuration 4 - Custom source+sink

Win11 system component cannot be opened? Win11 system widget cannot be opened solution

Introduction to the latest version 24.1.0.360 update of CorelDRAW

Regular expression series of mobile phone numbers
随机推荐
JVM(4) 字節碼技術+運行期優化
shell bash脚本注意:单行末尾转义符 \ 后千万不能有其他无关字符(多行命令)
Flume配置2——监控之Ganglia
MySQL remote connection
Freemaker template framework generates images
La collection numérique Meng xiangshun, artiste national du tigre peint, est disponible en quantité limitée et est offerte avec Maotai de l'année du tigre
Flume theory
How is the combination of convolution and transformer optimal?
一次 Keepalived 高可用的事故,让我重学了一遍它!
JVM (2) garbage collection
Sword finger offer 66 Building a product array
Static static member variables use @value injection
Shell bash script note: there must be no other irrelevant characters after the escape character \ at the end of a single line (multi line command)
Linux安装MySQL8
以其他组件为代价的性能提升不是好提升
XSS漏洞
命令执行(RCE)漏洞
Flume配置1——基础案例
Physical verification LVS process and Technology (Part I)
雪花id,分布式唯一id