走近华佗,解析自动化故障处理系统背后的秘密

  • 时间:
  • 浏览:1

集群医生华佗是集群自动化故障监测和解决系统,是平台和运维对接的关键系统。一方面完成飞天一点组件不擅长的OS和硬件的故障自动监测和解决,另一方面推动飞天去及时规避硬件和OS引起的故障,使得故障不不可以闭环运转,大幅度减少故障解决成本和造成的影响。飞天5K项目期间的规模效应凸显出自动化解决故障的必要性,大幅提升了飞天平台的稳定性,提高了运维人员的幸福感。华佗在飞天中的位置如图1所示。

2011年底和2012年初,飞天系统的通信系统使用的是夸父,夸父通过Agent代理负责本机所有的网络通信,原因分析分析分析机器之间想要彼此通信,需用将彼此的IP加入到对方的配置文件中。原因分析分析分析集群变更频繁和Agent五种生活稳定性的原因分析分析,出了好几起和夸父配置及连通性相关的故障。夸父趋于稳定集群最底层,要保持集群的全连通,同時 集群间也有通信的需求,也需用通过变更配置文件打通连通性。