1. NTC自检
1.1. 功能截图
1.2. 知识点
说明NTC自检可以定时(每分钟)对NTC相关组件进行检查,发现问题后能及时推送检查结果。
1. NTC自检方式:通过应用探针,代理节点以及NTC自身采集监控数据,对数据进行分析处理,汇总出一份自检报告。
2. NTC自检作用:相比于传统排查应用问题的方式,自检可以通过对应用的实时检查,提早发现应用潜在的问题,防止问题不断恶化导致应用无法提供服务甚至奔溃,NTC自检主要关注的是NTC以及相关组件的健康状态。
3. 目前实现的诊断器
- CPU诊断器
- 内存诊断器
- 资源诊断器
- 存储诊断器
- 日志诊断器
- NTC组件诊断器
- NTC主程序诊断器
- Mongodb集群诊断器
- Mongodb实例诊断器
- ES集群诊断器
- ES实例诊断器
- 应用探针诊断器
1.3. 功能详情
NTC自检在功能上和应用自检一致.
NTC自检的检查对象为NTC、elasticsearch、mongodb、代理节点、探针,通过tab页签来切换。
1.3.1. 诊断配置
NTC、elasticsearch、mongodb、代理节点、探针都有自己独立的配置。
使用NTC自检需要打开右上角NTC自检开关。
配置支持导入与导出,点击左上角的导入导出按钮即可。
和应用自检不同的是,NTC自检只有全局配置。
点击左上角NTC配置,进入自检配置,进行诊断器的开关以及触发阈值,错误级别进行配置。
这里我们可以对每个诊断器以及诊断器下的诊断项进行配置。点击右下角确定按钮保存配置。
点击还原配置可以还原到默认配置。
1.3.2. 应用列表
每个tab页展示对应组件集群的自检状态,是否有实例延迟未推送,是否有警告,是否有错误,超过5分钟未上送数据的应用会从自检列表中移除
左上角可以切换错误项展示
1.3.3. 实例列表
点击应用列表操作列的实例列表按钮进入实例视图,这里展示了开启的所有诊断器。
状态说明
- 页面右上方可以看到状态过滤的复选框,默认情况下,我们不展示检查正常的选项。
- 警告和异常指的是诊断器检查到错误,根据配置的规则会推送警告或者异常的诊断项。
- 失败指的时进行诊断时,产生了不可预知的问题,这时候我们会上送异常栈
- 关闭指的是诊断项开关被关闭,但是24小时内有产生过异常和警告的数据,会显示为关闭,否则该关闭的诊断项不会被展示。
1.3.4. 统计视图
NTC自检包括的项比较多,对所有的诊断项做了一个统计视图。对历史异常和警告的数据做一个统计展示
这个是诊断器维度的统计视图。
这个是应用维度的统计视图。
1.3.5. 自检报告
异常和警告的诊断器会产生自检报告,在所有可以看到自检报告按钮的列表上,点击操作列的自检报告就可以查看当前诊断器的诊断报告。NTC自检中,我们看下资源的诊断报告
报告格式和应用自检一致。
可以看到不同的诊断器针对问题排查采集的数据也不一样,根据检查项的特点来采集相关数据辅助问题排查。