1. 健康检查

1.1. 功能截图

1.2. 知识点

说明健康检查可以从监控项、交易探测、关键组件、心跳检查四种维度来判断应用、服务器、第三方软件实例是否处于健康的状态,一般用于用户比较关心的服务器、软件、第三方软件的健康监控,可以做到快速预警和通知。

健康检查会在指定分钟内(默认为1分钟)自动检查所有健康检查规则(也可以手动执行触发检查),在满足触发健康规则的时候给与预警通知。

1.3. 功能详述

1.3.1. 立即检查

点击立即触发健康规则检查,默认情况下系统会每间隔一分钟自动触发健康规则检查

1.3.2. 预警通知

预警通知分为预警历史和预警规则,预警历史展示健康检查产生的预警历史;预警规则可以修改健康检查检查时间间隔,触发次数以及通知配置。

预警历史

所有健康检查产生的预警历史都会在该列表展示,默认查询时间为最近24小时,提供不同的检查条件

特殊列说明:

是否发送:表示该规则是否已经通知出去(短信、邮件等),点击“是否发送”列可以查看具体发送日志

是否处理:用户是否主动处理该预警历史,一种标记用户是否已经知情该报警手段

通知信息:表示该预警历史通知相关信息,点击查看展示具体的通知方式、通知类型、通知组、通知内容(不同通知方式的通知内容)

操作:展示该预警历史其他重要信息,可以点击详情进行查看

预警规则

规则设置

开关:控制健康检查总开口,关了表示不进行健康巡检

检查轮询时间间隔:

表示健康检查每次间隔多久进行健康规则的检查

默认时间为1分钟,可以修改为3分钟或者5分钟。

(注:每次检查时会根据最新的时间间隔更新下一次检查时刻)

连续触发次数

表示要触发预警通知的健康检查连续异常次数

默认为1次,可以修改为3次或者5次。比如修改为3次则表示健康检查要连续3次检查都存在异常情况才会进行预警通知。

如:上图截图中就表示,连续1次1分钟巡检内发现异常就进行报警

通知设置页面

通知类型

默认发送:通知中心会根据用户选择的间隔时间,检查所有预警信息并进行统计,然后进行统一发送通知。默认发送间隔、通知组等配置信息可以至通知中心->通知配置->通知设置,如下图:

实时发送:通知中心会立即发送健康预警信息

通知方式:默认有邮箱、短信,也可以自定义新增其他方式

通知方式设置可以至通知中心->通知配置->设置,如下图:

邮箱服务器配置也在通知中心->通知配置->设置中设置,如下图:

邮件配置:

实时发送配置:分为只发送一次、发送一次再间隔发送、每次都发送

只发送一次:第一次预警的时候发送,之后再次预警也不做发送,一般用于不是很重要的预警消息

发送一次再间隔发送:第一次预警的时候发送,之后再次预警在会在用户选择的时间发送,一般用于中等重要的预警消息

每次都发送:每次预警都发送,一般比较重要的预警消息,要注意预警消息发送会导致邮箱接收过多预警消息情况

通知组:选择要通知预警通知组,可以至通知中心->报警通知人、报警通知组设置

通知备注内容:该内容通知的时候会附带通知

1.3.3. 概括

显示当前服务器、应用、软件(其他)在不同状态的数量,可以见提示

1.3.4. 服务器

该tab针对服务器做健康预警,列表展示了各个服务器健康情况。

检查开关:关闭的情况下规则服务器不会被纳入健康检查,打开则反之

规则列表说明:类型(规则类型,服务器类型支持监控项、心跳检查)、监控项(具体的监控项目)、检查规则、状态(分为警告、致命、健康)、处理结果(对检查结果的描述)、其他详情(描述检查失败等其他信息)

批量操作

批量操作只针对服务器进行批量新增检查规则、删除规则

批量新增

生效服务器:表示新增的规则应用于哪些批量服务器上

批量删除

勾选相应要删除的检查规则,之后点击批量删除进行批量操作

操作

  • 修改

新增,分为监控项、心跳检查两种

监控项:NTC提供上百个监控项,可以从CPU、内存、磁盘空间、网卡等等多种维度监控服务器。可以选择不同健康级别、时间范围(统计时间段)、表达式等等。

选择完相应的监控项,点击监控项预览可以查看监控图表

心跳检查:服务器的端口探测判断服务器健康状态

修改:对健康规则修改

删除:对健康规则删除

  • 进入监控视图

  • 同步

当实例检查规则和群组的检查规则不一致的时候,可以通过该按钮进行同步操作

1.3.5. 应用

该tab展示针对服务器做健康预警,列表展示了各个服务器健康情况。

列表展示基本同服务器检查一致,可以参照参看。不同的是应用分为多个不同应用实例,目前检查规则不能针对不同实例指定,一个群组检查规则对所有应用实例生效。

操作

  • 修改

新增,分为监控项、交易探测、关键组件、心跳检查两种

监控项:NTC提供上百个监控项,可以从CPU、内存、磁盘空间、网卡等等多种维度监控应用。可以选择不同健康级别、时间范围(统计时间段)、表达式等等。

交易探测:支持tcp、http、dubbo多种协议探测应用交易,可以根据实际应用情况开发相应协议的交易供NTC探测,NTC根据返回的结果是否一致来判断交易是否正常。

关键组件:关键组件展示不同群组下的应用ntc探针关键组件、spring boot actuator healthindicators、基于ntc注解(@NextCmptCheck)自定义的关键组件列表,以及提供参数修改组件健康状态检查等功能。关于如何对接自定义关键组件和actuator healthIndicators,可以参考NTC在线对接文档。

  • 添加关键组件

NTC会自动扫描应用端定义的关键组件,用户可以在页面选择相应的关键组件来添加到检查规则中,点击新增即可。

-   修改关键组件

    见应用中心-关键组件中修改
  • 进入监控视图

1.3.6. 软件(其他)

该tab展示针对软件(其他)做健康预警,列表展示了各个软件(其他)健康情况。

列表展示基本同服务器检查一致,可以参照参看。不同的是应用分为多个不同软件(其他)节点,目前检查规则不能针对不同节点指定,一个群组检查规则对所有节点生效。

操作

  • 修改

新增监控项类型

针对不用软件NTC提供了不同软件监控,具体见页面。

1.3.7. 检查预警

健康检查默认会每间隔1分组自动巡检所有检查规则,当出现异常情况会触发预警通知。同时点击健康检查页面右上角“立即检查”当出现异常时也可以触发预警通知。

默认健康检查巡检开关为关闭状态,可至【通知中心-预警规则-健康检查预警】中开启

预警通知

点击预警通知配置可以指定通知组,通知方式等

预警历史

在通知中心-预警历史中查询健康检查触发的预警历史。如图中所示“规则描述”中会展示触发预警时候服务器、应用、软件异常情况,同时点击历史的详情按钮可以展示具体预警信息

results matching ""

    No results matching ""