1. 健康检查
1.1. 功能截图
1.2. 知识点
说明健康检查可以从监控项、交易探测、关键组件、心跳检查四种维度来判断应用、服务器、第三方软件实例是否处于健康的状态,一般用于用户比较关心的服务器、软件、第三方软件的健康监控,可以做到快速预警和通知。
健康检查会在指定分钟内(默认为1分钟)自动检查所有健康检查规则(也可以手动执行触发检查),在满足触发健康规则的时候给与预警通知。
1.3. 功能详述
1.3.1. 立即检查
点击立即触发健康规则检查,默认情况下系统会每间隔一分钟自动触发健康规则检查
1.3.2. 预警通知
预警通知分为预警历史和预警规则,预警历史展示健康检查产生的预警历史;预警规则可以修改健康检查检查时间间隔,触发次数以及通知配置。
预警历史
所有健康检查产生的预警历史都会在该列表展示,默认查询时间为最近24小时,提供不同的检查条件
特殊列说明:
是否发送:表示该规则是否已经通知出去(短信、邮件等),点击“是否发送”列可以查看具体发送日志
是否处理:用户是否主动处理该预警历史,一种标记用户是否已经知情该报警手段
通知信息:表示该预警历史通知相关信息,点击查看展示具体的通知方式、通知类型、通知组、通知内容(不同通知方式的通知内容)
操作:展示该预警历史其他重要信息,可以点击详情进行查看
预警规则
规则设置
开关:控制健康检查总开口,关了表示不进行健康巡检
检查轮询时间间隔:
表示健康检查每次间隔多久进行健康规则的检查
默认时间为1分钟,可以修改为3分钟或者5分钟。
(注:每次检查时会根据最新的时间间隔更新下一次检查时刻)
连续触发次数
表示要触发预警通知的健康检查连续异常次数
默认为1次,可以修改为3次或者5次。比如修改为3次则表示健康检查要连续3次检查都存在异常情况才会进行预警通知。
如:上图截图中就表示,连续1次1分钟巡检内发现异常就进行报警
通知设置页面
通知类型
默认发送:通知中心会根据用户选择的间隔时间,检查所有预警信息并进行统计,然后进行统一发送通知。默认发送间隔、通知组等配置信息可以至通知中心->通知配置->通知设置,如下图:
实时发送:通知中心会立即发送健康预警信息
通知方式:默认有邮箱、短信,也可以自定义新增其他方式
通知方式设置可以至通知中心->通知配置->设置,如下图:
邮箱服务器配置也在通知中心->通知配置->设置中设置,如下图:
邮件配置:
实时发送配置:分为只发送一次、发送一次再间隔发送、每次都发送
只发送一次:第一次预警的时候发送,之后再次预警也不做发送,一般用于不是很重要的预警消息
发送一次再间隔发送:第一次预警的时候发送,之后再次预警在会在用户选择的时间发送,一般用于中等重要的预警消息
每次都发送:每次预警都发送,一般比较重要的预警消息,要注意预警消息发送会导致邮箱接收过多预警消息情况
通知组:选择要通知预警通知组,可以至通知中心->报警通知人、报警通知组设置
通知备注内容:该内容通知的时候会附带通知
1.3.3. 概括
显示当前服务器、应用、软件(其他)在不同状态的数量,可以见提示
1.3.4. 服务器
该tab针对服务器做健康预警,列表展示了各个服务器健康情况。
检查开关:关闭的情况下规则服务器不会被纳入健康检查,打开则反之
规则列表说明:类型(规则类型,服务器类型支持监控项、心跳检查)、监控项(具体的监控项目)、检查规则、状态(分为警告、致命、健康)、处理结果(对检查结果的描述)、其他详情(描述检查失败等其他信息)
批量操作
批量操作只针对服务器进行批量新增检查规则、删除规则
批量新增
生效服务器:表示新增的规则应用于哪些批量服务器上
批量删除
勾选相应要删除的检查规则,之后点击批量删除进行批量操作
操作
- 修改
新增,分为监控项、心跳检查两种
监控项:NTC提供上百个监控项,可以从CPU、内存、磁盘空间、网卡等等多种维度监控服务器。可以选择不同健康级别、时间范围(统计时间段)、表达式等等。
选择完相应的监控项,点击监控项预览可以查看监控图表
心跳检查:服务器的端口探测判断服务器健康状态
修改:对健康规则修改
删除:对健康规则删除
- 进入监控视图
- 同步
当实例检查规则和群组的检查规则不一致的时候,可以通过该按钮进行同步操作
1.3.5. 应用
该tab展示针对服务器做健康预警,列表展示了各个服务器健康情况。
列表展示基本同服务器检查一致,可以参照参看。不同的是应用分为多个不同应用实例,目前检查规则不能针对不同实例指定,一个群组检查规则对所有应用实例生效。
操作
- 修改
新增,分为监控项、交易探测、关键组件、心跳检查两种
监控项:NTC提供上百个监控项,可以从CPU、内存、磁盘空间、网卡等等多种维度监控应用。可以选择不同健康级别、时间范围(统计时间段)、表达式等等。
交易探测:支持tcp、http、dubbo多种协议探测应用交易,可以根据实际应用情况开发相应协议的交易供NTC探测,NTC根据返回的结果是否一致来判断交易是否正常。
关键组件:关键组件展示不同群组下的应用ntc探针关键组件、spring boot actuator healthindicators、基于ntc注解(@NextCmptCheck)自定义的关键组件列表,以及提供参数修改组件健康状态检查等功能。关于如何对接自定义关键组件和actuator healthIndicators,可以参考NTC在线对接文档。
- 添加关键组件
NTC会自动扫描应用端定义的关键组件,用户可以在页面选择相应的关键组件来添加到检查规则中,点击新增即可。
- 修改关键组件
见应用中心-关键组件中修改
- 进入监控视图
1.3.6. 软件(其他)
该tab展示针对软件(其他)做健康预警,列表展示了各个软件(其他)健康情况。
列表展示基本同服务器检查一致,可以参照参看。不同的是应用分为多个不同软件(其他)节点,目前检查规则不能针对不同节点指定,一个群组检查规则对所有节点生效。
操作
- 修改
新增监控项类型
针对不用软件NTC提供了不同软件监控,具体见页面。
1.3.7. 检查预警
健康检查默认会每间隔1分组自动巡检所有检查规则,当出现异常情况会触发预警通知。同时点击健康检查页面右上角“立即检查”当出现异常时也可以触发预警通知。
默认健康检查巡检开关为关闭状态,可至【通知中心-预警规则-健康检查预警】中开启
预警通知
点击预警通知配置可以指定通知组,通知方式等
预警历史
在通知中心-预警历史中查询健康检查触发的预警历史。如图中所示“规则描述”中会展示触发预警时候服务器、应用、软件异常情况,同时点击历史的详情按钮可以展示具体预警信息