1. 服务预警
1.1. 功能截图
1.2. 知识点
说明服务预警依托于服务监控报表数据,定时检测报表数据的请求数、异常数、最大并发数、平均耗时和平均cpu耗时是否超过阈值。
使用服务预警应先再右上角预警通知预警规则中开启;
只有错误级别和致命级别的的历史才会在概览进行统计展示。
1.3. 功能详述
1.3.1. 概览
概览是对预警历史的可视化展示,错误和致命级别的预警会纳入概览统计。
统计过去24小时的预计历史以可视化图表方式展示。
1.3.2. 检查历史
查询
可以查看检查历史,查询条件
查询时间- 过滤时间
应用- 过滤应用
规则名称- 过滤规则名称,模糊查询
是否处理- 过滤是否处理
排序- 按时间进行升序或者降序
选择好条件点击查询即可
点击重置进行查询条件重置
批处理
选中要处理的历史,点击要批处理的操作可以完成批量已处理、批量未处理和批量删除等操作。
分析
点击分析进入分析界面:
概览展示服务统计和链路,服务统计展示预警时间段的服务统计信息;
链路展示详细的调用链路,点击链路可以查看全链路调用。
监控图表展示预警时刻前后应用的堆内存、cpu占用率、线程,
服务器cpu使用率、内存使用率、swap使用率。
1.3.3. 检查规则
在检查规则界面可以进行规则的新增和管理。
新增
点击新增进入新增界面:
字段说明:
名称:用于识别规则,不可重复
级别:通知级别\<警告级别\<错误级别\<致命级别
应用:过滤应用
窗口:服务汇总统计的时间窗口
预警项:
请求数- 时间窗口内总请求数
异常数-时间窗口内交易失败次数
最大并发数- 时间窗口内最大并发数
平均耗时-统计时间窗口内交易平均耗时
平均cpu耗时-统计时间窗口内平均cpu耗时。
交易限制:
不限制-任何交易都可能触发
黑名单-黑名单交易列表里的才会触发,多个用逗号分隔
白名单-白名单交易列表的不会触发,多个用逗号分隔。
详情
点击详情进入详情界面:
修改
点击修改进入修改界面:
查询
可以根据名称和状态进行查询:
批量删除
选择要删除的规则点击批量删除,可以删除规则:
注意:开启中的规则不能删除,规则删除对应的检查历史也将清除。
1.3.4. 服务检查与预警通知关系
服务检查一次检查可能触发多条检查历史,这些预检查历史经过分析汇总只会产生一条预警历史:
点击详情:
要使用服务预警需要开启预警规则中的开关: