发布于2025年12月5日12月5日 # 超级好用的服务器监控报警 ### 新功能 * 内置CPU内存,实时监控报警规则 * 自定义定期执行的脚本来监控和报警 ### 使用场景 * 监控主机CPU和内存使用是否正常(例如均低于80%) * 服务器正在挖矿,CPU占用率过高,导致业务服务不可用,并**保存报警时的进程列表**,方便后续排查。 * 服务器内存使用过高,导致业务服务OOM,保存当时的进程列表 * (Brick) 自定义脚本监控NAS磁盘是否正常 * 自建NASraid磁盘健康检查,如有损坏,及时备份数据,避免更大损失 *(银宇)发挥你的想象力,写出任意的监控脚本 ### 教程 **需求一:监控主机CPU使用率是否异常,异常报警后找出哪个进程占用CPU这么高** 1.点击右上角设置,然后点击监控报警,进入配置页面 2. 单击“添加监控项”,配置CPU或内存监控。 这里配置一条“CPU超过80%持续60秒”的报警规则 选择需要监控的主机(一条监控规则可以批量选择多台主机) 完成! (文末附测试计划和报警截图) 简单验证报警是否正常: * 通过压力测试CPU * 等待60秒(也可以在报警规则中配置更短的持续时间),已在消息列表中找到报警 * 点击详情查看触发警报的“恶意进程”快照 * 如果您配置了微信公众号和钉钉机器人,还可以收到实时提醒 **要求2:监控我的NAS磁盘是否有异常(毕竟有多年的学习资料)** 这是通过配置自定义脚本来实现的。如果脚本执行失败,就会产生警报(如果不包含healthy,则会产生警报)。 PS:这里的报警条件也可以选择“脚本输出包含关键字则报警” 这里就不模拟演示了QAQ ### 总结 易于使用! 【快来试试吧】(https://rivers.chaitin.cn/?share=0a7c0e9b69a211ee9c6e0242c0a81709)
创建帐户或登录后发表意见