如何对系统进行监控？

张

张建站

2026/6/1 7:36:15

10分钟阅读

核心监控指标无论你使用的是什么架构微服务、单体还是云原生这四个指标都必须优先监控延迟服务发出请求到收到响应所需的时间例如API 响应时间注意不要只看平均值必须监控 P95、P99 分位数即 95% 或 99% 的请求都在该时间以内因为平均值会掩盖极端卡顿的问题流量对系统的需求量用以衡量系统的负载示例每秒 HTTP 请求数 (QPS/RPS)、网络吞吐量、并发连接数错误请求失败的比率示例 HTTP 5xx 状态码错误率、代码异常抛出率、超时次数。错误率飙高通常意味着系统已经或即将崩溃饱和度系统资源利用率衡量系统有多“满”示例内存使用率、CPU 使用率、磁盘 I/O 瓶颈。当饱和度达到 80%-90% 时延迟通常会开始剧烈飙升分层监控指标体系基础设施CPU 利用率负载 CPU 是否长期满载内存使用率是否存在内存泄漏Memory Leak关注交换区Swap是否被频繁使用磁盘空间 I/O 磁盘是否写满日志塞满是常见故障原因IOPS 是否达到读写瓶颈网络带宽带宽是否跑满是否存在大量丢包运行环境和中间件JVM GC垃圾回收暂停时间、GC 频率、堆内存分配数据库MySQL/PostgreSQL等慢查询数量、活跃连接数、主从同步延迟Replication Lag、锁等待时间缓存Redis/Memcached等缓存命中率Hit Rate、内存碎片率、连接数消息队列Kafka/RabbitMQ等消息堆积量Lag这是衡量消费能力的关键指标、生产/消费速率业务与用户体验指标用户侧体验前端/客户端首屏加载时间、前端错误率、应用崩溃率业务健康度下单量、支付成功率、登录失败率。如果五分钟内下单量跌零即使 CPU 正常系统也一定出了大问题如何让监控真正发挥作用建立动态告警不要所有的指标都报同一个级别的警。P0灾难核心业务受损如支付失败率 1%需要立即电话通知 oncallP1警告资源即将耗尽如磁盘空间剩余 15%工作时间排查即可可观测性建设指标只能告诉你“系统生病了”你还需要配合日志和链路追踪来精准定位“病因在哪里”。开源工具推荐指标收集与告警 Prometheus GrafanaPrometheus普罗米修斯负责收集数据和触发告警。它像一个定时检查员每隔几秒钟就去各个服务器和应用上抓取数字比如CPU使用率 85%、内存剩余 10%、每秒请求数 500。如果发现数字异常它会发出告警通知Grafana 负责数据可视化。Prometheus 收集到的都是枯燥的数字Grafana 则把这些数字变成炫酷、直观的图表折线图、仪表盘通常大屏幕上放的监控看板就是用它做的日志系统 ELK Stack (Elasticsearch, Logstash, Kibana)ELK Stack 传统且功能强大的老牌组合Elasticsearch 核心搜索引擎负责把海量日志存起来并提供超快的搜索功能Logstash 传送带和加工厂负责收集、清洗和格式化日志Kibana 图形界面让你能在网页上像用百度一样搜索和分析日志应用性能监控 (APM)SkyWalkingSkyWalking 是一款专门为微服务、云原生和基于容器如 Kubernetes架构设计的开源应用性能监控APM系统它核心关注的是分布式系统的可观测性。核心功能特性有服务拓扑图分布式链路追踪指标分析与告警

BitCPM-CANN技术深度解析：首个基于华为昇腾NPU的端到端三值训练系统

BitCPM-CANN技术深度解析：首个基于华为昇腾NPU的端到端三值训练系统【免费下载链接】BitCPM-CANN-3B-gguf BitCPM-CANN 是首个基于华为昇腾 NPU 原生构建的端到端 1.58 比特（三值）大语言模型训练系统。该系统将量化感知训练（QAT&…...

2026/6/1 7:34:04 阅读更多 →

RoBERTa-large-sst2开发者指南：5个自定义训练与模型优化技巧

RoBERTa-large-sst2开发者指南：5个自定义训练与模型优化技巧【免费下载链接】roberta-large-sst2 项目地址: https://ai.gitcode.com/hf_mirrors/zhouhui/roberta-large-sst2 RoBERTa-large-sst2是一个基于RoBERTa-large架构在SST-2情感分析数据集上微调的…...

2026/6/1 7:32:00 阅读更多 →

Qwen大语言模型架构迁移：3大性能突破与成本控制战略方案

Qwen大语言模型架构迁移：3大性能突破与成本控制战略方案【免费下载链接】Qwen The official repo of Qwen (通义千问) chat & pretrained large language model proposed by Alibaba Cloud. 项目地址: https://gitcode.com/GitHub_Trending/qw/Qwen 在当…...

2026/6/1 7:27:00 阅读更多 →

AI辅助创作的临界点已至（2024全球创意工作者生产力白皮书核心发现）

更多请点击： https://intelliparadigm.com 第一章：AI辅助创作的临界点已至（2024全球创意工作者生产力白皮书核心发现） 2024年，全球创意产业迎来关键拐点：AI不再作为边缘工具，而是深度嵌入创意工…...

2026/6/1 2:30:08 阅读更多 →

双稳态核心记忆架构：解决人工智能长期上下文断裂的极简底层范式

双稳态核心记忆架构：解决人工智能长期上下文断裂的极简底层范式开源声明本文完全开源、无版权限制、公开通用，允许所有开发者、科研机构、技术团队无偿引用、落地、迭代、二次开发，助力人工智能长期记忆体系技术革新。作者：杨建…...

2026/6/1 2:30:09 阅读更多 →

单片机IIC实验

单片机 ：STM32F407 开发板：DMF407电机开发板平台：keil V5.31HSE 为8MHZ HSI为16MHZ原理图：主函数：int main(void) {uint8_t key;uint16_t i 0;uint8_t datatemp[TEXT_SIZE];HAL_Init(); …...

2026/6/1 2:30:08 阅读更多 →