微服务拆分后问题定位会变难。一个接口慢可能慢在网关、服务 A、服务 B、数据库、Redis也可能慢在某个远程调用。没有监控排查基本靠猜。一句话概括微服务监控要解决问题定位、性能分析、服务关系和告警通知SkyWalking 这类 APM 工具能把一次请求经过哪些服务、哪些接口慢、哪里报错串成一条链路。用户请求Gateway 网关服务 A服务 BMySQL / Redis / MQSkyWalking Agent采集链路数据OAP 服务分析与聚合UI 控制台拓扑、Trace、指标告警规则短信或邮件通知为什么微服务必须做监控单体项目里一个请求大多在一个进程内完成。微服务拆分后一次请求可能跨多个服务、多个数据库、多个中间件。监控主要解决四件事目标说明问题定位找到慢接口、异常接口、故障服务性能分析看每个服务、每个端点的耗时服务关系看服务之间的调用拓扑服务告警线上异常时第一时间通知负责人常见工具有 Spring Boot Admin、Prometheus Grafana、Zipkin、SkyWalking 等。SkyWalking 是什么SkyWalking 是一个分布式系统应用性能监控工具也就是 APM 工具。它提供链路追踪、指标分析、服务拓扑、告警等能力。课程里重点提到三个概念概念含义Service服务通常对应一个微服务应用Endpoint端点通常对应一个接口或方法Instance实例通常对应一台机器或一个进程比如user-service是一个 Service。/api/user/login是一个 Endpoint。192.168.200.101上运行的进程是一个 Instance。SkyWalking 自身由哪些部分组成如果面试官继续追问 SkyWalking 架构可以按四个部分回答组件作用Agent挂在应用进程上采集调用链、SQL、接口耗时等数据OAP Server接收 Agent 数据做分析、聚合和告警判断Storage存储链路和指标数据常见是 ElasticsearchUI控制台页面展示拓扑、Trace、指标和告警业务服务 JVMSkyWalking Agent采集链路数据OAP Server分析和聚合Storage保存指标和 Trace告警规则判断异常SkyWalking UI查看拓扑和链路短信 / 邮件通知这里的关键是 Agent。业务代码通常不用侵入式改造Agent 会通过探针方式采集常见框架和中间件的调用信息。一次链路追踪怎么看网关业务服务数据库中间件接口响应变慢查看 SkyWalking Trace定位请求经过的服务查看每个 Span 耗时耗时集中在哪里检查路由、鉴权、限流检查方法耗时和远程调用检查 SQL 和索引检查 Redis / MQ / ES修复后观察指标SkyWalking 的价值不是“装了一个页面”而是能把排查路径从猜测变成证据链。项目里怎么描述监控可以这样讲项目经验我们项目中使用 SkyWalking 做链路追踪和服务监控。它可以监控服务、接口、实例的状态压测时能看到哪些服务和接口比较慢然后针对性优化。上线后我们配置了告警规则比如接口错误率、响应时间超过阈值时通过短信或邮件通知相关负责人方便第一时间定位和修复问题。这段回答里有三个关键信息不是只会部署而是知道监控对象。知道它能用于压测性能分析。知道线上要配置告警闭环。面试回答模板可以这样答微服务系统调用链比较长一个请求可能经过网关、多个服务和多个中间件所以需要监控来做问题定位、性能分析、服务关系查看和告警。我们项目里使用 SkyWalking 做链路追踪它能监控 service、endpoint、instance 的状态也能看到一次请求经过了哪些服务、每个服务耗时多少。压测时可以根据慢接口定位瓶颈上线后也可以配置告警规则比如接口报错或响应时间超过阈值时通知负责人。小结微服务监控要讲清楚两层平时看拓扑和指标出问题看 Trace 和告警。只说“用了 SkyWalking”不够能说出它帮你怎么定位慢接口回答才像项目里真正用过。