本文为面向香港站群运营与维护的实用技术指南,概述如何快速定位两条主用线路的网络问题、常用检测手段与排查顺序,帮助工程师在多租户、负载均衡与多出口环境中高效恢复服务。
排查前首先采集基础信息:对比 站群线路cn1 与 cn2 的物理链路、BGP邻居、出口设备型号和运营商(ISP)。在设备上运行 show interface / ifconfig 查看链路状态和错误计数;用 show ip bgp 或 bgp table 查看路由前缀、下一跳与 AS-path。若使用虚拟化或云环境,还要确认 VRF、VLAN 与路由策略(PBR)配置差异。
常用工具包括 ping、traceroute(Windows 使用 tracert)、mtr(实时丢包与延迟),以及 tcptraceroute 或 curl(用于 TCP 三次握手和应用层测试)。对于多跳问题,使用 pathping 或者从多地的 Looking Glass 和第三方探针(例如 RIPE Atlas)对比路径十分有用。对链路抖动和丢包长期观测建议使用 Zabbix、Prometheus + Blackbox exporter 等监控平台。
建议按以下顺序执行:1) 本地ping目标与网关,确认本地链路是否正常;2) traceroute/mtr到目标IP,记录在哪一跃点出现丢包或延迟突增;3) 在出口路由器上查看路由表和邻居状态(BGP/session);4) 若怀疑中间链路问题,使用多点 traceroute 或 provider looking glass 验证;5) 如路由正常但通感不通,抓包(tcpdump)分析 TCP 三次握手、ICMP 回应与 MTU/DF 问题。
通过逐步隔离判断:若本地到对端网关及第一跳无错,问题出现在运营商链路或对端。traceroute 显示某一跃点之后丢包或 TTL 超时,通常是该跃点或之后路径的问题;若 BGP 路由学习不到或 next-hop 不可达,多为路由问题;若路由正常但仅特定端口或应用异常,优先排查防火墙、NAT 或目标服务器应用层。
常见原因包括链路质量差(物理故障、光缆损伤)、ISP 闲置或维护导致的路由变动、BGP 路由振荡、MPLS LSP 切换、ECMP 导致的路径不一致、ACL/防火墙策略误拦截、MTU 配置不当引起分片问题、以及上游黑洞或流量清洗策略。业务高峰期的拥塞和 QoS 错配也会导致抖动与丢包。
一次标准排查(本地检查、traceroute/mtr、BGP 状态核查、简单抓包)通常在 30-90 分钟内完成,可快速定位到“问题点在哪一段”。临时缓解措施包括切换到备用 cn2 或 cn1(按流量或域名分流)、调整 BGP local-preference 或 prepend、在防火墙添加宽松策略、或者对关键流量做临时路由策略(PBR)绕过问题链路。
输出结构化的故障单:包含故障时间窗口、影响范围、关键 IP/traceroute 报文、mtr 丢包/延迟截图或数据、设备日志(BGP state changes、interface error counters)、抓包摘要(时间戳、三次握手/复位包)。建议同时提供同一时间从 cn1 与 cn2 的对比结果,标明你对问题的初步判断(例如“疑似上游 ISP X 的第 4 跃点抖动导致丢包”)。
使用 ping 带 DF(不分片)标志测试最大可达包长(Linux: ping -M do -s
当 traceroute 和 BGP 信息无法明确定位,或出现 TCP 握手异常、RST、长时间重传时,需要在出口/目标侧抓包。抓包要注意时间同步(NTP)、抓取双向流量(promiscuous 或镜像端口),过滤关键五元组以减少数据量。分析时关注 TCP 三次握手、序列号、窗口、ICMP 报文和 MSS 通告,必要时使用 Wireshark 逐包分析。