判断机房等级要看其设计冗余和可用性指标,通常参考Tier I-IV标准。Tier III/IV 提供更高的可用性和并行的维护能力(如2N或N+1设计),适合关键业务;Tier II适合中等重要性应用,Tier I仅适合非关键或测试环境。要求机房提供设计文件、第三方审核或认证(如Uptime Institute或等效报告),查看UPS、发电机并联、冷却系统和维护路径是否满足不中断维护的要求,从而判定是否满足你的RTO/RPO目标。
物理安全包括多重门禁(门禁卡、生物识别)、人流管控(mantrap)、24/7监控与录像、安保巡检、消防与早期烟感与气体灭火系统、机房分区与环境监控(温湿度、漏水)。网络安全方面关注边界防护(防火墙、IDS/IPS)、DDoS缓解能力、VLAN/分段策略、访问控制与日志审计、定期安全测试与补丁管理。核实机房是否支持运营商中立、互联交换和物理隔离,以降低单点故障与安全风险。
评估网络冗余应查看是否提供多条多模/单模光纤路由的物理多路径、至少两家或多家运营商接入、BGP多宿主和自动路由切换能力。检查核心设备冗余(双路由器、双交换机、热备份)、链路聚合与负载均衡机制,并确认是否有独立电源与光纤进入路径。验证手段包括要求查看链路拓扑图、SLA历史可用性报告、并要求现场或远程进行故障切换测试(例如模拟单链路或单设备故障),关注故障恢复时间与丢包率。
机柜选择需考虑功率容量(kW/柜)、PDU分配、配电冗余、机柜深度与承重,以及是否支持高密度计算。带宽方案要分清可承受的峰值(burstable)与承诺带宽(committed),计费模式(95th percentile、按流量计费或按并发计费)与额外的交叉连接费用。评估互联能力包括是否有IX入驻、直连云服务商或主要运营商、延迟与抖动指标,以及远程运维(remote hands)和托管扩容的成本与响应时间。
重点查看SLA定义的可用性百分比、计费周期与赔付机制(credits)、MTTR(平均修复时间)和响应时间分级(紧急/正常),以及是否明确故障升级流程。合同需覆盖维护窗口通知、变更管理、远程/现场支持(remote hands)费用、物理访问与审计权利、数据主权与保密条款、保险与责任上限。要求明确灾难恢复支持、定期演练要求和退出迁移条款(数据迁移、端口/设备交接),以便在突发事件或更换供应商时保证平滑过渡。