核心指标包括:单位时间下行带宽(Bytes/s)、下行流量总量(Bytes)、请求数(Req/s)、缓存命中率(缓存命中率)、回源请求数、回源字节数(Origin Bytes)、5xx/4xx错误率、响应时间分布以及对象级别的热度(top URL/目录/文件类型)。
按域名/路径、地域、协议(HLS/DASH/HTTP-FLV)、Referer、User-Agent、客户端类型、时间粒度(1m/5m)分别统计,便于横向切分与异常定位。
实时监控要以流量、回源量和缓存命中率为主线。配置实时窗口(1分钟、5分钟)指标并结合历史baseline做异常检测。报警规则包含绝对阈值(如回源字节 > X GB/分钟)和相对阈值(增长率 > 200% 或 z-score > 3)。

常用工具:CDN厂商控制台、Prometheus+Alertmanager、Grafana、ELK/ClickHouse、大数据平台(Hive/BigQuery)。示例告警:IF sum(origin_bytes[5m]) > 5GB AND cache_hit_ratio < 80% THEN alert。
定位流程:1)按时间粒度查看突增点;2)按URL/目录聚合查Top N回源字节和回源请求;3)根据Referer/UA/IP分布判断是否为爬虫或单点故障;4)查看回源响应码与返回头(Cache-Control、Expires、ETag)是否异常。
若某URL回源量暴增,检查是否:缓存配置TTL过短、CDN未缓存(Cache-Control: no-cache)、对象频繁变更导致版本号(query)变化、分片(range)请求异常或出现大量206请求、接口返回大文件或5xx导致客户端重试。通过Top URL日志+聚合查询(如SQL:SELECT url, SUM(origin_bytes) FROM logs WHERE time>t GROUP BY url ORDER BY SUM DESC LIMIT 20)能迅速定位。
常见原因:缓存策略错误(TTL=0/no-cache)、热度骤增(突发热点)、爬虫或恶意请求、回源失败导致重试、业务发布导致频繁变更、视频分片策略或断点续传滥用、回源带宽突发限流。
排查步骤:A. 对比发布/变更时间,是否伴随回源激增;B. 查询Top IP/UA/Referer,看是否为爬虫;C. 检查回源状态码,5xx或大量302需重点看;D. 查看Cache-Control与ETag是否正确;E. 回溯源站监控(CPU/带宽/日志)是否出现瓶颈。
措施分为短期应急和长期优化:短期加规则限流(基于IP/UA/Referer)、开启防盗链、调整TTL并对热点使用静态加速或预热;长期优化包括合理设置Cache-Control、使用分片归档策略减少重复回源、实现对象版本化(避免query乱动)、启用压缩与传输优化、使用二级缓存或边缘回源分发。
同时建议构建自动化响应:异常触发后自动下发CDN规则(限速/黑名单)、动态提升缓存TTL、自动化预热热文件,并在回源端增加限流策略与日志审计以便后续根因分析。