AWS 账单异常飙升排查清单：Cost Explorer + 常见坑

2026年01月20日计算 / EC2 阅读(63) AWS51

账单突然暴涨，最怕的是“越查越乱”。作为架构师，我通常按“先定位 → 再归因 → 最后止血”的节奏处理，避免把时间浪费在无效假设上。下面是可直接落地的排查清单。

先稳住：30 分钟快速定位路径

确认时间范围与口径
- Billing Dashboard 先看 MTD（本月至今）与日粒度曲线。
- Cost Explorer 选择 Daily，对比上月同日或前 7 天。
选择正确的成本口径
- Unblended cost：真实计费口径，适合查“花了多少钱”。
- Amortized cost：把 RI/SP 摊到天，适合看“趋势是否异常”。
按服务 → 账号 → 区域 → 用量类型逐级下钻
- Group by Service 找最大的增量服务。
- 再按 Linked account 看是否是新账号或某业务线。
- 再按 Region 判断是否是跨区或单区异常。
- 最后按 Usage type 锁定费用类别（数据传输、NAT、IOPS 等）。
排除“账单假象”
- Credits/Refunds 是否减少或延后入账。
- Support plan 是否升级（Business/Enterprise）。
- Marketplace 是否新增订阅。

数据传输（跨 AZ / 跨区 / 出网）
- 典型用量类型：DataTransfer-Regional-Bytes、DataTransfer-Out-Bytes。
- 常见原因：服务跨 AZ 高频调用、跨区复制、CloudFront 回源命中率低。
NAT Gateway 费用
- NatGateway-Bytes + NatGateway-Hours 双计费。
- 私网访问公网或 S3/STS 走 NAT，会瞬间放大成本。
EBS IOPS/吞吐 + 快照膨胀
- gp3 额外 IOPS/Throughput、频繁快照、跨区复制都容易失控。
S3 请求数与生命周期转换
- 高频 PUT/GET、对象扫描、批量小文件会显著拉高请求费。
- 频繁在标准/归档间迁移会产生额外转出费用。
CloudWatch Logs 与指标
- Debug 日志放量、日志保留期过长、指标爆炸是常见“隐形账单”。
弹性伸缩失控（ECS/EKS/ASG/Lambda）
- 触发条件设置过敏，导致短时实例数量翻倍。
RDS 存储自动扩容与多可用区
- 自动扩容叠加 Multi-AZ 会把单次增长放大为双倍成本。
Marketplace / 第三方订阅
- 新增 AMI/软件订阅不一定出现在“主服务”里。
公有 IPv4 / EIP 未释放
- 公网 IPv4 与未绑定 EIP 现在都是按小时计费。
备份与跨区容灾
- AWS Backup、EBS Snapshot、S3 CRR 都可能在跨区传输上“悄悄抬升”。

开启 Cost and Usage Report (CUR)，勾选 Include Resource IDs。
用 Athena 查询高成本 UsageType，并关联 lineItem/ResourceId。
用 CloudTrail 对齐变更事件（RunInstances、CreateNatGateway、PutBucketReplication 等），定位“谁、何时、做了什么”。