Un post-mortem (o análisis post-incidente) es un documento que explica qué pasó durante un incidente, por qué pasó, y qué harás para evitar que se repita.
Estructura de un buen post-mortem
1. Resumen ejecutivo
2-3 frases que expliquen qué pasó, cuánto duró, y el impacto.
2. Cronología
Timeline detallado con timestamps:
14:32 - Se detectó aumento en latencia 14:35 - Alerta disparada, equipo notificado 14:42 - Identificada la causa raíz 15:01 - Fix desplegado 15:05 - Servicio restaurado
3. Causa raíz
Explicación técnica (pero accesible) de qué causó el problema.
4. Impacto
Métricas concretas: usuarios afectados, requests fallidas, revenue perdido.
5. Lecciones aprendidas
¿Qué funcionó bien? ¿Qué podría mejorarse?
6. Acciones correctivas
Lista de tareas concretas con responsables y fechas.
Cultura blameless
Un post-mortem nunca debe culpar a personas. El objetivo es mejorar sistemas y procesos, no señalar culpables.
Con UpBadge puedes publicar tus post-mortems directamente en tu página de estado, demostrando transparencia y compromiso con la mejora continua.