Volver al blog

Metricas de productividad de ingeniería: framework DORA y SPACE explicado

Reporte dirigido a lideres técnicos y empresas Este reporte está pensado para CTOs, VPs of Engineering, Directores de Tecnologia, Engineering Managers Senior y Heads of Platform que necesitan medir la productividad de su equipo de ingeniería sin destruir la cultura ni caer en vanity metrics. Las personas que buscan oportunidades laborales tech pueden consultar plataformas como LinkedIn o Get on Board: IT Workers es una consultora B2B y no procesa candidaturas espontaneas ni postulaciones individuales.

Un VP of Engineering de una scale-up regional fintech con 90 ingenieros heredo, al asumir el cargo, un dashboard de productividad que llevaba dos anios en operación. Cinco métricas en el dashboard: líneas de código por desarrollador por semana, story points completados por sprint, tickets cerrados por persona, horas registradas en el time tracker interno y porcentaje de cobertura de tests. Las cinco se publicaban semanalmente al Engineering Leadership Team. Los managers comparaban entre equipos. Los ingenieros lo sabian. A los nueve meses de operación del dashboard, la rotación de Staff Engineers de la compañía llego al 38% anualizado, el code review promedio demoraba 52 horas, el código se inflaba con duplicaciones para subir las métricas y los dos arquitectos más senior renunciaron el mismo trimestre. El dashboard medio actividad, no productividad. La compañía pago el costo durante todo el anio siguiente.

La pregunta de cómo medir productividad de ingeniería es una de las más mal respondidas en la industria. Cualquiera con experiencia de más de una decada en la disciplina ha visto al menos cinco compañías intentar resolverla con métricas individualistas (líneas de código, horas, tickets) y todas terminar con el mismo resultado: rotación alta, deuda técnica acumulada, manipulación silenciosa de la métrica y desconfianza profunda entre managers e ingenieros. Felizmente, dos investigaciones empiricamente solidas resolvieron el problema en la última decada y entregaron los frameworks que hoy usan los equipos de ingeniería de elite a nivel global: DORA (DevOps Research and Assessment, hoy parte de Google Cloud) y SPACE (publicado por investigadoras de Microsoft Research, GitHub y la Universidad de Victoria en ACM Queue). En 2023 se sumo un tercer marco complementario, DevEx, que cubre la dimensión humana de feedback loops, cognitive load y flow.

Este reporte explica los tres frameworks, sus benchmarks, sus modos de uso correcto y sus fallas tipicas. Tres mil quinientas palabras escritas para que el lector salga con un plan ejecutable. No es una introducción académica: es una guía operacional para CTOs y VPs Engineering que necesitan instrumentar métricas DORA y SPACE en su organización sin destruir lo que ya funciona.

1. Por qué medir productividad de ingeniería es difícil (y por qué no es líneas de código)

La productividad de ingeniería es estructuralmente difícil de medir por cinco razones que no aplican a otras disciplinas como ventas, soporte o producción industrial. Primero, el output de ingeniería es código, y el código no es comparable entre tareas: 50 líneas de código que resuelven un problema arquitectonico complejo valen más que 2.000 líneas de boilerplate generadas para CRUD trivial. Segundo, el trabajo de ingeniería es colaborativo por estructura: ninguna feature productiva sale del computador de una sola persona, todo pasa por Pull Request review, integración, QA y deploy. Tercero, la productividad real solo se mide en outcomes (impacto del código en negocio, estabilidad del servicio, velocidad de entrega), no en activity (cuanto se tipea por hora). Cuarto, el código es un activo de largo plazo: una decisión arquitectonica tomada en un sprint puede afectar la velocidad del equipo durante anios. Quinto, el trabajo de ingeniería depende fuertemente de contexto y herramientas: un Senior con un build local rápido y un CI verde produce el triple que el mismo Senior con un build de 22 minutos.

Por estas cinco razones, las métricas individuales y de activity (líneas de código, horas, tickets, story points por persona) son uniformemente malas para evaluar productividad. Lo único que esas métricas miden con precisión es la voluntad del equipo de cooperar con la métrica, no la productividad real. La industria llevo veinte anios chocando con esto antes de que la investigación empirica produjera dos marcos validos. Ningun framework de productividad serio se basa en métricas individuales. Todos se basan en métricas de sistema (equipo + servicio + flujo) y combinan datos cuantitativos con percepción del equipo.

2. El problema de las vanity metrics y cómo destruyen cultura de equipo

Vanity metric, en lenguaje de medición de productividad, es toda métrica que se ve bien en un dashboard pero no predice ningun outcome relevante. Las cinco más comunes en equipos de ingeniería son: líneas de código escritas, story points completados por persona, tickets cerrados por persona, horas registradas en el time tracker y porcentaje de cobertura de tests. Las cinco comparten una caracteristica peligrosa: son fáciles de medir, se ven serias en una presentación y son completamente manipulables por el equipo. La ley de Goodhart describe exactamente este fenomeno: cuando una medida se convierte en objetivo, deja de ser una buena medida.

El daño real de las vanity metrics es cultural, no técnico. Cuando un equipo de ingeniería descubre que se le evalua por líneas de código, las tres cosas que más hace un ingeniero senior dejan de ocurrir: refactor agresivo, eliminación de código muerto y abstracciones que reducen duplicación. Esas tres prácticas restan líneas de código. Penalizar refactor en un sistema vivo es exactamente lo opuesto a lo que la compañía necesita. Algo similar ocurre con story points: si el dashboard muestra story points por persona, los ingenieros senior dejan de hacer pair programming, dejan de mentorear y empiezan a tomar tickets fáciles para inflar el número. La métrica equivocada no solo es inútil: penaliza activamente las prácticas de los equipos elite. Cinco anios después de instalar una vanity metric, el equipo es estructuralmente peor que cuando no median nada.

Antipatron más comun en compañías chilenas y regionales 2024-2026: dashboard semanal de Engineering con líneas de código, story points por persona y tickets cerrados publicado al management team. La compañía piensa que está gestionando rendimiento. El equipo de ingeniería sabe perfectamente que las métricas son manipulables, las manipula, y simultaneamente pierde respeto por el management que las usa. La rotación de Senior y Staff sube entre 25% y 50% en los doce meses siguientes a la instalación del dashboard.

3. DORA: las 4 métricas que mide Google Cloud DORA Research

DORA, originalmente DevOps Research and Assessment, es un grupo de investigación fundado en 2014 por Nicole Forsgren, Jez Humble y Gene Kim, adquirido por Google Cloud en 2018 y responsable del Accelerate State of DevOps Report que se pública anualmente. Más de diez anios de research empirico sobre decenas de miles de desarrolladores aislaron cuatro métricas que correlacionan de manera estadisticamente significativa con desempenio organizacional y comercial. Esas cuatro métricas son la única respuesta empirica que la industria tiene a la pregunta de productividad de ingeniería a nivel de delivery.

Deployment frequency

Con qué frecuencia el equipo despliega cambios a producción. Es la métrica de velocidad pura. Mide el output del sistema en cantidad de releases por unidad de tiempo. La hipotesis empirica que valida DORA es que equipos que despliegan con frecuencia tienen menos riesgo por release (cambios más pequenios) y mejor capacidad de respuesta al mercado. La medición se hace por equipo o por servicio, no por individuo, capturando el evento de release exitoso desde el sistema de CI/CD (GitHub Actions, GitLab CI, CircleCI, Jenkins, Argo CD o similar). Equipos elite hacen deployment on-demand: multiples veces por día sin fricción.

Lead time for changes

Tiempo desde que un cambio se commitea al repositorio hasta que llega a producción. Es la métrica de eficiencia del flujo. Mide la fricción total acumulada del sistema de delivery: code review, CI, QA, gates manuales, ambientes de staging, deploys orquestados. Es la métrica más reveladora porque agrega visibilidad sobre todo el sistema, no solo sobre la actividad de un equipo. Equipos elite mueven cambios desde commit a producción en menos de un día. Equipos low operan con leads times mayores a un mes, lo cual significa, en la práctica, que la compañía no es ágil sin importar lo que diga su sitio web.

Change failure rate

Porcentaje de despliegues a producción que requieren rollback inmediato, hotfix urgente o causan incidente cliente-impactante en las cuatro horas siguientes. Es la métrica de estabilidad. Equilibra a deployment frequency: una compañía que despliega 100 veces por mes con 8% de failure rate es objetivamente mejor que una que despliega 4 veces por mes con 0%. Definir failure operacionalmente y por adelantado es crucial. Equipos elite tienen change failure rate entre 0% y 15% manteniendo deployment on-demand, lo cual es matematicamente exigente y solo se logra con buena instrumentación y cultura blameless.

Mean time to recover (MTTR)

Tiempo promedio para restaurar el servicio cuando ocurre un incidente cliente-impactante. Es la métrica de resiliencia. La hipotesis empirica de DORA es que equipos resilientes recuperan rápido, no evitan errores completamente. La diferencia entre un equipo elite y uno low en MTTR es dramatica: menos de una hora versus más de una semana. La medición se hace integrando el sistema de incidentes (PagerDuty, Opsgenie, Statuspage) con la captura de eventos. Equipos con MTTR alto tipicamente tienen runbooks obsoletos, falta de observabilidad y poca cultura de on-call disciplinado.

4. Cómo medir cada DORA metric: instrumentación práctica

Instrumentar DORA en la práctica requiere conectar tres sistemas que la compañía probablemente ya tiene: el repositorio (GitHub o GitLab), el sistema de CI/CD (GitHub Actions, GitLab CI, CircleCI, Jenkins, Buildkite, Argo CD) y el sistema de incidentes (PagerDuty, Opsgenie). El equipo no debe completar formularios manuales para alimentar la métrica: si lo hace, la métrica se ensucia en seis semanas y se abandona en seis meses. La instrumentación debe ser automática desde sistemas que ya existen.

Herramientas validadas en mercado 2026 para DORA: LinearB, Jellyfish, Swarmia, Sleuth, DX, Faros AI y, en compañía con equipo de plataforma maduro, stack interno sobre Datadog + Grafana + APIs de GitHub/GitLab. La elección correcta depende del tamaño del equipo: bajo 40 ingenieros conviene un SaaS llave en mano (LinearB o Swarmia tipicamente); sobre 150 ingenieros conviene evaluar stack interno por cuestiones de costo, privacidad y customización. Entre medio, Jellyfish o DX son default razonables.

El detalle por métrica es el siguiente. Deployment frequency se captura registrando cada evento de release exitoso a producción desde el pipeline CI/CD, con timestamp, servicio, hash del commit, autor y resultado. Lead time for changes se calcula desde el timestamp del primer commit del Pull Request mergeado hasta el timestamp del deploy productivo de ese commit; requiere correlacionar repo y CI. Change failure rate se calcula sobre el total de deployments del periodo, marcando como failure los que aparecen en el sistema de incidentes en las cuatro horas siguientes al deploy o que generan rollback automático. MTTR se mide desde el timestamp de apertura del incidente cliente-impactante hasta el timestamp de cierre, considerando solo incidentes con impacto productivo real (no incidentes internos triviales).

Una vez instrumentadas las cuatro, el dashboard debe mostrarlas siempre juntas y siempre por equipo, nunca por individuo. Publicar al Engineering Leadership Team agregado semanal, dejar el detalle por equipo accesible solo a sus managers. Tres meses de datos consistentes son suficientes para tener una línea base y empezar a comparar con benchmarks. Nunca usar las métricas para evaluación individual de desempenio: hacerlo destruye la métrica en menos de un trimestre.

5. SPACE: el framework de Microsoft Research que complementa a DORA

SPACE fue publicado en marzo de 2021 en la revista ACM Queue por Nicole Forsgren (la misma autora original de DORA), Margaret-Anne Storey, Chandra Maddila, Thomas Zimmermann, Brian Houck y Jenna Butler, sintetizando trabajo de Microsoft Research, GitHub y la Universidad de Victoria. El paper original esta disponible en ACM Queue y es lectura obligatoria para cualquier VP of Engineering serio. La intención explicita de SPACE fue cubrir la dimensión que DORA dejaba afuera: la senial humana detrás de los outcomes de delivery.

SPACE propone cinco dimensiones para medir productividad. La regla central del framework, repetida hasta el cansancio por las autoras, es que nunca debe usarse una sola dimensión de SPACE: hacerlo invariablemente convierte la dimensión elegida en vanity metric. La regla operacional es combinar al menos tres dimensiones simultaneas. Las cinco son las siguientes.

Satisfaction (S)

Satisfacción del desarrollador con su trabajo, su equipo, sus herramientas y la organización. Se mide con surveys recurrentes, tipicamente trimestrales, usando preguntas Likert validadas (eNPS, intención de permanecer, orgullo, recomendación). Es la dimensión más predictiva de rotación futura: un equipo con satisfacción baja perdera Senior y Staff en los próximos dos a cuatro trimestres con probabilidad alta. Ignorar Satisfaction es la causa número uno por la que compañías que solo miden DORA pierden talento clave a los dieciocho meses.

Performance (P)

Resultado del trabajo medido en outcome de negocio: features liberadas, cumplimiento de SLOs, satisfacción del cliente con la calidad del producto, defectos en producción, performance de tests automatizados. Es la dimensión de output efectivo, no de activity. Aqui caben varias métricas DORA (lead time, change failure rate) que pueden compartirse entre frameworks. La regla es medir Performance por equipo y servicio, nunca por individuo aislado.

Activity (A)

Acciones de desarrollo: cantidad de Pull Requests abiertos, cantidad de commits, cantidad de revisiones realizadas, frecuencia de despliegues. Es la dimensión más peligrosa del framework si se usa aislada porque es la más parecida a las vanity metrics tradicionales. Se usa correctamente cuando se combina con Satisfaction y Performance: por ejemplo, Activity bajando mientras Satisfaction sube puede indicar exhaustion previa; Activity subiendo mientras Performance baja puede indicar manipulación de la métrica.

Communication and collaboration (C)

Cualidad de la comunicación y colaboración del equipo: claridad de objetivos, velocidad y calidad de Pull Request reviews, calidad de la documentación compartida, eficiencia de reuniones, calidad del onboarding de nuevos miembros. Se mide combinando datos cuantitativos (tiempo medio de PR review, tiempo medio entre commit y primer comentario de review, número de iteraciones por PR) con survey de percepción del equipo. Es la dimensión que más predice la velocidad efectiva del equipo a mediano plazo.

Efficiency and flow (E)

Eficiencia y estado de flujo del desarrollador. Mide cuantas horas de uninterrupted focus tiene el desarrollador en una semana tipica, cuantas veces fue interrumpido en su trabajo profundo, cuanta fricción administrativa enfrenta para hacer su trabajo (build local lento, CI lento, ambientes inestables, gates manuales arbitrarios). Tres horas o menos de uninterrupted focus diario es la senial roja: el equipo no está en flow y la productividad real está capada.

6. DORA vs SPACE: cuándo usar cuál y cómo combinarlas

DORA y SPACE no son frameworks competidores sino complementarios. Cada uno cubre una dimensión que el otro deja afuera. DORA mide los outcomes objetivos de delivery; SPACE cubre la senial humana detrás de esos outcomes. La pregunta correcta no es cuál usar sino cómo combinarlas. Las compañías que aplican uno solo y no el otro caen en uno de dos modos de falla bien documentados: solo DORA termina con un equipo rápido pero quemado y con rotación alta; solo SPACE termina con un equipo contento pero con velocidad de delivery por debajo del competidor.

La regla práctica de combinación, validada en implementaciones reales con clientes B2B en scale-ups regionales, es la siguiente: medir simultaneamente las cuatro métricas DORA y al menos tres dimensiones de SPACE (idealmente Satisfaction, Communication y Efficiency, dejando Performance solapado con DORA y Activity como complemento opcional). En total, entre siete y ocho indicadores. Más que eso satura al equipo y diluye el foco; menos que eso deja angulos ciegos. El stack mínimo viable se ve así.

Stack mínimo viable de medición DORA + SPACE para equipos de ingeniería 2026
Indicador Framework Frecuencia Fuente
Deployment frequencyDORAContinuoCI/CD
Lead time for changesDORAContinuoRepo + CI/CD
Change failure rateDORAContinuoCI/CD + Incidentes
MTTRDORAContinuoSistema incidentes
Satisfaction (eNPS, intención permanecer)SPACETrimestralSurvey anonima
Communication (calidad PR review, claridad objetivos)SPACETrimestralSurvey + datos PR
Efficiency / Flow (horas focus, fricción)SPACETrimestralSurvey + DevEx data

7. Benchmarks de elite, high, medium, low performers DORA

Los benchmarks vigentes provienen del DORA Accelerate State of DevOps Report 2023, último report publicado al momento de redacción. La distancia entre los cuatro clusters es tan grande que la primera vez que un equipo ve donde esta en la tabla suele tomar dos semanas para asimilar el dato. La diferencia entre un equipo elite y uno low en lead time for changes es 2.604 veces; en deployment frequency es 973 veces; en MTTR es 2.293 veces. Esos números no son tipograficos, salen del estudio empirico.

Benchmarks DORA Accelerate State of DevOps Report (2023, vigente 2026)
Metrica Elite High Medium Low
Deployment frequency On-demand (multiples por día) 1/día - 1/semana 1/semana - 1/mes Menor a 1/mes
Lead time for changes Menor a 1 día 1-7 días 1 semana - 1 mes Mayor a 1 mes
Change failure rate 0% - 15% 0% - 15% 0% - 30% Mayor a 30%
Tiempo de restauración (MTTR) Menor a 1 hora Menor a 1 día Menor a 1 semana Mayor a 1 semana
Proporción organizaciones cluster 18% 31% 34% 17%

Medir productividad de ingeniería con líneas de código o con horas trabajadas no es solo equivocarse de métrica: es senial inequivoca de que el manager nunca leyo DORA ni SPACE, y de que la rotación de Senior en los próximos doce meses sera más alta que el promedio del mercado.

Pablo Herrera · Founder & IT Headhunter en IT Workers

8. DevEx: las métricas que importan para retención de Staff Engineers

El framework DevEx (Developer Experience) fue publicado en mayo de 2023 en ACM Queue por Abi Noda, Margaret-Anne Storey, Nicole Forsgren y Michaela Greiler, disponible en ACM Queue. Es la sintesis más reciente del trabajo de las autoras de SPACE y DORA y la respuesta empirica a la pregunta de por qué los Staff Engineers eligen un equipo y no otro. La hipotesis central es que la retención de los perfiles más senior no depende del sueldo marginal sino de la calidad de la experiencia técnica del día a día. DevEx propone tres dimensiones medibles.

Feedback loops

Qué tan rápido el desarrollador recibe senial sobre su trabajo. Incluye tiempo de feedback del test unitario al ejecutarlo, tiempo de feedback del CI completo, tiempo de feedback del Pull Request review, tiempo de feedback del despliegue a staging. Equipos donde el feedback total es de segundos a minutos generan engagement profundo; equipos donde el feedback total es de horas a días generan frustración y bajan la velocidad real al menos 30%. Es la dimensión más tangible y la que más rápido mejora con inversión focalizada en CI/CD.

Cognitive load

Cuánta complejidad innecesaria carga el desarrollador para hacer su trabajo. Incluye complejidad del código (deuda técnica), complejidad de la infraestructura, complejidad de los procesos administrativos, complejidad de la documentación ausente. Se mide con survey de percepción: la pregunta validada es "para hacer mi trabajo, debo recordar demasiado contexto que no se relaciona directamente con el problema que estoy resolviendo". Cuando esa pregunta tiene puntaje alto, la productividad real esta capada sin importar cuántas horas trabaje el equipo.

Flow state

Cuánto tiempo de foco profundo no interrumpido tiene el desarrollador en una semana tipica. Es la dimensión más relacionada con productividad cognitiva real: el flow es el estado mental en el que el desarrollador resuelve problemas complejos. Tres horas o menos de uninterrupted focus diario es senial roja; menos de una hora es senial crítica. Las causas tipicas son exceso de reuniones, exceso de interrupciones de Slack, expectativa cultural de respuesta inmediata. Equipos donde el flow está capado pierden a sus mejores ingenieros antes que el resto.

DevEx es la capa explicativa de DORA y SPACE. Cuando DORA muestra que el lead time es alto, DevEx explica si la causa es feedback lento, cognitive load excesiva o falta de flow. Cuando SPACE muestra que Satisfaction está baja, DevEx explica qué está detrás. Para compañías serias sobre retener Staff Engineers, DevEx es el framework más operacional de los tres.

9. Errores comunes al implementar métricas de productividad

Despues de auditar implementaciones de medición de productividad en compañías de Serie A hasta corporativos digitales, los siete errores siguientes se repiten con claridad. Cinco son errores de diseño (que métrica usar). Dos son errores de cultura (cómo usar la métrica que tenes).

Error 1: usar métricas individuales en trabajo colaborativo

Lineas de código por persona, story points por persona, tickets por persona. Todo lo que se pública con nombre del desarrollador al lado destruye cooperación en menos de un trimestre. Los Senior dejan de hacer code review (no suma a su métrica), dejan de mentorear (no suma) y dejan de hacer pair programming (divide la métrica entre dos personas). Las métricas siempre por equipo o servicio, nunca por individuo aislado.

Error 2: medir solo deployment frequency sin las otras tres DORA

El antipatron más comun en compañía que recien adopta DORA. El equipo optimiza para deployment frequency única y termina deplegando cambios cosmeticos triviales, fracturando features artificialmente, y sacrificando estabilidad en silencio. Las cuatro métricas DORA están diseñadas para usarse juntas: cada una corrige el sesgo de las otras. Nunca publicar deployment frequency sin lead time, change failure rate y MTTR al lado.

Error 3: usar una sola dimensión de SPACE

Equivalente del error anterior pero del lado humano. Compañía que solo mide Satisfaction termina con un equipo contento pero lento; compañía que solo mide Activity (PRs por persona, commits por persona) cae en la trampa de las vanity metrics tradicionales. La regla es siempre tres o más dimensiones simultaneas, según publicaron las autoras del paper original.

Error 4: usar las métricas para evaluación individual de desempenio

El error que destruye la implementación más rápido. Si el manager usa los datos del dashboard para evaluar desempenio individual, el equipo lo descubre en una semana y empieza a manipular los datos. Documentar por escrito, en la primera reunion del proyecto y firmada por el CTO y RRHH, que las métricas nunca se usaran para evaluación individual. Sin esa promesa documentada, el proyecto fracasa.

Error 5: publicar ranking de equipos al management team

Tentación natural del management pero antipatron operacional. Publicar ranking de equipos crea competencia interna toxica, incentiva a los equipos a no compartir aprendizajes con otros equipos y, peor aún, incentiva a manipular las métricas para no quedar último. Publicar agregado organizacional al management; mantener detalle por equipo accesible solo a sus managers respectivos.

Error 6: instrumentar con formularios manuales en lugar de captura automática

Si el equipo debe completar formularios manuales para alimentar la métrica, en seis semanas los formularios están llenos de basura y en seis meses la implementación se abandona. La instrumentación debe ser automática desde sistemas que ya existen: CI/CD, repo, sistema de incidentes. Surveys de SPACE son la excepción (por su naturaleza requieren survey humana), pero deben ser anonimas, cortas y trimestrales, no semanales.

Error 7: tomar decisiones con menos de 90 días de baseline

Compañías que reciben los primeros datos del primer mes y empiezan a tomar decisiones críticas. Los primeros 30 a 60 días de baseline siempre tienen ruido: la instrumentación se está calibrando, los equipos se están acostumbrando, las definiciones operacionales se están estabilizando. La regla es esperar tres meses de datos consistentes antes de cualquier decisión irreversible. Reportes diagnosticos antes, decisiones después.

10. Roadmap 90 días para implementar DORA + SPACE en una compañía de 30-150 ingenieros

El roadmap siguiente es la sintesis operacional de implementaciones reales con equipos de tecnología de scale-ups B2B regionales. El plazo de 90 días es realista para llegar a baseline confiable; otros 90 días adicionales para llegar a uso productivo de las métricas en toma de decisiones. Empresas que prometen instrumentación completa en cuatro semanas o están vendiendo humo o están instalando dashboards sin baseline real detrás.

Roadmap 90 días: implementación DORA + SPACE + DevEx

  1. Semanas 1-2 (alineación Engineering Leadership Team). Reunir CTO, VPE, Directores de Tecnologia y Engineering Managers Senior. Acordar por escrito qué se va a medir, por qué, quién tiene acceso y, sobre todo, qué se hará y NO se hará con los datos. Documentar la promesa explicita de que las métricas nunca se usaran para evaluación individual.
  2. Semanas 3-4 (selección e instalación de tooling DORA). Evaluar LinearB, Jellyfish, Swarmia, Sleuth, DX o construcción interna sobre Datadog/Grafana. Conectar a GitHub/GitLab, CI/CD y sistema de incidentes. Validar que eventos de deployment, lead time y failure se capturan correctamente para dos servicios piloto.
  3. Semanas 5-6 (primer baseline DORA por equipo). Generar las cuatro métricas DORA por equipo y servicio para los últimos 90 días. Comparar con benchmarks publicados. Identificar tres a cinco equipos en cada cluster. NO publicar ranking, solo cluster organizacional agregado.
  4. Semanas 7-8 (encuesta SPACE - Satisfaction y Communication). Survey anonima al 100% de ingenieros con preguntas Likert validadas. Satisfaction: orgullo, intención de quedarse, recomendación. Communication: claridad de objetivos, coordinación entre equipos, calidad de PR reviews, eficiencia de reuniones. Tasa de respuesta mínima: 70%.
  5. Semanas 9-10 (encuesta DevEx - feedback loops, cognitive load, flow). Survey corta DevEx midiendo tiempo de feedback de tests, tiempo de feedback de PR reviews, cognitive load percibida y horas semanales de uninterrupted focus reportadas. Triangular con SPACE.
  6. Semanas 11-12 (identificación top 3 fricciones y plan de remediación). Cruzar DORA + SPACE + DevEx para identificar los tres bottlenecks principales del sistema. Documentar plan trimestral con dueños asignados y resultado esperado medible. Revisar trimestralmente, ajustar y publicar al equipo el progreso.

El plazo se duplica si la compañía no tiene CI/CD maduro o si no existe un Engineering Manager con tiempo dedicado al proyecto. En casos extremos (compañía con releases manuales, sin pipeline automatizado, sin sistema de incidentes formal) el plazo realista es de seis a nueve meses. Antes de instrumentar DORA conviene tener CI/CD funcionando: instrumentar sobre un proceso roto solo mide cuán roto está.

El equipo de ingeniería que llega a percentil elite DORA no es el que despliega más rápido, sino el que tiene Engineering Managers con disciplina para no usar las métricas como arma contra sus propios ingenieros.

Pablo Herrera · Founder & IT Headhunter en IT Workers

El paso final, frecuentemente ignorado, es repetir el ciclo cada trimestre. DORA y SPACE no son un proyecto único de instalación sino una capacidad organizacional permanente. Los benchmarks se mueven (lo que era elite en 2020 hoy es solo high), las herramientas evolucionan (AI assistants impactan feedback loops), el equipo cambia. Compañías serias revisan los siete indicadores cada trimestre con la misma rigurosidad con la que revisan los OKRs de producto. Las que tratan la medición como proyecto único abandonan el dashboard en doce meses; las que la tratan como capacidad permanente son las que llegan a elite y se mantienen.

11. FAQ: 10 preguntas que recibimos de CTOs y VPs Engineering

Qué son las métricas DORA y por qué las usan los equipos de ingeniería?

DORA (DevOps Research and Assessment, hoy parte de Google Cloud) son cuatro métricas validadas empiricamente a partir de más de diez anios de research sobre equipos de software de alto desempenio. Las cuatro son deployment frequency (con qué frecuencia el equipo despliega a producción), lead time for changes (cuánto demora un cambio desde commit hasta producción), change failure rate (qué porcentaje de despliegues genera incidente) y mean time to recover o MTTR (cuánto demora restaurar el servicio tras un incidente). La razon por la que se usan es que son las únicas cuatro métricas que el DORA Accelerate State of DevOps Report correlaciono estadisticamente con desempenio organizacional y comercial, midiendo a la vez velocidad y estabilidad. Equipos elite cumplen las cuatro juntas, no solo una.

Qué es el framework SPACE y cómo complementa a DORA?

SPACE es un framework publicado en 2021 por investigadoras de Microsoft Research, GitHub y Universidad de Victoria en ACM Queue. Sus siglas significan Satisfaction (satisfacción del desarrollador), Performance (resultado de outcome), Activity (acciones de desarrollo), Communication and collaboration (comunicación y colaboración del equipo) y Efficiency and flow (eficiencia y estado de flujo). SPACE complementa a DORA porque DORA solo mide outcomes de delivery y SPACE incorpora la experiencia humana detrás de esos outcomes. La regla de uso es combinar al menos tres dimensiones de SPACE con las cuatro métricas DORA. Quien usa solo una dimensión de SPACE invariablemente la convierte en vanity metric.

Cuál es el benchmark elite de DORA en 2026?

Segun el Accelerate State of DevOps Report 2023 publicado por DORA con Google Cloud, equipos elite tienen deployment frequency on-demand (multiples despliegues por día), lead time for changes menor a un día, change failure rate entre 0% y 15% y tiempo de restauración del servicio en menos de una hora. Equipos high: deployment una vez por día a una vez por semana, lead time de uno a siete días, change failure rate entre 0% y 15%, restauración en menos de un día. Medium: deployment una vez por semana a una vez al mes, lead time de una semana a un mes, change failure rate entre 0% y 30%, restauración en menos de una semana. Low: deployment menor a una vez al mes, lead time mayor a un mes, change failure rate sobre 30%, restauración mayor a una semana. La distancia entre elite y low es 200 veces en deployment frequency.

Por qué medir líneas de código o horas trabajadas destruye la cultura del equipo?

Lineas de código y horas trabajadas son las dos vanity metrics más peligrosas porque cumplen la ley de Goodhart con velocidad máxima: cuando una medida se convierte en objetivo, deja de ser una buena medida. Si el equipo sabe que se le evalua por líneas de código, escribira código verboso, evitara refactor, copiara en lugar de abstraer y duplicara lógica. Si se le evalua por horas, prolongara reuniones, prendera el computador antes y reportara tiempo en lugar de progreso. Ambas métricas penalizan exactamente las prácticas que los equipos elite tienen: refactor agresivo, código pequeño y modular, decisiones tomadas en quince minutos. Equipos donde el manager mide líneas de código tienen rotación al menos 30% más alta.

Cómo se instrumenta deployment frequency en la práctica?

Deployment frequency se instrumenta capturando el evento de release a producción desde el sistema de CI/CD del equipo. En la mayoría de organizaciones la fuente de verdad es GitHub Actions, GitLab CI, CircleCI, Jenkins, Buildkite o Argo CD. Cada vez que un pipeline llega exitosamente al ambiente productivo, se registra un evento con timestamp, servicio, hash del commit, autor y resultado. La métrica se calcula por equipo o por servicio agregando esos eventos. Herramientas más usadas para visualizarlo: LinearB, Jellyfish, Swarmia, Sleuth, DX y Faros AI; varias se conectan directo al repo y CI sin que el equipo deba reportar nada manualmente. La regla de oro: el equipo no debe completar formularios para alimentar la métrica, los datos deben fluir desde sistemas que ya existen.

Cuándo conviene usar SPACE en vez de DORA?

DORA y SPACE no son sustitutos sino complementos. DORA se usa cuando el problema declarado es de delivery: despliegues lentos, incidentes frecuentes, time to market alto. SPACE se usa cuando el problema es humano: rotación alta, baja satisfacción, exhaustion del equipo, dificultad para retener Senior y Staff. La regla práctica es que toda implementación seria debe incluir simultaneamente al menos dos métricas DORA y dos dimensiones SPACE, para evitar el problema clásico de optimizar velocidad mientras el equipo se quema o cuidar satisfacción mientras el delivery se desploma. Las compañías de Serie B y mayores que solo miden DORA tipicamente descubren a los dieciocho meses que tienen rotación de Senior y deuda técnica acumulada.

Qué es DevEx y cómo se relaciona con DORA y SPACE?

DevEx (Developer Experience) es un framework publicado en 2023 en ACM Queue por investigadores de DX, GitHub y Microsoft Research, sintetizando trabajos anteriores incluyendo SPACE y DORA. DevEx propone medir tres dimensiones de la experiencia del desarrollador: feedback loops (qué tan rápido el desarrollador recibe senial sobre su trabajo, desde un test unitario hasta una respuesta de Pull Request), cognitive load (cuánta complejidad innecesaria carga el desarrollador) y flow state (cuánto tiempo de foco profundo no interrumpido tiene). DevEx se relaciona con DORA y SPACE como capa explicativa: cuando DORA muestra lead time alto, DevEx explica si la causa es feedback lento, cognitive load o falta de flow. Es el framework que más importa para retener Staff Engineers.

Cuánto demora implementar DORA y SPACE en una compañía de 80 ingenieros?

Una implementación realista de DORA y SPACE en una compañía de 80 ingenieros demora aproximadamente 90 días en alcanzar baseline confiable y otros 90 días en alcanzar uso productivo en toma de decisiones. Mes uno: selección de herramientas (Jellyfish, LinearB, Swarmia, Sleuth, DX o stack interno), instrumentación del CI/CD, instalación de captura automática. Mes dos: encuesta de satisfacción del equipo, survey de cognitive load y flow, validación de datos versus realidad. Mes tres: primer baseline publicado, comparación con benchmarks DORA, identificación de tres a cinco fricciones críticas. Meses cuatro a seis: iteración sobre fricciones, segundo survey, validación de mejora. El plazo se duplica si la compañía no tiene CI/CD maduro.

Cómo se mide change failure rate sin penalizar el equipo?

Change failure rate es la métrica DORA más delicada porque mide fallos, y si se usa mal incentiva al equipo a no deplegar para evitar contar fallas. Tres reglas. Primero, definir failure operacionalmente y por adelantado: tipicamente un deployment que requiere rollback inmediato, un hotfix urgente o un incidente cliente-impactante en las cuatro horas siguientes al deploy. No es failure el bug menor descubierto a la semana ni el comentario de un usuario. Segundo, exponerla siempre junto a deployment frequency: un equipo que despliega 100 veces por mes con 8% de failure rate es mejor que uno que despliega 4 veces con 0% failure. Tercero, usarla como senial del sistema, nunca del individuo: nunca asignar failures a un developer, siempre a equipo + servicio. Equipos elite tienen change failure rate entre 0% y 15% manteniendo deployment on-demand.

Qué pasa si solo medimos deployment frequency y nada más?

Es uno de los antipatrones más comunes y dolorosos. Si solo se mide deployment frequency, el equipo optimiza para esa métrica única y termina deplegando cambios cosmeticos triviales para inflar el número, fracturando features en commits artificialmente pequenios y sacrificando estabilidad: el change failure rate sube en silencio mientras el dashboard muestra deployment frequency en verde. Sin lead time visible, sin failure rate visible y sin MTTR visible, el equipo puede estar deplegando 20 veces por día con incidentes diarios y nadie lo nota hasta que un cliente importante se queja. Las cuatro métricas DORA están diseñadas para usarse juntas precisamente porque cada una corrige el sesgo de las otras. Sumarles al menos dos dimensiones de SPACE cierra el angulo humano.

Recursos relacionados: reclutamiento IA especializado · headhunter tech especializado · contratar CTO · org design de ingeniería: squads vs plataforma · reducir time-to-hire tech 30 días · cuándo contratar primer Engineering Manager · cómo retener talento tech · todos los articulos del blog

Quieres implementar DORA y SPACE en tu equipo de ingeniería?

Conversación estructurada de 20 minutos para revisar madurez actual del equipo, tooling disponible, fricciones de delivery percibidas y roadmap realista de 90 días para llegar a baseline DORA + SPACE confiable. Sin obligación.

Hablar con un consultor WhatsApp directo

Pablo Herrera · Founder & IT Headhunter

10+ anios en headhunting tech especializado. Founder de IT Workers, consultora B2B con rating 4.9/5 y 13 resenias verificadas. Experiencia trabajando con CTOs y VPs of Engineering en compañías de banca, fintech, retail, salud y mineria digital para evaluar madurez de procesos de delivery, instrumentación DORA y SPACE, y disenio de equipos de plataforma.

Perfil completo · LinkedIn
Escribir por WhatsApp