Una scale-up de software con 90 personas y 24 ingenieros internos contrató a tres Senior Backend en un semestre. Seis meses después, dos no rendían al nivel esperado y uno había renunciado en el período de prueba. Al revisar qué había fallado, el patrón era claro: cada uno había sido entrevistado por personas distintas, con preguntas distintas, y la decisión final se había tomado en una reunión donde la frase que más se repitió fue "me dio buena espina". No existía registro de qué se había evaluado ni con qué criterio. Cuando el VP of Engineering pidió comparar a los tres procesos para entender el error, no había nada comparable: tres conversaciones de feeling, tres decisiones de feeling, dos contrataciones fallidas y el costo de reabrir una búsqueda.
El problema no era la falta de talento del equipo entrevistador. Era la ausencia de un instrumento. Un scorecard de contratación tech es ese instrumento: la traducción del rol en competencias evaluables, cada una con señales observables y una escala, definidas antes de mirar al primer candidato. No es un formulario para llenar por obligación ni una capa de burocracia sobre la entrevista. Es lo que convierte un conjunto de opiniones individuales en una decisión informada, comparable y defendible. Este reporte arma el marco completo: qué es un scorecard y por qué reemplaza la entrevista por intuición, cómo derivar las competencias desde el job description, por qué la escala debe tener cuatro niveles, cómo distribuir la evaluación entre etapas, cómo calibrar al panel, cómo combatir el sesgo y qué errores invalidan el sistema entero.
El público objetivo es CTO, VP Engineering, Engineering Manager, hiring manager y Head of People. Sin venta. Más de tres mil trescientas palabras escritas con la regla de recomendar lo que mejora la decisión, no lo que conviene al autor.
1. Qué es un scorecard de contratación y por qué reemplaza la entrevista por feeling
Un scorecard de contratación es un documento corto, idealmente de una página por rol, que responde tres preguntas antes de que comience el proceso: qué competencias vamos a evaluar, qué evidencia observable cuenta como demostración de cada una, y con qué escala vamos a puntuar. Cada candidato se evalúa contra el mismo scorecard, y cada evaluador registra su nota y la evidencia que la sustenta. El resultado es que las decisiones de contratación dejan de depender de quién entrevistó, de qué día fue o de qué tan parecido al evaluador resultó el candidato.
La entrevista por intuición tiene un problema estructural que no se resuelve con más experiencia del entrevistador. La intuición integra señal real y sesgo en un solo juicio indistinguible: el evaluador siente que el candidato "es bueno" sin poder separar cuánto de esa sensación viene del desempeño demostrado y cuánto viene de afinidad personal, similitud de trayectoria, seguridad al hablar o simple simpatía. El scorecard no le quita criterio al equipo; le exige que lo descomponga en dimensiones explícitas y lo sustente con evidencia. La diferencia entre "me pareció sólido" y "demostró diseñar un sistema con manejo de fallos parciales y explicó los trade-offs de consistencia, nivel supera" es la diferencia entre una corazonada y una evaluación.
Qué resuelve y qué no resuelve un scorecard
Un scorecard resuelve la comparabilidad entre candidatos, la consistencia entre evaluadores, la trazabilidad de la decisión y la posibilidad de aprender del proceso cuando una contratación sale bien o mal. No resuelve la calidad de las preguntas que hace el entrevistador, la habilidad para crear un ambiente donde el candidato muestre lo mejor de sí, ni la decisión de qué competencias importan en el rol. El scorecard es tan bueno como las competencias que contiene y la disciplina con que se completa. Un scorecard con competencias mal elegidas estructura una mala decisión con apariencia de rigor; ese riesgo se controla en el paso de diseño, no en el de operación.
La señal clave: si tu equipo no puede explicar, antes de entrevistar, qué tres a cinco cosas concretas haría diferente un candidato excelente frente a uno mediocre en este rol, entonces no tiene un scorecard: tiene una conversación con la esperanza de reconocer al bueno cuando aparezca. Esa esperanza es exactamente donde entra el sesgo.
2. Anatomía de un scorecard tech: competencias, señales y escala
Un scorecard tiene tres componentes y un cuarto elemento de operación. Los tres componentes son las competencias, las señales observables y la escala. El cuarto elemento es el mapa que asigna cada competencia a una etapa del proceso. Conviene entenderlos por separado antes de armarlos juntos.
Las competencias son las dimensiones del desempeño que el rol exige. No son rasgos de personalidad ("proactivo", "apasionado") sino capacidades demostrables. Las señales observables son la evidencia concreta de cada competencia: qué dice o hace, durante el proceso, alguien que la posee, y qué constituye una alerta. La escala es el rango de puntuación con descriptores de qué evidencia corresponde a cada nivel. El mapa por etapa distribuye las competencias para que cada entrevista evalúe un subconjunto y el conjunto completo quede cubierto sin redundancia.
| Componente | Ejemplo (competencia: diseño de sistemas) |
|---|---|
| Competencia | Capacidad de diseñar un sistema backend con requisitos de disponibilidad, consistencia y escala, razonando trade-offs de forma autónoma. |
| Señal positiva | Aclara requisitos antes de diseñar; propone una arquitectura y explica por qué; identifica cuellos de botella; razona consistencia frente a disponibilidad; reconoce los límites de su diseño. |
| Red flag | Salta a la solución sin entender el problema; recita patrones sin justificar; no considera fallos parciales; no admite trade-offs ni límites de su propuesta. |
| Etapa donde se evalúa | Entrevista de diseño de sistemas (no en el screening ni en la comportamental). |
El error más común al armar la anatomía es escribir competencias que en realidad son rasgos ("buena actitud", "encaja con la cultura") sin definir qué evidencia observable cuenta. Una competencia que no se puede observar no se puede evaluar de forma consistente y termina siendo el canal por donde entra el sesgo. La regla práctica: si no puedes escribir tres señales observables concretas para una competencia, esa competencia todavía no está lista para el scorecard.
3. Cómo derivar las competencias desde el job description y el career ladder
Las competencias no se inventan en una lluvia de ideas; se derivan de dos fuentes que la empresa ya debería tener: el job description del rol y el career ladder de ingeniería. El job description define qué hace la persona en el puesto y el career ladder define qué se espera en cada nivel. El scorecard es la intersección operativa de ambos, traducida en criterios de evaluación.
El procedimiento es directo. Se toman las responsabilidades centrales del job description y se pregunta, por cada una, qué capacidad subyacente la hace posible. Si el rol "lidera el diseño técnico de su dominio", la competencia es diseño de sistemas al nivel de autonomía que pide el ladder para ese cargo. Si el rol "mentora a ingenieros más junior", la competencia es comunicación técnica y capacidad de elevar a otros. Luego se contrasta con el nivel del career ladder para fijar el listón: el mismo nombre de competencia tiene un listón distinto para un Mid que para un Staff. Una guía detallada de cómo estructurar esos niveles está en career ladder de ingeniería: cómo estructurar niveles tech, y la base del documento de origen está en job description tech que cierra senior.
Cuántas competencias y cuáles priorizar
Un scorecard efectivo tiene entre cuatro y siete competencias. La tentación de listar todo lo deseable produce scorecards de doce dimensiones que nadie evalúa con profundidad. La disciplina consiste en priorizar las competencias que más diferencian el desempeño real en el rol específico, no las que suenan bien en abstracto. Para la mayoría de los roles de ingeniería, el conjunto base es: dominio técnico del stack, resolución de problemas o diseño de sistemas según seniority, calidad de código y criterio de ingeniería, colaboración y comunicación, y ownership o autonomía. Para roles de liderazgo técnico se agregan gestión de personas y visión técnica. El resto suele ser ruido o subcomponente de los anteriores.
4. La escala de evaluación: por qué cuatro niveles y no cinco ni diez
La escala es la decisión técnica más subestimada del scorecard, y la que más afecta la calidad de los datos. La recomendación es una escala par de cuatro niveles, con descriptores explícitos de qué evidencia corresponde a cada uno. La razón de que sea par es psicológica y está bien documentada: las escalas impares concentran las respuestas en el punto medio, un fenómeno conocido como sesgo de tendencia central, donde el evaluador inseguro se refugia en el "neutro" y produce muchos candidatos calificados como término medio que no permiten decidir. Una escala par obliga a inclinarse hacia el lado positivo o negativo.
| Nivel | Etiqueta | Qué evidencia corresponde |
|---|---|---|
| 1 | No cumple | La evidencia muestra ausencia de la competencia al nivel que el rol exige. Hay red flags claros. |
| 2 | Cumple parcialmente | Muestra la competencia de forma irregular o por debajo del nivel del rol. Tiene base pero requiere desarrollo. |
| 3 | Cumple | Demuestra la competencia al nivel que el rol exige, con señales positivas claras y sin red flags relevantes. |
| 4 | Supera | Demuestra la competencia por encima del nivel del rol; aportaría además elevando a otros en esa dimensión. |
El argumento contra escalas de diez niveles es distinto: dan una falsa sensación de precisión. Nadie puede distinguir de forma confiable entre un siete y un ocho en una competencia cualitativa, y esa granularidad falsa introduce ruido que se ve como dato. Cuatro niveles, con descriptores claros, es el equilibrio entre forzar una decisión y mantener consistencia entre evaluadores. Lo crítico no es el número de niveles, sino que cada nivel tenga un descriptor observable: una escala de cuatro niveles sin descriptores es tan subjetiva como el feeling que pretende reemplazar.
5. Scorecard por etapa: distribuir la evaluación en el proceso
Un error frecuente es evaluar todas las competencias en todas las entrevistas. Produce redundancia (tres personas evalúan lo mismo y nadie evalúa lo otro), agota al candidato y diluye la profundidad. La práctica correcta es mapear cada competencia a la etapa donde mejor se observa, de modo que cada entrevista tenga un foco claro y el conjunto del proceso cubra todas las competencias del scorecard.
| Etapa | Quién evalúa | Competencias en foco |
|---|---|---|
| Screening inicial | Recruiter / TA | Encaje básico con requisitos, motivación, comunicación inicial, expectativas. |
| Entrevista técnica | Ingeniero par o senior | Dominio técnico del stack, calidad de código y criterio de ingeniería. |
| Diseño de sistemas | Staff / Tech Lead | Diseño de sistemas, razonamiento de trade-offs, manejo de ambigüedad. |
| Entrevista de comportamiento | Engineering Manager | Colaboración, comunicación, ownership, manejo de conflicto y feedback. |
| Cierre / panel | Hiring manager | Integración de evidencia, motivación de largo plazo, encaje con el equipo. |
El mapa por etapa tiene un beneficio adicional: hace explícito el costo del proceso. Si el scorecard exige cinco etapas para cada candidato, el equipo debe decidir conscientemente si ese rol amerita esa profundidad o si para un perfil más junior bastan tres. La estructura por etapa también conecta con la disciplina del comité de evaluación: cómo se reúne el panel, en qué orden se exponen las notas y quién toma la decisión final se trata en detalle en hiring committee tech: 5 evaluadores sin demorar el proceso.
El feeling no es un método. Cuando una empresa decide contratar por sensación, lo que realmente hace es delegar la decisión al sesgo del evaluador más seguro de sí mismo. Un scorecard no le quita criterio al equipo: le exige que escriba ese criterio antes de mirar al candidato.
Pablo Herrera · Founder & IT Headhunter, IT Workers6. Calibración del panel: que todos puntúen con la misma vara
Un scorecard sin calibración produce datos con apariencia de objetividad pero sin consistencia real. La calibración es el proceso de alinear a todos los evaluadores sobre qué significa cada nivel de la escala antes de evaluar candidatos reales. Sin ella, un mismo candidato recibe un nivel cumple de un evaluador exigente y un supera de uno generoso, y la diferencia no refleja desempeño sino el estándar interno de cada persona.
La calibración se construye de tres maneras complementarias. La primera es documental: escribir descriptores observables por nivel para cada competencia, de modo que la vara esté en el papel y no en la cabeza de cada evaluador. La segunda es práctica: hacer una sesión donde el panel puntúa un caso común (una grabación, una transcripción anonimizada o un caso ficticio) y discute las diferencias hasta converger. La tercera es estadística: revisar periódicamente la distribución de notas de cada evaluador para detectar a quienes puntúan sistemáticamente más alto o más bajo que el promedio, y recalibrar.
El momento de completar el scorecard también es parte de la calibración
Dos reglas operativas protegen la calidad de los datos. Primera: cada evaluador completa su parte inmediatamente después de su entrevista, mientras la evidencia está fresca; la memoria a las 48 horas reconstruye una versión editada. Segunda: cada evaluador registra su nota y su evidencia antes de hablar con el resto del panel; si la primera opinión expresada en voz alta arrastra al resto, el proceso sufre anclaje grupal y las evaluaciones dejan de ser independientes. La reunión de decisión se hace después, con todas las notas ya registradas, y su rol es discutir las diferencias, no recolectar opiniones por primera vez.
7. Cómo un scorecard combate el sesgo en la contratación tech
El sesgo en contratación no se elimina con buenas intenciones; se reduce con estructura. Un scorecard ataca cuatro sesgos concretos por diseño. Contra el sesgo de confirmación, definir las competencias antes de ver candidatos evita que el equipo invente criterios después para justificar a quien ya le gustó. Contra el sesgo de afinidad, exigir señales observables como evidencia frena evaluaciones basadas en similitud con el evaluador o impresión general. Contra el efecto halo, puntuar competencia por competencia evita que una fortaleza visible contamine la percepción de todas las demás dimensiones. Contra el anclaje grupal, registrar nota y evidencia antes de la reunión preserva la independencia de cada juicio.
Importa ser honesto sobre el alcance: un scorecard no elimina el sesgo, lo hace visible y discutible, que es la condición para corregirlo. Un panel que puntúa con scorecard puede seguir teniendo sesgos, pero ahora quedan registrados en la diferencia entre evaluaciones y pueden auditarse. La empresa que se toma en serio la equidad en contratación combina el scorecard con preguntas estandarizadas por competencia, paneles diversos y revisión periódica de resultados por grupo. El scorecard es el cimiento sobre el que esas otras prácticas se sostienen; sin él, son gestos sin instrumento.
8. Errores que invalidan un scorecard
Error 1: competencias que son rasgos de personalidad
"Buena actitud", "pasión", "encaje cultural" sin definición observable. No se pueden evaluar de forma consistente y se convierten en el canal por donde entra el sesgo. Cada competencia debe tener tres señales observables o no entra al scorecard.
Error 2: escala impar sin descriptores
Una escala de uno a cinco donde todos terminan en tres, o una escala de cuatro niveles sin descriptor de qué evidencia corresponde a cada uno. La escala sin descriptores es tan subjetiva como el feeling que pretende reemplazar.
Error 3: promediar las notas y contratar al de mayor puntaje
Sumar competencias trata a todas como igualmente importantes y oculta señales críticas. La práctica correcta es definir, antes del proceso, qué competencias son no negociables (un no cumple descarta) y cuáles admiten compensación. La decisión integra el patrón completo, no un promedio aritmético.
Error 4: completar el scorecard como trámite
Poner el número sin la evidencia, o llenarlo días después por obligación. Un scorecard sin evidencia registrada es papeleo; su valor está justamente en la evidencia que sostiene cada nota y que permite discutir y aprender.
Error 5: el mismo listón para todos los niveles de seniority
Usar el scorecard de Senior para evaluar a un Junior, o viceversa. Las competencias pueden mantenerse, pero el listón de cada nivel de la escala debe anclarse al career ladder. Sin ese ajuste, se rechazan Juniors por no demostrar lo que aún no deberían tener, o se aprueban Seniors que solo alcanzan el nivel de un Mid.
9. FAQ: preguntas frecuentes de CTOs y Heads of People
¿Qué es un scorecard de contratación tech y para qué sirve?
Un scorecard de contratación tech es la herramienta estructurada que define, antes de entrevistar, qué competencias se van a evaluar, qué señales observables cuentan como evidencia de cada competencia y con qué escala se va a puntuar. Sirve para reemplazar la entrevista basada en intuición por una evaluación comparable entre candidatos y entre evaluadores. Obliga al equipo a acordar qué se busca antes de mirar el primer CV, distribuye las competencias entre las etapas del proceso para no evaluar todo en todas, y produce evidencia escrita que sostiene la decisión final. Su beneficio no es burocrático: sube la calidad de las decisiones y reduce la varianza entre evaluadores.
¿Qué diferencia hay entre un scorecard y un job description?
El job description describe el rol hacia afuera: responsabilidades, contexto, stack y propuesta de valor para atraer al candidato. El scorecard traduce ese rol hacia adentro en criterios de evaluación: toma las responsabilidades y las convierte en competencias medibles, cada una con señales observables y una escala. El job description responde qué hace la persona; el scorecard responde cómo sabremos, durante el proceso, si esta persona puede hacerlo. Ambos deben ser consistentes: si el job description pide liderazgo técnico pero el scorecard no lo evalúa, el proceso no medirá lo que el rol necesita.
¿Cuántas competencias debe tener un scorecard tech?
Entre cuatro y siete. Menos de cuatro suele dejar fuera dimensiones críticas; más de siete diluye la atención del panel y produce evaluaciones superficiales. Las competencias típicas de ingeniería son: dominio técnico del stack, diseño de sistemas o resolución de problemas según seniority, calidad de código y criterio de ingeniería, colaboración y comunicación, y ownership o autonomía. Para roles de liderazgo se agregan gestión de personas y visión técnica. La regla es priorizar las competencias que más diferencian el desempeño en el rol específico, no listar todo lo deseable.
¿Por qué una escala de cuatro niveles y no de cinco o diez?
Una escala par de cuatro niveles obliga al evaluador a inclinarse hacia un lado en lugar de refugiarse en el punto medio. Las escalas impares concentran respuestas en el centro (sesgo de tendencia central) y producen muchos candidatos calificados como término medio que no permiten decidir. Las escalas de diez niveles dan una falsa precisión: nadie distingue de forma confiable un siete de un ocho en una competencia cualitativa, y esa granularidad falsa introduce ruido. Cuatro niveles con descriptores claros es el equilibrio entre forzar la decisión y mantener consistencia.
¿Qué es la calibración del panel y por qué importa?
Es el proceso de alinear a todos los evaluadores sobre qué significa cada nivel de la escala antes de evaluar candidatos reales. Importa porque sin calibración un mismo candidato recibe notas muy distintas según quién lo entreviste, no por diferencias reales de desempeño sino por estándares internos distintos. Se logra documentando descriptores observables por nivel, haciendo sesiones donde el panel puntúa un caso común y discute diferencias, y revisando la distribución de notas de cada evaluador para detectar derivas. Un panel calibrado convierte el scorecard en herramienta confiable; uno sin calibrar produce datos con apariencia de objetividad pero sin consistencia.
¿Cómo ayuda un scorecard a reducir el sesgo?
De cuatro formas concretas. Definir competencias antes de ver candidatos evita inventar criterios para justificar a quien ya gustó (sesgo de confirmación). Exigir señales observables frena evaluaciones por afinidad o similitud con el evaluador. Puntuar competencia por competencia evita el efecto halo, donde una fortaleza contamina todas las dimensiones. Registrar nota y evidencia antes de la reunión evita el anclaje grupal. El scorecard no elimina el sesgo, pero lo hace visible y discutible, que es la condición para corregirlo.
¿Se debe usar el mismo scorecard para todos los niveles de seniority?
No. Las competencias pueden mantenerse, pero las señales observables y el listón de cada nivel de la escala deben ajustarse al seniority y anclarse al career ladder. Para un Junior, diseño de sistemas evalúa comprensión básica y capacidad de aprender; para un Senior, diseño autónomo; para un Staff, diseño complejo de impacto transversal. Usar el mismo listón rechaza Juniors por no demostrar lo que aún no deberían tener, o aprueba Seniors que solo alcanzan el nivel de un Mid.
¿Quién completa el scorecard y en qué momento?
Cada evaluador completa la parte que le corresponde inmediatamente después de su entrevista y antes de conversar con el resto del panel. En caliente, para que la memoria no distorsione la evidencia; antes de hablar con otros, para evitar el anclaje grupal. Cada entrada incluye la nota por competencia y la evidencia concreta que la sustenta, no solo el número. La reunión de decisión se hace después, con todas las evaluaciones registradas, para discutir diferencias y llegar a una recomendación.
¿Un scorecard hace el proceso más lento y burocrático?
Bien diseñado, lo hace más rápido. La inversión está al inicio, en definir competencias y señales una vez por rol. Después cada evaluación es más rápida porque el evaluador sabe qué buscar; las reuniones se acortan porque se discute evidencia registrada; y el proceso completo se acelera porque se toman menos decisiones erróneas que obligan a reabrir búsquedas. La burocracia aparece solo con demasiadas competencias, escalas confusas o llenado por obligación. Un scorecard de una página con cuatro a seis competencias claras agrega velocidad y calidad a la vez.
¿Cómo se combina el scorecard con la decisión final?
El scorecard alimenta la decisión, pero no la automatiza con un promedio. Sumar notas y contratar al de mayor puntaje trata todas las competencias como iguales y oculta señales críticas. La práctica recomendada es definir, antes del proceso, qué competencias son no negociables (un no cumple descarta) y cuáles admiten compensación. La decisión integra el patrón completo de notas y evidencia: un candidato sólido en lo no negociable con un área de desarrollo conocida puede ser mejor contratación que uno parejo sin fortalezas claras. El scorecard estructura y documenta; la decisión sigue siendo un juicio informado del hiring manager y el panel.
¿Quieres estructurar el proceso de evaluación tech de tu empresa?
Conversación de 20 minutos para diagnosticar tu proceso actual, definir competencias por rol y diseñar un scorecard que tu equipo realmente use. Recomendación honesta sin venta forzada.
Hablar con un consultor WhatsApp directo- — Google Ventures: structured interviewing & scorecards, 2023-2024
- — Google re:Work: hiring & structured interviews, 2023-2024
- — First Round Review: hiring frameworks, 2024
- — Investigación sobre entrevista estructurada y validez predictiva, 2023-2024