Una Scale-up SaaS B2B en plena expansión necesitaba sumar tres ingenieros senior en un trimestre. El proceso técnico parecía riguroso: un take-home assignment que pedía construir una API completa con autenticación, tests, documentación y despliegue en contenedores. En el papel sonaba exhaustivo. En la práctica, tomaba entre seis y ocho horas a un candidato senior. El resultado fue silencioso pero brutal: el 70% de los finalistas más fuertes abandonaba el proceso al ver el alcance, y los que terminaban la prueba no siempre eran los mejores, sino los que tenían tiempo libre un fin de semana.
Al otro lado del espectro, un Retail A con un área de tecnología en crecimiento usaba live coding tipo acertijo: el candidato resolvía problemas de algoritmos de competencia, en pizarra compartida, observado por dos personas, contra reloj. La empresa contrataba a quien resolvía rápido el acertijo. Meses después descubría que varios de esos perfiles, brillantes invirtiendo árboles binarios, no lograban diseñar una solución de fondo ni comunicarse con el equipo. La prueba premiaba una habilidad que el rol casi no usaba y filtraba justo a las personas competentes que rendían mal bajo observación.
Los dos casos comparten un mismo error de raíz: eligieron un formato de prueba técnica antes de definir qué competencia querían medir. Uno tenía una take-home tan grande que medía disponibilidad; el otro tenía un live coding tan abstracto que medía tolerancia a la ansiedad. Este reporte ordena la decisión: qué evalúa de verdad cada formato, cuándo conviene cada uno, qué errores invalidan una prueba y cómo diseñar un work sample que prediga el desempeño sin ahuyentar a los mejores candidatos.
1. Qué evalúa de verdad una prueba técnica (y qué no)
Antes de comparar formatos, conviene fijar un principio que decide todo lo demás: una prueba técnica predice el desempeño en la medida en que se parece al trabajo real del rol. Es la lógica del work sample, el predictor de desempeño con más respaldo en la literatura de selección. Cuanto más cercana es la prueba a lo que la persona hará en el puesto, mejor predice; cuanto más abstracta, peor. Un acertijo de algoritmos de competencia mide preparación para entrevistas, no capacidad de construir el producto.
El error más común es confundir lo que la prueba parece medir con lo que realmente mide. Una take-home enorme parece medir rigor, pero termina midiendo disponibilidad de tiempo. Un live coding bajo presión parece medir capacidad técnica, pero a menudo mide tolerancia a la ansiedad de rendimiento. Una entrevista de conversación fluida parece medir seniority, pero mide capacidad de hablar de arquitectura, que no es lo mismo que decidirla. Toda prueba mide algo; el trabajo del diseñador del proceso es asegurarse de que mida la competencia correcta.
Por eso la primera pregunta nunca es "¿take-home, live coding o system design?", sino "¿qué competencia es crítica para este rol?". La ejecución limpia de código, las decisiones de arquitectura, la depuración bajo incertidumbre, la comunicación con el equipo y el ownership son competencias distintas, y cada formato mide unas mejor que otras. Definir la competencia primero es exactamente el rol del scorecard: sin él, la prueba mide cualquier cosa y la decisión se vuelve subjetiva. Cómo construir esa base está en el scorecard de contratación tech con evaluación estructurada, que ordena el resto del proceso.
2. Take-home assignment: cuándo funciona y cuándo ahuyenta a los seniors
El take-home assignment es una prueba que el candidato resuelve por su cuenta, de forma asíncrona, en su propio entorno y a su propio ritmo. Es el formato que mejor refleja cómo trabaja realmente un ingeniero la mayor parte del tiempo: sin nadie mirando por encima del hombro, con tiempo para pensar, con acceso a documentación. Bien hecho, entrega una señal rica sobre la calidad del código, la estructura de la solución y las decisiones que la persona toma cuando nadie la observa.
Funciona especialmente bien para roles donde el trabajo es mayormente asíncrono y la calidad del entregable pesa más que la velocidad bajo presión: backend, data engineering, roles de plataforma. También favorece a candidatos que rinden mal observados pero entregan trabajo sólido, un grupo grande y valioso que el live coding penaliza injustamente. Y permite evaluar dimensiones que un live coding corto no alcanza a tocar: cobertura de tests, manejo de errores, claridad de la documentación, decisiones de diseño con consecuencias.
El problema del take-home no es el formato, es el alcance. Cuando la prueba pide construir un sistema completo que toma seis u ocho horas, deja de medir capacidad y empieza a medir disponibilidad. Los candidatos senior, que tienen ofertas abiertas y poco tiempo, simplemente abandonan, y el proceso se queda con quien tuvo un fin de semana libre. Una take-home respetuosa se acota a una a tres horas de trabajo efectivo, indica el tiempo esperado con honestidad y permite que la persona explique en una conversación posterior lo que no alcanzó a implementar. Esa conversación sobre el resultado suele dar tanta señal como el código mismo, y respeta el tiempo del candidato.
3. Live coding y pair programming: qué mide y sus trampas
El live coding y el pair programming evalúan al candidato en tiempo real: la persona resuelve un problema mientras conversa con uno o dos evaluadores. Su valor es único porque permite observar lo que ningún entregable muestra: cómo piensa en voz alta, cómo descompone un problema, qué pregunta antes de empezar, cómo reacciona cuando se le cambia un requisito a mitad de camino y cómo comunica su razonamiento. Para roles donde la colaboración estrecha es central, el pair programming entrega señal directa sobre cómo será trabajar con esa persona.
La trampa aparece cuando el live coding se convierte en un acertijo de algoritmos de competencia bajo presión. Ahí el formato deja de medir capacidad técnica y empieza a medir dos cosas indeseables: la tolerancia a la ansiedad de rendimiento y la cantidad de horas que la persona dedicó a practicar ese tipo de problemas. Un ingeniero senior excelente puede llevar años sin invertir un árbol binario de memoria, porque no es lo que hace su trabajo. Penalizarlo por eso produce una señal ruidosa y una experiencia de candidato pobre que aleja precisamente a los perfiles más buscados.
El live coding bien diseñado evita el acertijo y usa un problema realista y acotado, parecido a algo que la persona haría en el puesto: extender una función existente, depurar un bug en un fragmento de código real, modelar una pequeña parte del dominio. Permite buscar documentación, prioriza el razonamiento sobre la velocidad y trata la sesión como una colaboración, no como un examen. Conducido así, mide comunicación, pensamiento estructurado y capacidad de reacción, sin castigar a quien se pone nervioso resolviendo problemas artificiales. Para líderes que no programan, evaluar este tipo de señal sin caer en la trampa de la fluidez verbal es justamente el foco de cómo evaluar candidatos tech siendo no técnico.
4. System design: el formato que separa senior de semi-senior
La system design interview es una conversación estructurada en la que el candidato diseña la arquitectura de un sistema a partir de requisitos deliberadamente abiertos. No hay una única respuesta correcta: se evalúa cómo la persona acota el problema, qué preguntas hace antes de diseñar, qué componentes propone, cómo justifica los trade-offs, cómo dimensiona, qué fallas anticipa y qué prioriza cuando los recursos son limitados. Es el formato más cercano al trabajo real de un ingeniero senior, porque su día a día son decisiones de diseño con consecuencias, no algoritmos de competencia.
Es, además, el formato que mejor separa a un senior real de un semi-senior con seniority inflado. La razón es estructural: un semi-senior puede haber escrito mucho código bajo decisiones que tomaron otros, pero rara vez ha enfrentado la ambigüedad de diseñar un sistema desde cero. En una system design interview esa diferencia aparece rápido. El senior real navega la ambigüedad, expone supuestos, prioriza y defiende decisiones; el seniority inflado pide especificaciones cerradas, repite patrones que vio sin entender por qué, y se queda sin recursos cuando se le presiona un trade-off.
El formato tiene un límite claro: no tiene sentido para roles junior, donde la persona todavía no ha enfrentado decisiones de arquitectura reales y el ejercicio mide teoría memorizada en lugar de criterio. Para roles senior, staff, tech lead y arquitectura, en cambio, la system design interview es difícilmente reemplazable. Conviene conducirla con una rúbrica explícita —porque sin ella es muy fácil premiar al candidato que simplemente habla con confianza— y como parte de un panel, no como juicio de un solo evaluador. Distribuir esa evaluación entre varios criterios y personas es la lógica del hiring committee con cinco evaluadores, que evita que una sola conversación con buena química defina la contratación.
5. Tabla comparativa de los tres formatos
Cada formato tiene un perfil distinto de fortalezas, costos y riesgos. La siguiente tabla resume qué mide mejor cada uno, su impacto en la experiencia del candidato y su valor predictivo, para que la elección deje de ser por costumbre y pase a ser por diseño.
| Criterio | Take-home | Live coding | System design |
|---|---|---|---|
| Qué mide mejor | Calidad de código asíncrono | Razonamiento y comunicación | Decisiones de arquitectura |
| Nivel ideal | Junior a senior | Junior a semi-senior | Senior y liderazgo |
| Experiencia del candidato | Buena si está acotada | Riesgosa si es acertijo | Alta, conversacional |
| Riesgo principal | Alcance excesivo filtra por tiempo | Ansiedad de rendimiento | Premiar la confianza verbal |
| Valor predictivo | Alto si es work sample | Medio | Alto para roles senior |
Ningún formato gana en todo, y esa es la conclusión operativa: rara vez conviene usar uno solo. La combinación más sólida para la mayoría de los roles es un work sample corto y acotado para medir ejecución, seguido de una conversación sobre ese resultado y, para perfiles senior, una system design interview que evalúe el criterio de arquitectura. Cada pieza aporta una señal independiente, y juntas convierten la evaluación en una decisión defendible en lugar de una impresión.
6. Cómo elegir el formato según el rol y el nivel
La elección del formato no es cuestión de moda ni de copiar lo que hace otra empresa, sino de hacer coincidir el formato con la competencia crítica del rol y con el nivel del candidato. Una vez definida la competencia en el scorecard, la asignación se vuelve casi mecánica. Estos son los modelos de combinación más útiles según el tipo de rol.
Junior y trainee
Un work sample muy acotado o un live coding realista y de baja presión. El foco es la capacidad de aprender y la base técnica, no decisiones de arquitectura que aún no ha enfrentado. Evitar acertijos eliminatorios.
Semi-senior y ejecución
Take-home corta sobre un problema real más una conversación del resultado. Mide calidad de código, manejo de errores y tests. Un toque de system design liviano ayuda a ver si está listo para crecer.
Senior y staff
System design como pieza central, complementada con una revisión de código o un work sample breve. El criterio de arquitectura y la navegación de la ambigüedad son la competencia que separa a este nivel.
Dos reglas atraviesan todos los casos. Primero, el formato debe escalar con el nivel: pedir system design a un junior mide teoría memorizada, y pedir solo un algoritmo a un senior desperdicia la oportunidad de evaluar lo que realmente lo distingue. Segundo, la experiencia del candidato pesa en la decisión: para roles senior muy demandados, un proceso pesado o irrespetuoso del tiempo hace que los mejores abandonen antes de la oferta, un costo invisible que casi nadie suma.
7. Errores que invalidan una prueba técnica
Una prueba técnica mal diseñada no es neutral: produce una señal falsa que se siente objetiva y que lleva a contratar mal con confianza. Estos son los errores que invalidan una evaluación, sin importar qué formato se elija.
1. Evaluar sin rúbrica definida. Si los criterios no están escritos antes de ver el primer resultado, cada evaluador puntúa con su propio estándar y la prueba mide la opinión del entrevistador, no la capacidad del candidato. 2. Usar problemas que no representan el trabajo real. Los acertijos de algoritmos de competencia miden preparación para entrevistas y producen ruido en lugar de señal. 3. Pedir take-homes de muchas horas. Un alcance de seis u ocho horas filtra por disponibilidad y ahuyenta a los seniors, sesgando la muestra hacia quien tuvo tiempo, no hacia quien es mejor. 4. Dejar que un solo evaluador domine la decisión. La buena química de una sola conversación no debería pesar más que la evidencia distribuida de un panel. 5. No calibrar a los evaluadores. Sin una calibración previa sobre un caso de prueba, dos personas miran el mismo resultado y llegan a conclusiones opuestas, y la comparación entre candidatos deja de ser válida.
El hilo común de los cinco errores es que rompen la comparabilidad. Una buena evaluación permite poner a dos candidatos lado a lado bajo el mismo criterio y decidir con fundamento. Una mala evaluación produce puntuaciones que no se pueden comparar porque cada una se generó con una vara distinta. Por eso la rúbrica calibrada antes de evaluar no es burocracia: es lo que convierte un conjunto de opiniones en una decisión defendible, y lo que más baja el riesgo de una contratación fallida.
8. Cómo diseñar un work sample que prediga desempeño
El work sample es el formato con mayor valor predictivo porque su principio es directo: hacer que la persona haga, en pequeño, lo que hará en el puesto. Diseñar uno bien no requiere construir un sistema completo; requiere aislar la tarea más representativa del rol y convertirla en un ejercicio acotado y evaluable. El proceso ordenado en pasos evita los errores más comunes y produce una señal limpia.
Cómo diseñar un work sample que prediga el desempeño
- Definir la competencia con el scorecard. Antes de escribir la prueba, fijar qué se quiere medir: ejecución, arquitectura, depuración o comunicación. La prueba sigue a la competencia, nunca al revés.
- Aislar la tarea más representativa del rol. Elegir lo que la persona hará la mayor parte del tiempo: revisar un pull request, agregar una funcionalidad a un repositorio pequeño, depurar un caso real anonimizado.
- Acotar el alcance y el tiempo. Limitar el ejercicio a una a tres horas de trabajo efectivo e indicarlo con honestidad. Permitir explicar después lo que no se alcanzó a implementar.
- Calibrar la rúbrica antes de evaluar. Escribir los criterios y niveles, y alinear a los evaluadores sobre un caso de prueba para que todos apliquen el mismo estándar.
- Convertir el resultado en señal para el panel. Traducir lo que evidenció la prueba, lo que quedó en duda y cómo se compara con la rúbrica, de modo que alimente la decisión del comité.
Un buen work sample respeta el tiempo del candidato tanto como evalúa su capacidad, porque la experiencia de la prueba es parte del resultado: un proceso respetuoso retiene a los perfiles más buscados, y uno abusivo los expulsa antes de la oferta. La señal que entrega, además, no termina en una nota: alimenta el panel y se compara contra el resto de la muestra, lo mismo que validan después las reference checks tech con preguntas estructuradas, que confirman con ex managers y pares si el nivel demostrado en la prueba se sostiene en el trabajo real.
9. Cómo una buena prueba técnica baja el riesgo de mis-hire
Todo lo anterior converge en un único objetivo de negocio: reducir el riesgo de una contratación fallida. Una prueba técnica bien diseñada es una de las palancas más potentes para eso, porque ataca el momento exacto en que se cuela el error: la confusión entre quien sabe hablar de tecnología y quien sabe ejecutarla. Cuando la prueba se parece al trabajo real, se evalúa con rúbrica y alimenta un panel calibrado, el seniority inflado deja de pasar desapercibido y la decisión se vuelve defendible. El costo de equivocarse es alto y se desarrolla en detalle en el costo real de una mala contratación tech, que cuantifica lo que está en juego.
La mejor prueba técnica no es la más difícil, es la que más se parece al trabajo real del rol. Un acertijo de algoritmos mide preparación para entrevistas; un work sample mide lo que la persona hará el lunes. El error caro es confundir lo impresionante de la prueba con lo predictivo del resultado.
Pablo Herrera · Founder & IT Headhunter en IT WorkersAquí es donde un headhunter tech especializado suma valor concreto. El primer mecanismo es el vetting técnico previo: filtra a los candidatos antes de que lleguen al panel, de modo que el equipo invierte tiempo solo en perfiles que ya pasaron una evaluación de fondo. El segundo es la disciplina del proceso: scorecard antes de entrevistar, work sample calibrado contra el mercado real del rol y panel con evaluadores alineados, que es lo que convierte una corazonada en una decisión defendible. El tercero, y el que más alinea incentivos, es la garantía de 90 días de reemplazo: si la persona no funciona dentro de ese periodo, el headhunter busca un reemplazo sin costo adicional. La garantía de 90 días traslada parte del riesgo restante desde la empresa hacia el especialista, que entonces no cobra por colocar a alguien, sino por colocar a alguien que se queda y rinde. Para los roles donde el rango de mercado entra en la decisión, la guía salarial tech 2026 entrega los rangos de referencia, y el formulario de contacto abre la conversación para revisar un proceso de evaluación concreto.
10. FAQ: preguntas que recibimos sobre pruebas técnicas para candidatos tech
¿Qué prueba técnica predice mejor el desempeño de un candidato tech?
La prueba técnica que mejor predice el desempeño es la que más se parece al trabajo real del rol, es decir, un work sample. Para ejecución diaria de código, una muestra acotada que la persona resuelve y luego explica predice mejor que un acertijo de algoritmos. Para roles senior, una conversación de system design sobre un problema parecido al del puesto predice la capacidad de tomar decisiones de arquitectura. La regla práctica: cuanto más se aleja la prueba del trabajo real, peor predice. Un algoritmo de competencia mide preparación para entrevistas, no desempeño en el puesto.
¿Take-home assignment o live coding, cuál conviene?
Depende del rol y del seniority. El take-home assignment funciona bien para roles donde el trabajo es asíncrono y la calidad del código importa más que la velocidad: el candidato trabaja sin presión y se evalúa el resultado. El riesgo es ahuyentar a seniors si el alcance no está acotado a un par de horas. El live coding o pair programming funciona para evaluar cómo piensa la persona en tiempo real, cómo comunica y cómo reacciona ante un cambio de requisito, pero penaliza a quien rinde mal bajo observación y no representa el trabajo real. Lo ideal es combinar un work sample corto con una conversación sobre el resultado.
¿Cuánto tiempo debe durar una prueba técnica take-home?
Una take-home bien diseñada debería tomar entre una y tres horas de trabajo efectivo, nunca más. Las pruebas de seis a ocho horas filtran por disponibilidad y no por capacidad: los mejores candidatos senior, que tienen ofertas abiertas y poco tiempo, simplemente abandonan el proceso. Acotar el alcance, indicar el tiempo esperado con honestidad y permitir que la persona explique decisiones que no alcanzó a implementar entrega casi la misma señal con una fracción del costo para el candidato y respeta su tiempo.
¿Qué es una system design interview y para qué rol se usa?
Una system design interview es una conversación estructurada en la que el candidato diseña la arquitectura de un sistema a partir de requisitos abiertos: define componentes, justifica trade-offs, dimensiona, anticipa fallas y prioriza. Se usa principalmente para roles senior, staff, tech lead y arquitectura, porque es el formato que mejor separa a quien sabe ejecutar de quien además sabe decidir. No tiene sentido para roles junior, donde la persona aún no ha enfrentado decisiones de arquitectura reales.
¿Por qué el live coding tipo acertijo ahuyenta a los buenos candidatos?
El live coding tipo acertijo, con problemas de algoritmos de competencia bajo presión y observación, ahuyenta a buenos candidatos por dos razones. Primero, no representa el trabajo real: un ingeniero senior rara vez invierte un árbol binario de memoria en su día a día. Segundo, mide tolerancia a la ansiedad de rendimiento más que capacidad técnica, así que penaliza a personas competentes que rinden mal observadas y premia a quien estudió el formato. El resultado es una señal ruidosa y una experiencia de candidato pobre que aleja precisamente a los perfiles más buscados.
¿Cómo elegir el formato de prueba técnica según el rol?
La elección depende del nivel y de qué competencia es crítica. Para roles junior y semi-senior enfocados en ejecución, un work sample acotado o un live coding sobre un problema realista funcionan bien. Para roles senior y de liderazgo técnico, conviene una system design interview que evalúe decisiones de arquitectura, complementada con una conversación sobre código. Para roles donde la comunicación con el equipo es central, el pair programming aporta señal sobre colaboración. La regla: definir primero qué competencia se quiere medir con el scorecard y recién después elegir el formato que la mide mejor.
¿Qué errores invalidan una prueba técnica?
Los errores más frecuentes que invalidan una prueba técnica son: evaluar sin rúbrica definida, lo que vuelve la decisión subjetiva; usar problemas de algoritmos que no representan el trabajo real; pedir take-homes de muchas horas que filtran por disponibilidad y no por capacidad; dejar que un solo evaluador con buena química domine la decisión; y no calibrar a los evaluadores, de modo que cada uno aplica un estándar distinto. Una prueba sin rúbrica y sin calibración mide la opinión del entrevistador, no la capacidad del candidato.
¿Qué es un work sample y por qué predice mejor el desempeño?
Un work sample es una muestra de trabajo parecida a lo que la persona hará en el puesto: revisar un pull request, agregar una funcionalidad a un repositorio acotado, depurar un caso real anonimizado o diseñar la solución a un problema del dominio. Predice mejor el desempeño que un acertijo porque mide la misma habilidad que el rol requiere, en un contexto cercano al real. Cuanto mayor es el parecido entre la prueba y el trabajo, mejor es la predicción, mientras que las pruebas abstractas miden habilidades que no siempre se transfieren al puesto.
¿Se puede evaluar bien a un candidato tech sin ser técnico?
Un líder no técnico no debe evaluar la calidad del código directamente, pero sí puede diseñar y conducir un buen proceso: definir el scorecard con el equipo técnico, delegar la evaluación del work sample a evaluadores calibrados, y conducir las dimensiones que sí domina, como comunicación, ownership y motivación. La clave es separar lo que mide cada evaluador y exigir una rúbrica explícita. El error es que un líder no técnico intente juzgar profundidad técnica por su cuenta o se deje convencer por la fluidez verbal del candidato.
¿Cómo reduce un headhunter tech el riesgo de una mala evaluación?
Un headhunter tech especializado reduce el riesgo de una mala evaluación con vetting técnico previo que filtra antes de que el candidato llegue al panel, con referencias de fondo que validan el nivel real y con un proceso estructurado que disciplina la decisión del cliente: scorecard antes de entrevistar, work sample calibrado y panel con evaluadores alineados. Además, una buena prueba técnica baja el riesgo de mis-hire, y la garantía de 90 días de reemplazo traslada parte del riesgo restante desde la empresa hacia el especialista, alineando incentivos con el resultado.
¿Quieres rediseñar tu proceso de evaluación técnica?
Conversación estructurada de 20 minutos para revisar tu prueba técnica actual, qué competencia mide de verdad, dónde se cuela el riesgo de mis-hire y cómo cubrir un rol crítico con garantía de 90 días de reemplazo. Recomendación honesta, sin venta forzada.
Hablar con un consultor WhatsApp directo- — First Round Review: structured hiring & work sample tests, 2024
- — Harvard Business Review: what really predicts on-the-job performance, 2024
- — SHRM: selection assessments & work samples, 2024-2025
- — Google Ventures: hiring engineers with work sample tests, 2024
- — Stack Overflow Blog: take-home vs live coding interviews, 2024