Son las 03:14 de la madrugada. La API de pagos dejo de responder hace 12 minutos. El dashboard de Datadog parece un arbol de navidad. El canal de Slack #incidents tiene 40 mensajes sin leer. El CTO esta despierto. El CEO ya se entero. Y en el equipo on-call, dos ingenieros de backend estan tratando de entender si el problema es el cluster de Kubernetes, la base de datos, o el deploy que se hizo a las 18:00. Cada minuto que pasa, se pierden transacciones reales. La perdida estimada por hora supera los USD 40.000.
Ese escenario, o alguna version suya, es el dolor silencioso de muchas empresas tech en Chile en 2026. No es falta de talento de desarrollo. Es falta de un rol especifico: el Site Reliability Engineer (SRE). El profesional cuya unica mision es que el sistema no se caiga, y si se cae, que vuelva rapido.
Esta guia es para CTOs, Heads of Engineering y fundadores que ya entendieron que necesitan un SRE, pero no tienen claro como contratarlo en Chile. Los rangos salariales son reales, basados en decenas de procesos cerrados por IT Workers en los ultimos 18 meses. El mercado IT Chile 2026 esta especialmente tenso para este rol: pool reducido, competencia directa con ofertas en USD, y un 80% de talento pasivo que no responde a avisos.
Que hace un SRE vs un DevOps (la confusion que cuesta caro)
El error mas comun que vemos al iniciar procesos es confundir los dos perfiles. Muchos CTOs dicen "necesito un DevOps" cuando lo que realmente estan pidiendo es un SRE, y viceversa. Son perfiles complementarios con overlap, pero con focos distintos. Contratar uno pensando que hace lo del otro es la receta para frustacion mutua a los 6 meses.
Que hace: Define y mide SLIs, SLOs y SLAs. Gestiona error budgets. Disena sistemas tolerantes a fallas. Lidera incident response y post-mortems. Reduce el MTTR (Mean Time To Recovery). Implementa observabilidad avanzada con Prometheus, Grafana, Datadog o New Relic. Hace chaos engineering. Dimensiona capacity planning para picks de trafico.
No hace: No desarrolla features del producto. No es el que configura el Wi-Fi de la oficina. No es soporte interno. Tampoco reemplaza al equipo de desarrollo escribiendo su codigo.
Diferencia con DevOps: El DevOps Engineer automatiza la entrega de software (pipelines, IaC, contenedores). El SRE gestiona lo que pasa DESPUES del deploy: que el sistema se mantenga vivo, rapido y confiable bajo carga real. Un DevOps piensa en "cuanto tarda un release". Un SRE piensa en "cuantos nueves tiene mi uptime".
Regla simple para no equivocarse
Si la pregunta principal del equipo es "como hacemos deploys mas rapido y sin errores", se necesita un DevOps Engineer. Si la pregunta principal es "como evitamos que el sistema se caiga y como respondemos mejor cuando se cae", se necesita un SRE. En startups con equipos de plataforma pequenos, una misma persona cubre ambos roles; en scale-ups y corporaciones, son cargos separados y complementarios.
Dato de terreno: segun procesos cerrados por IT Workers en 2025, el 58% de las empresas que abren un cargo como "DevOps Engineer" en realidad estan describiendo responsabilidades de SRE. Eso explica por que muchos procesos se demoran: el perfil esta mal definido desde el briefing.
Cuanto cuesta un SRE en Chile 2026 (rangos de renta brutos)
Los rangos siguientes son rentas brutas mensuales en CLP, basadas en datos internos de IT Workers cruzados con Glassdoor, Levels.fyi y cierres reales durante 2025-2026. Las bandas varian segun el dominio (fintech y banca pagan un premium), el nivel de escala del sistema gestionado, y si se exige on-call 24/7 o turnos humanos.
| Seniority | Renta mensual bruta CLP | Anos experiencia | Alcance tipico |
|---|---|---|---|
| Junior | $2.200.000 -- $2.800.000 | 1--2 anos | Apoyo a on-call, dashboards, runbooks |
| Semi Senior | $3.200.000 -- $4.200.000 | 2--4 anos | On-call primario, definicion de SLOs |
| Senior | $4.500.000 -- $6.500.000 | 4--7 anos | Arquitectura de confiabilidad, liderazgo en incidentes |
| Staff / Principal | $7.000.000 -- $9.000.000+ | 7+ anos | Estrategia SRE a nivel organizacion, multi-equipo |
Rentas SRE por seniority (CLP bruto mensual)
Los factores que mueven la renta dentro de cada banda son: experiencia con Kubernetes a escala real (clusters con 50+ nodos y multiples equipos), dominio de observabilidad avanzada (no solo configurar Datadog, sino disenar la estrategia), experiencia liderando incidentes de alto impacto, y conocimiento de sistemas distribuidos. Un SRE senior en fintech con experiencia en latencia sub-100ms y SLOs de 99.95% esta en el extremo alto del rango; uno con experiencia similar pero en retail tradicional, en el medio.
Sueldo SRE Senior: Chile CLP vs remoto USD (equivalente mensual)
La brecha con ofertas remotas en USD es real y esta creciendo. Un SRE Senior en Chile que recibe ofertas de empresas de EEUU puede negociar entre USD $80.000 y USD $140.000 anuales (equivalentes entre $6.3M y $11M mensuales CLP al tipo de cambio actual). Competir solo con renta es perder. Las empresas chilenas que estan ganando esta guerra lo hacen ofreciendo stack moderno, autonomia real, on-call humano (no 24/7 sin rotacion), impacto visible en el negocio y estabilidad en CLP sin riesgo cambiario.
Stack y skills que debe dominar un SRE
El stack SRE en Chile 2026 se estandarizo bastante en los ultimos dos anos. Las empresas que siguen pidiendo "experiencia en Nagios" o "scripting en Bash para monitoreo" estan mirando el perfil de hace una decada. El SRE moderno trabaja con un conjunto de herramientas bastante consistente.
Stack tecnico nucleo
- Orquestacion: Kubernetes en produccion (no solo tutoriales). Helm charts, operators, service mesh (Istio o Linkerd), autoscaling basado en metricas custom
- Observabilidad: Prometheus + Grafana como base open-source. Datadog o New Relic como suite comercial. OpenTelemetry para tracing distribuido. Loki o Elasticsearch para logs centralizados
- Infraestructura como codigo: Terraform es el estandar de facto. Pulumi en algunas empresas mas modernas. Crossplane en equipos SRE avanzados
- Cloud: AWS domina en Chile (70%+ de los casos), seguido por GCP (fintech, scale-ups nuevas) y Azure (corporaciones tradicionales)
- Lenguajes: Go es la lingua franca del mundo SRE (operators, tooling, control planes). Python como segundo obligatorio. Bash para pegamento
- Incident management: PagerDuty u Opsgenie. Statuspage para comunicacion externa. Runbooks en Confluence o Notion. Post-mortems estructurados
Skills conceptuales que marcan la diferencia
- SLI / SLO / SLA: saber definir Service Level Indicators medibles, Service Level Objectives realistas, y Service Level Agreements contractuales. No es teoria de Google Book, es vocabulario diario
- Error budgets: entender que el error budget es politica, no solo numero. Gestionar la tension entre velocidad de entrega y confiabilidad
- Sistemas distribuidos: CAP theorem, consistencia eventual, failure modes, idempotencia, circuit breakers, backpressure
- Chaos engineering: experimentos controlados con herramientas como Chaos Mesh o Gremlin. Pensar en fallas antes de que ocurran
- Capacity planning: dimensionar recursos para picks predecibles (CyberDay, Black Friday, campanas) sin sobredimensionar 365 dias al ano
- Post-mortems blameless: liderar el analisis de incidentes sin cultura de culpabilidad. Convertir cada caida en aprendizaje sistemico
Red flag en entrevistas: si un candidato describe un incidente grave y en la narrativa predomina "fue culpa de X persona del equipo de desarrollo", no es un perfil SRE maduro. Un SRE senior describe incidentes en terminos de sistemas, procesos y gaps de observabilidad, no de personas.
Empresas chilenas que contratan SRE (y compiten por el mismo pool)
El pool de SREs en Chile es pequeno, y unas 40-50 empresas compiten activamente por el. Conocer a la competencia ayuda a dimensionar la propuesta de valor. Estas son las empresas con equipos SRE mas visibles en 2026:
- Cornershop by Uber: uno de los equipos SRE mas maduros del pais. Referente tecnico. Pagan en el extremo alto
- Mach (BCI): fintech con crecimiento explosivo. Equipo SRE consolidado post-escalamiento 2023-2025
- Falabella Tech: transformacion digital a escala. Multiples verticales con SREs dedicados por unidad de negocio
- Cencosud Hub Tech: creacion del hub 2024 trajo contrataciones masivas de SREs senior
- NotCo: foodtech con componente fuerte de IA. Infra global con SREs distribuidos
- Betterfly: plataforma wellness con usuarios en varios paises. SLOs criticos en flujos de seguros
- Fintual: fintech. Equipo SRE enfocado en compliance financiero y trazabilidad
- Xepelin: scale-up fintech con expansion regional. Contratando en Chile y Mexico
- Buk: HR tech con clientes en seis paises. SREs con foco en multi-tenancy
- Bancos y retailers tradicionales: Banco de Chile, Santander, BCI, Ripley, Paris crean equipos SRE en sus unidades digitales
- Empresas extranjeras con hub en Santiago: MercadoLibre, Globant, Rappi, Wildlife Studios. Atractivas por stack global y escala
Todas estas empresas estan mirando al mismo pool. Si la empresa del lector no esta en esta lista, significa que al momento de contratar, esta compitiendo no solo con "alguien mas del mercado", sino con estas marcas especificas. Eso cambia la propuesta de valor que hay que construir.
Por que es tan dificil encontrar SREs en Chile
Hay tres razones estructurales por las que contratar un SRE en Chile no es como contratar cualquier otro perfil de ingenieria. Entenderlas ahorra meses de procesos fallidos.
Pool reducido: ~500 SREs reales en el pais
Segun nuestra base de datos cruzada con LinkedIn, en Chile hay alrededor de 500 profesionales con titulo o rol activo de Site Reliability Engineer. Para comparar, hay mas de 15.000 desarrolladores backend. El SRE es un rol especializado que requiere varios anos de experiencia previa (casi siempre en backend, DevOps o infraestructura), y pocas empresas en Chile han creado rutas de carrera claras hacia este perfil.
80% del talento es pasivo
De esos 500, menos del 20% esta activamente mirando el mercado en un momento dado. El resto esta trabajando, contento con su stack, y no responde a mensajes de reclutadores genericos. Los portales de reclutamiento tradicionales (Laborum, Trabajando) son casi inutiles para este perfil. LinkedIn Jobs captura algo, pero el hunting directo con headhunter especializado es la unica via confiable para acceder al 80% pasivo.
Competencia con ofertas remotas en USD
Un SRE Senior en Chile con 5 anos de experiencia puede estar recibiendo, sin moverse de su escritorio en Nunoa, ofertas de Stripe, Cloudflare, Datadog, Databricks, Shopify o startups Serie B en San Francisco. Los rangos en USD son entre 1.5x y 2x lo que ofrece el mercado chileno promedio. La empresa local que no construye una propuesta de valor mas alla del sueldo pierde sistematicamente.
La buena noticia: muchos SREs senior eligen quedarse en empresas chilenas por razones que no son solo dinero: impacto visible en el negocio local, trabajar con equipos presencialmente, estabilidad cambiaria, autonomia tecnica real, y no tener que lidiar con husos horarios de EEUU. Si la empresa sabe leer eso, compite.
Preguntas de entrevista para SRE (tecnicas + comportamiento)
Evaluar a un SRE con trivias de Linux o ejercicios de LeetCode no filtra nada relevante. El SRE se evalua con problemas de sistemas reales, discusion de arquitectura, y preguntas de comportamiento ante incidentes. Estas son 10 preguntas que usamos en procesos reales y que diferencian a un candidato senior real de uno que memorizo el SRE Book de Google.
Tu sistema tiene un SLO de 99.9% de disponibilidad medido en requests exitosos. El mes pasado tuviste un incidente de 45 minutos. Calcula si consumiste el error budget mensual, y explica que decisiones tomarias como SRE si estas cerca del limite.
Un endpoint critico paso de 150ms de latencia p95 a 900ms sin alertas disparadas. Como investigarias? Describe el flujo desde metricas a logs a traces distribuidos.
Tienes un pod que entra en CrashLoopBackOff esporadicamente, sin error claro en los logs de la aplicacion. Describe tu checklist de debugging en orden de prioridad.
Diseniaste un sistema que recibe 10.000 requests por segundo en un pick de trafico esperado (CyberDay). Como te aseguras de que no se caiga, y como pruebas esa resiliencia antes del evento real?
Un microservicio A llama a B que llama a C. B esta degradado y responde con 5 segundos de latencia en el 30% de sus requests. Como proteges a A para que no colapse? Menciona patrones concretos.
Describe el incidente de produccion mas grave que hayas gestionado. Que rol tuviste, cuanto duro, como se resolvio, y que cambio estructuralmente despues del post-mortem.
Tu error budget se agoto y defines freeze de features por 2 semanas. Product Manager insiste en shippear una feature critica. Como manejas esa conversacion sin romper la relacion y sin ceder la politica?
Como estructurarias un on-call humano y sostenible para un equipo de 6 personas con cobertura 24/7? Que politicas de rotacion, compensacion y escalamiento?
Te dicen que es la primera vez que el equipo va a hacer un experimento de chaos engineering. Que experimento recomendarias como primero, en que ambiente, con que metricas a observar, y que criterios de abort definirias?
Un equipo de desarrollo publica una nueva aplicacion sin tests de carga, sin dashboards de observabilidad y sin runbook. Como SRE senior, como abordas esa situacion sin generar friccion pero estableciendo estandares?
Error budgets, SLOs y por que importan al negocio
Si un CTO o un CEO no entiende por que un SRE pasa tiempo definiendo numeros como "99.95% de disponibilidad en el flujo de checkout", el rol esta condenado a ser subutilizado o eliminado en el primer recorte. Esta seccion traduce lo tecnico a lenguaje de negocio.
Que es un SLI, un SLO y un SLA
- SLI (Service Level Indicator): la metrica que mide algo que le importa al usuario. Ejemplo: porcentaje de requests con respuesta en menos de 200ms
- SLO (Service Level Objective): la meta interna sobre esa metrica. Ejemplo: 99.9% de los requests bajo 200ms durante el mes
- SLA (Service Level Agreement): el compromiso contractual con el cliente (normalmente mas laxo que el SLO). Ejemplo: 99.5% o se aplica credito
El error budget como decision de negocio
Si el SLO es 99.9%, el error budget es 0.1% de tiempo de falla permitido. En un mes de 30 dias, eso son 43 minutos de caida aceptable. Si en los primeros 10 dias del mes ya se consumieron 40 minutos, el equipo tiene que tomar una decision: frenar features y arreglar estabilidad, o seguir shippeando aceptando el riesgo de romper el SLA contractual.
Esto convierte una discusion que normalmente era emocional ("necesitamos mas estabilidad!" vs "tenemos que avanzar!") en una decision basada en datos. El SRE no dice "no se puede shippear". Dice "el error budget esta en 5%, estas son las opciones y este es el trade-off". Producto, ingenieria y negocio deciden juntos.
Impacto tangible: empresas que adoptan SRE con SLOs definidos reportan reducciones del 40-60% en MTTR y de 30-50% en tasa de incidentes criticos durante el primer ano. Eso se traduce directo en menos ingresos perdidos por downtime, menos churn de clientes que se cansan de la inestabilidad, y menos horas quemadas en post-mortems reactivos.
El mercado SRE chileno: activos vs pasivos vs no disponibles
Un dato clave al momento de armar una estrategia de contratacion es entender como se distribuye el pool de SREs en Chile. La mayor parte no esta disponible para una busqueda tradicional.
Distribucion del pool SRE en Chile (~500 profesionales)
Del total estimado de 500 SREs en Chile, solo alrededor del 12% esta activamente postulando a ofertas. Un 28% esta semi-pasivo: no postula, pero escucha propuestas si llegan con buena presentacion. El 48% es totalmente pasivo: solo responde a contactos muy relevantes, con propuestas concretas de stack, sueldo y proyecto. Y un 12% esta comprometido con stock options, proyectos personales o ya negociando con empresas extranjeras y practicamente no se mueve.
Esa distribucion explica por que un aviso publicado en LinkedIn sin hunting activo solo llega al 12% activo y a fragmentos del 28% semi-pasivo. Para acceder al 48% pasivo real (donde esta la mayoria del talento senior), se necesita reclutamiento IT especializado con contacto directo y propuesta personalizada.
Proceso de busqueda IT Workers: como encontramos SREs en 4 dias
Cerrar una posicion SRE en Chile por cuenta propia toma tipicamente entre 2 y 4 meses. Con el proceso de IT Workers, el shortlist evaluado llega en 4 dias habiles desde el briefing. Asi se hace.
Briefing tecnico profundo (dia 1)
Sesion de 60 minutos con el CTO o Head of Engineering. Definimos stack real (cloud, orquestacion, observabilidad), nivel de escala (requests por segundo, usuarios, servicios), estructura de on-call, SLOs actuales o deseados, rango salarial y deal-breakers. Sin briefing preciso, el hunting es ruido.
Hunting activo multicanal (dias 1-3)
Busqueda en nuestra base de datos interna de SREs calificados, cruzada con LinkedIn, GitHub y comunidades tech. Contacto directo con una propuesta concreta (no un mensaje generico). Apuntamos al 48% de talento pasivo que no se mueve con avisos.
Evaluacion tecnica y cultural (dias 3-4)
Entrevista con nuestro equipo sobre stack declarado, experiencia en incidentes reales, manejo de SLOs en la empresa actual y motivaciones de cambio. Validamos referencias con lideres tecnicos anteriores. No hacemos filtros de HR por palabras clave.
Entrega de shortlist (dia 4)
Shortlist de 3-5 SREs evaluados tecnicamente, con contexto de cada candidato (stack, proyectos recientes, motivacion, expectativa salarial, disponibilidad). Listos para entrevista con el equipo tecnico del cliente la semana siguiente.
Fee solo por contratacion exitosa. No hay pago por proceso, no hay retainer, no hay riesgo para el cliente. Si el shortlist no genera contratacion, IT Workers no cobra. Ese modelo funciona porque nuestro pool interno de reclutamiento de desarrolladores en Chile esta construido sobre relaciones largas, no sobre scraping ocasional.
Errores tipicos al contratar SRE en Chile
Cierran los mismos errores una y otra vez. Evitarlos acorta el proceso a la mitad.
Pedir "DevOps + SRE + Backend + Arquitecto Cloud" en un solo aviso
Ese perfil no existe o, si existe, no acepta el sueldo presupuestado. Definir mal el rol es garantia de proceso largo y oferta rechazada. Elegir uno, aceptar que otros roles necesitan cubrirse aparte.
No comunicar el rango salarial hasta el final
En el mercado SRE chileno eso es suicida. El candidato pasa 3 entrevistas, recibe una oferta en el extremo bajo y se va con su oferta en USD. Tiempo perdido para ambas partes. Comunicar el rango desde el primer contacto filtra en frio.
Procesos de mas de 3 semanas
Un SRE senior tiene 3-4 procesos activos en paralelo. El primero en hacer oferta competitiva cierra. Si la empresa tarda 4 semanas en decidirse entre dos finalistas, ambos candidatos ya aceptaron oferta en otro lado. Maximo 3 etapas, decision en 10 dias habiles.
Evaluar con pruebas irrelevantes
LeetCode y trivias de Bash no evaluan capacidades SRE. Diseno de sistemas resilientes, analisis de un incidente real anonimizado, discusion sobre SLOs concretos: eso evalua el perfil. Un SRE senior que recibe un test de LeetCode simplemente abandona el proceso.
Ofrecer on-call 24/7 sin rotacion humana ni compensacion
El on-call es parte del rol, pero tiene que ser humano. Si el equipo tiene 3 personas y el on-call rota cada 3 semanas sin compensacion adicional, el candidato senior lo detecta en 5 minutos y declina. Estructurar on-call con rotaciones sanas y compensacion clara es un diferenciador competitivo, no un lujo.
Preguntas frecuentes sobre contratacion SRE en Chile
Cuanto gana un SRE Senior en Chile 2026?
Entre $4.500.000 y $6.500.000 CLP bruto mensual, dependiendo del dominio, escala del sistema gestionado, certificaciones cloud y nivel de on-call. Fintech y banca pagan el extremo alto; retail y B2B SaaS, el medio. Fuente: datos internos IT Workers + Glassdoor + Levels.fyi ajuste Chile.
Cuanto tarda contratar un SRE con IT Workers?
El shortlist evaluado tecnicamente se entrega en 4 dias habiles desde el briefing. El proceso completo incluyendo entrevistas con el equipo del cliente y firma de oferta suele completarse en 2 a 3 semanas. Por cuenta propia, el mismo proceso tipicamente demora 2-4 meses.
Un DevOps puede ser mi SRE?
En startups con equipos de hasta 30 personas, una sola persona con perfil hibrido DevOps/SRE es viable. Sobre los 50 empleados o con sistemas criticos (fintech, salud, retail con picks), ya conviene separar los roles. El DevOps se enfoca en entrega y el SRE en confiabilidad; forzar que una persona cubra ambos a escala termina en burnout.
Que certificaciones deberia pedir?
Las mas valoradas para SRE son Certified Kubernetes Administrator (CKA), AWS Solutions Architect Professional, Google Cloud Professional Cloud DevOps Engineer y HashiCorp Terraform Associate. Sin embargo, experiencia en produccion pesa mas que certificaciones. Un SRE sin certificados pero con 5 anos gestionando clusters reales vale mas que uno con todas las certificaciones y solo proyectos personales.
Es mejor contratar un SRE local o uno remoto de LATAM?
Para un primer SRE en la empresa, recomendamos local chileno: facilita la integracion con el equipo presencial y permite presencia en incidentes criticos. Para equipos SRE de 3+ personas ya consolidados, mezclar con talento remoto de LATAM (Argentina, Colombia, Peru, Mexico) amplia el pool y trae perspectivas complementarias.
Que pasa si el SRE que contrato renuncia a los 6 meses?
IT Workers incluye garantia de reemplazo sin costo durante 90 dias desde la contratacion. Si el candidato no pasa periodo de prueba o renuncia en ese plazo, abrimos un nuevo proceso sin fee adicional. El riesgo se minimiza con la evaluacion cultural inicial.
Como convenzo a un SRE senior de no irse a EEUU?
No se convence compitiendo solo con renta (perdemos esa pelea). Se gana ofreciendo: impacto visible y medible en el producto, autonomia real para definir arquitectura, on-call humano con rotacion sana, stack moderno y aprendizaje continuo, equipo tecnico fuerte del que aprender, y estabilidad en CLP sin riesgo cambiario. Muchos SREs senior valoran mas eso que los USD marginales.
Cual es la diferencia entre SRE, DevOps y Platform Engineer?
DevOps automatiza el pipeline de entrega. SRE garantiza confiabilidad en produccion. Platform Engineer construye la plataforma interna que consumen los equipos de desarrollo (IDPs, golden paths, self-service). Los tres pueden coexistir en empresas grandes; en startups suelen fusionarse en 1-2 personas con perfil hibrido.
Necesitas un Site Reliability Engineer en Chile?
IT Workers es la firma de reclutamiento IT especializada en perfiles tech en Chile. Entregamos shortlist de SREs evaluados tecnicamente en 4 dias habiles. Fee solo por contratacion exitosa. Garantia de reemplazo 90 dias.
Agenda disponible esta semana
Solicitar candidatos SRE