¿Te apasiona la confiabilidad de sistemas, la automatización a gran escala y colaborar en entornos de alta disponibilidad con equipos internacionales? ¿Tienes un dominio avanzado del idioma inglés y buscas un reto técnico de alto nivel?
¡Esta oportunidad es para ti!
Estamos en búsqueda de un Senior Site Reliability Engineer (SRE) experto, con dominio en inglés, para unirse a nuestro equipo de Servicios Globales.
🌍 Ubicación: Santa Cruz - Bolivia
🎯 ¿Cuál será tu misión?
Responsable de garantizar que los servicios estén "up and running", diseñar y mantener automatización e infraestructura resiliente, prevenir y mitigar incidentes, además de colaborar con R&D para asegurar disponibilidad y rendimiento.
🧠 Requisitos:
Formación profesional:
- Título universitario en Ingeniería Informática, Ciencias de la Computación, Telecomunicaciones o afín.
- Postgrado deseable: Máster en Ingeniería de Software, Cloud Computing o Ciberseguridad (opcional).
- Certificaciones recomendadas: CKA (Kubernetes), Terraform Associate, y certificación cloud (GCP/AWS) según stack.
Experiencia de trabajo y tiempo:
- Experiencia minima de 5 años en roles de desarrollo/DevOps/SRE;
- Experiencia minima de 3 años con responsabilidad SRE en producción.
- Experiencia en operación de servicios críticos con altos requisitos de disponibilidad y en liderazgo técnico/mentoría en equipos pequeños.
- Experiencia en respuesta a incidentes P1/P2 y en definición de prácticas para minimizar downtime.
Conocimientos técnicos imprescindibles
- Kubernetes (operación, troubleshooting, ingress, despliegues) y Docker.
- Terraform (infraestructura como código) y prácticas de automatización (Terragrunt u equivalentes).
- CI/CD: GitHub + GitHub Actions (pipelines/workflows).
- Cloud: experiencia con Google Cloud (Cloud Run) y/o AWS; despliegue y operación de servicios contenedorizados y serverless.
- Observabilidad y alerting: diseño de alertas, monitoreo, dashboards e interpretación de métricas para detectar degradaciones antes de fallos.
- Seguridad en la nube: conocimiento de herramientas de seguridad (por ejemplo, Wiz) y priorización de vulnerabilidades.
- Redes e infraestructura: conceptos de firewalls, TCP, load balancers y análisis de logs de LB para diagnosticar timeouts/latencia.
- Scripting y programación: Python (preferible) y capacidad para leer/modificar código para diagnóstico.
- Bases de datos: habilidades operacionales para aplicar workarounds o consultas cuando sea necesario.
- Experiencia con gestión de incidentes, on‑call y Jira.
Aptitudes y actitudes (soft skills)
- Fuerte orientación a la disponibilidad: mentalidad proactiva y centrada en mantener los servicios up and running 24/7.
- Capacidad de diagnóstico rápido y aplicación de workarounds temporales para minimizar impacto al cliente.
- Comunicación clara y concisa con R&D y stakeholders; documentación y post‑mortems efectivos.
- Colaboración cross‑functional y habilidad para liderar técnicamente.
- Priorización y juicio para evitar alert fatigue y centrar esfuerzos en lo crítico.
- Flexibilidad horaria: disponibilidad para cubrir ventanas en Mountain Time (EE. UU.) según sea necesario.
- Enfoque en automatización y mejora continua.
📩 ¿Te interesa?
Postula rellenando tus datos escaneando el QR y adjuntando tu CV actualizado.
¡Forma parte de un equipo que impulsa la innovación tecnológica y la resiliencia en la organización! 🚀
