Descripcion del puesto

¿Te apasiona la confiabilidad de sistemas, la automatización a gran escala y colaborar en entornos de alta disponibilidad con equipos internacionales? ¿Tienes un dominio avanzado del idioma inglés y buscas un reto técnico de alto nivel?

¡Esta oportunidad es para ti!

Estamos en búsqueda de un Senior Site Reliability Engineer (SRE) experto, con dominio en inglés, para unirse a nuestro equipo de Servicios Globales. 

🌍 Ubicación: Santa Cruz - Bolivia 

🎯 ¿Cuál será tu misión? 

Responsable de garantizar que los servicios estén "up and running", diseñar y mantener automatización e infraestructura resiliente, prevenir y mitigar incidentes, además de colaborar con R&D para asegurar disponibilidad y rendimiento.

🧠 Requisitos:

Formación profesional:

  • Título universitario en Ingeniería Informática, Ciencias de la Computación, Telecomunicaciones o afín.
  • Postgrado deseable: Máster en Ingeniería de Software, Cloud Computing o Ciberseguridad (opcional).
  • Certificaciones recomendadas: CKA (Kubernetes), Terraform Associate, y certificación cloud (GCP/AWS) según stack.

Experiencia de trabajo y tiempo:

  • Experiencia minima de 5 años en roles de desarrollo/DevOps/SRE; 
  • Experiencia minima de 3 años con responsabilidad SRE en producción.
  • Experiencia en operación de servicios críticos con altos requisitos de disponibilidad y en liderazgo técnico/mentoría en equipos pequeños.
  • Experiencia en respuesta a incidentes P1/P2 y en definición de prácticas para minimizar downtime.

Conocimientos técnicos imprescindibles

  • Kubernetes (operación, troubleshooting, ingress, despliegues) y Docker.
  • Terraform (infraestructura como código) y prácticas de automatización (Terragrunt u equivalentes).
  • CI/CD: GitHub + GitHub Actions (pipelines/workflows).
  • Cloud: experiencia con Google Cloud (Cloud Run) y/o AWS; despliegue y operación de servicios contenedorizados y serverless.
  • Observabilidad y alerting: diseño de alertas, monitoreo, dashboards e interpretación de métricas para detectar degradaciones antes de fallos.
  • Seguridad en la nube: conocimiento de herramientas de seguridad (por ejemplo, Wiz) y priorización de vulnerabilidades.
  • Redes e infraestructura: conceptos de firewalls, TCP, load balancers y análisis de logs de LB para diagnosticar timeouts/latencia.
  • Scripting y programación: Python (preferible) y capacidad para leer/modificar código para diagnóstico.
  • Bases de datos: habilidades operacionales para aplicar workarounds o consultas cuando sea necesario.
  • Experiencia con gestión de incidentes, on‑call y Jira.

Aptitudes y actitudes (soft skills)

  • Fuerte orientación a la disponibilidad: mentalidad proactiva y centrada en mantener los servicios up and running 24/7.
  • Capacidad de diagnóstico rápido y aplicación de workarounds temporales para minimizar impacto al cliente.
  • Comunicación clara y concisa con R&D y stakeholders; documentación y post‑mortems efectivos.
  • Colaboración cross‑functional y habilidad para liderar técnicamente.
  • Priorización y juicio para evitar alert fatigue y centrar esfuerzos en lo crítico.
  • Flexibilidad horaria: disponibilidad para cubrir ventanas en Mountain Time (EE. UU.) según sea necesario.
  • Enfoque en automatización y mejora continua.

📩 ¿Te interesa?

Postula rellenando tus datos escaneando el QR y adjuntando tu CV actualizado.

¡Forma parte de un equipo que impulsa la innovación tecnológica y la resiliencia en la organización! 🚀