Spécialiste principal(e) en ingénierie de la fiabilité des sites (SRE)

CGI

Department:Software Development

Type:ON-SITE

Region:Montreal, Quebec

Location:Montreal, Quebec, Canada

Experience:Mid-Senior level

Salary:CAD90,000 - CAD140,000

Skills:

SREDEVOPSAWSAZUREGCPLINUXTERRAFORMCLOUDFORMATIONPYTHONBASHANSIBLEDOCKERKUBERNETESCI/CDOBSERVABILITYINCIDENT MANAGEMENTSLI/SLO/SLA

Share this job:

Job Description

Posted on: March 15, 2026

Principal Site Reliability Engineer (SRE)

Location: Montreal

Languages: Bilingual (French & English)

We are hiring a Principal Site Reliability Engineering specialist (SRE) to support the design, evolution, and operation of mission critical technology platforms. In this strategic and handson role, you will lead the adoption of SRE best practices, shape cloud and application architectures, and drive the reliability, performance, and availability of client services. You will influence engineering standards, strengthen operational excellence, and collaborate across development, operations, security, and business teams to deliver resilient, scalable, and modern cloud solutions.

Who Are You?

You are an experienced SRE professional with deep technical expertise and a strong ability to improve reliability at scale. You excel in cloud environments, automation, observability, and resilient architectures. You communicate effectively with technical and business stakeholders, collaborate naturally across teams, and consistently drive continuous improvement. Your balanced judgment and hands on leadership make you a trusted advisor in delivering highly reliable, high performing services.

Your future duties and responsibilities

Architecture & Reliability

Recommend reliability focused solutions based on business and technical needs.
Define and influence cloud and application architectures aligned with performance, availability, and resilience goals.
Implement and continuously improve SLIs, SLOs, and SLAs across critical services.
Build, enhance, and maintain monitoring, logging, and alerting capabilities.

Automation & Observability

Develop and improve observability frameworks (monitoring, alerting, logging).
Automate operational and reliability processes using Python, Bash, Ansible, and cloud native tooling.
Integrate reliability automation into CI/CD pipelines and optimize delivery workflows.

Incident Management & Continuous Improvement

Lead major incident response, root cause analysis, and post mortem activities.
Reduce incident frequency and improve service reliability through systemic enhancements.
Drive adoption of SRE best practices across teams and contribute to organizational maturity.

Collaboration & Technical Leadership

Partner with development, DevOps, architecture, security, and business stakeholders.
Act as a technical authority and trusted advisor on service reliability.
Promote knowledge sharing and foster continuous improvement in engineering practices.

Required Qualifications To Be Successful In This Role

Bachelor’s degree in Computer Science, Software Engineering, or related field—or equivalent experience.
Bilingual (French/English)
5+ years of experience in SRE, DevOps, operations, or distributed systems.
Strong experience with cloud platforms (AWS, Azure, or GCP) and modern architectural patterns.
Proficiency in Linux, automation scripting (Python, Bash), and Infrastructure as Code (Terraform, CloudFormation).
Experience with Docker, Kubernetes, and container orchestration.
Hands on expertise with observability tools (Datadog, Dynatrace, Prometheus, Splunk, New Relic).
Demonstrated success improving system reliability and reducing operational incidents.
Strong analytical, communication, and problem solving skills.
Ability to influence stakeholders and provide strategic technical guidance.
French proficiency required; English proficiency considered an asset or required based on client context.

________________________________________

Skills

Core: SRE, DevOps, Incident Management, Observability, SLIs/SLOs/SLAs
Cloud: AWS / Azure / GCP
Infrastructure: Linux, Terraform, CloudFormation
Automation: Python, Bash, Ansible
Containers: Docker, Kubernetes
CI/CD: Design, integration, automation
Soft Skills: Collaboration, communication, advisory influence, problem solving

CGI is providing a reasonable estimate of the pay range for this role. The determination of this range includes factors such as skill set level, geographic market, experience and training, and licenses and certifications. Compensation decisions depend on the facts and circumstances of each case. A reasonable estimate of the current range is $90,000–$140,000. This role is a future opportunity.

Spécialiste principal(e) en ingénierie de la fiabilité des sites (SRE)

Lieu : Montréal

Langues : Bilingue (français et anglais)

Nous recrutons un(e) Principal Ingénieur Site Reliability (SRE) pour soutenir la conception, l’évolution et l’exploitation de plateformes technologiques critiques. Dans ce rôle stratégique et très opérationnel, vous dirigerez l’adoption des meilleures pratiques SRE, façonnerez les architectures cloud et applicatives, et piloterez la fiabilité, la performance et la disponibilité des services clients. Vous influencerez les normes d’ingénierie, renforcerez l’excellence opérationnelle et collaborerez avec les équipes de développement, d’exploitation, de sécurité et métiers afin de livrer des solutions cloud résilientes, évolutives et modernes.

Qui êtes-vous ?

Vous êtes un(e) professionnel(le) SRE expérimenté(e), doté(e) d’une expertise technique approfondie et d’une forte capacité à améliorer la fiabilité à grande échelle. Vous excellez dans les environnements cloud, l’automatisation, l’observabilité et les architectures résilientes. Vous communiquez efficacement avec les parties prenantes techniques et métiers, collaborez naturellement entre les équipes et favorisez en permanence l’amélioration continue. Votre jugement équilibré et votre leadership pratique font de vous un conseiller de confiance pour la livraison de services hautement fiables et performants.

Your future duties and responsibilities

Vos futures responsabilités et missions

Architecture et fiabilité

Recommander des solutions axées sur la fiabilité en fonction des besoins métiers et techniques.
Définir et influencer les architectures cloud et applicatives alignées sur les objectifs de performance, de disponibilité et de résilience.
Mettre en œuvre et améliorer en continu les SLI, SLO et SLA pour les services critiques.
Concevoir, améliorer et maintenir les capacités de supervision, de journalisation et d’alerte.

Automatisation et observabilité

Développer et améliorer les cadres d’observabilité (supervision, alerting, journalisation).
Automatiser les processus opérationnels et de fiabilité à l’aide de Python, Bash, Ansible et d’outils cloud natifs.
Intégrer l’automatisation de la fiabilité dans les pipelines CI/CD et optimiser les flux de livraison.

Gestion des incidents et amélioration continue

Diriger la gestion des incidents majeurs, l’analyse des causes profondes et les activités de post mortem.
Réduire la fréquence des incidents et améliorer la fiabilité des services grâce à des améliorations systémiques.
Favoriser l’adoption des meilleures pratiques SRE au sein des équipes et contribuer à la maturité organisationnelle.

Collaboration et leadership technique

Travailler en partenariat avec les équipes de développement, DevOps, d’architecture, de sécurité et les parties prenantes métiers.
Agir en tant qu’autorité technique et conseiller de confiance en matière de fiabilité des services.
Encourager le partage de connaissances et promouvoir l’amélioration continue des pratiques d’ingénierie.

Qualifications Requises

Required qualifications to be successful in this role

Baccalauréat en informatique, en génie logiciel ou dans un domaine connexe — ou expérience équivalente.
Plus de 5 ans d’expérience en SRE, DevOps, exploitation ou systèmes distribués.
Forte expérience avec les plateformes cloud (AWS, Azure ou GCP) et les architectures modernes.
Maîtrise de Linux, des scripts d’automatisation (Python, Bash) et de l’infrastructure en tant que code (Terraform, CloudFormation).
Expérience avec Docker, Kubernetes et l’orchestration de conteneurs.
Expertise pratique des outils d’observabilité (Datadog, Dynatrace, Prometheus, Splunk, New Relic).
Expérience démontrée dans l’amélioration de la fiabilité des systèmes et la réduction des incidents opérationnels.
Solides compétences analytiques, en communication et en résolution de problèmes.
Capacité à influencer les parties prenantes et à fournir une orientation technique stratégique.
Maîtrise du français requise ; la maîtrise de l’anglais est considérée comme un atout ou requise selon le contexte client.

Compétences

Principales : SRE, DevOps, gestion des incidents, observabilité, SLI/SLO/SLA
Cloud : AWS / Azure / GCP
Infrastructure : Linux, Terraform, CloudFormation
Automatisation : Python, Bash, Ansible
Conteneurs : Docker, Kubernetes
CI/CD : conception, intégration, automatisation
Compétences relationnelles : collaboration, communication, influence de conseil, résolution de problèmes

CGI offre une estimation raisonnable de la fourchette salariale pour ce poste. Le calcul de cette fourchette dépend de divers facteurs, notamment le niveau de compétence, le marché géographique, l’expérience, la formation ainsi que les licences et certifications professionnelles. Les décisions en matière de rémunération dépendent des particularités de chaque cas. Une estimation raisonnable de cette fourchette salariale se situe entre 90,000$ et 140,000 $. Ce poste est une opportunité future.

Originally posted on LinkedIn

Apply now

Please let the company know that you found this position on our job board. This is a great way to support us, so we can keep posting cool jobs every day!