Spécialiste en fiabilité / Site Reliability developer (Devops)

Reference: 15874 - Frisco, TX or Quebec, CAN, Quebec, TX or Quebec, CAN, Quebec

English will follow

Spark est l'équipe Gearbox Software derrière SHiFT, notre plate-forme de services en ligne qui dessert des millions d'utilisateurs chaque mois à travers plusieurs franchises de jeux. SHiFT est notre plate-forme de services de jeux responsable de dizaines de fonctionnalités dont dépendent chaque jour les joueurs du monde entier, du jeu multiplateforme à la liste d'amis, en passant par la science citoyenne, l'hébergement de serveurs dédiés, le jumelage et bien plus encore. Spark est passionné par la livraison de fonctionnalités à nos partenaires de jeu qui sont pertinentes, fiables et sécurisées. Nous sommes fiers de la stabilité de notre plate-forme et cherchons toujours des moyens de porter cette stabilité à de nouveaux niveaux. Notre équipe est agile et s'engage à ce que les fonctionnalités passent du bureau à la production en quelques minutes, et non en quelques jours.

Pour poursuivre notre vision d'une stabilité de premier ordre et d'une livraison rapide des fonctionnalités, nous recherchons un spécialiste en fiabilité de niveau intermédiaire pour rejoindre notre équipe. En tant que SRE sur Spark, vous serez chargé d'aider à la conception et à la mise en œuvre d'architectures cloud flexibles en mettant l'accent sur l'automatisation. En cours de route, vous serez mis au défi d'adopter la mentalité partagée selon laquelle l'observabilité est primordiale et de faire pression pour que cette philosophie soit mise en place sur l'ensemble de la plate-forme. En tant que SRE, vous devez être à l'aise pour intégrer plusieurs technologies ensemble pour former une vue unique et cohérente de la santé de la plate-forme. Vous devez avoir une expertise dans les meilleures pratiques de sécurité du cloud et des micro-services. Lorsque vous êtes confronté au défi de concevoir et de mettre en œuvre une nouvelle fonctionnalité dans l'infrastructure, vous êtes confiant dans les deux, prêt à les défendre dans une pièce avec d'autres esprits techniques. Vous reconnaissez également que les meilleures conceptions proviennent de la collaboration, pas de la dictée, et vous êtes prêt à proposer des implémentations avec un esprit ouvert.

Journée typique

Tl; dr : Vous serez profondément immergé dans AWS et Terraform ; beaucoup de développement Go a également été ajoutés. Vos journées seront remplies de solutions de construction aux défis techniques en matière de sécurité, d'observabilité et de disponibilité pour un ensemble particulier de services. Vous évangéliserez les meilleures pratiques de sécurité, dénoncerez les lacunes en matière d'observabilité et serez extrêmement préoccupé par l'expérience utilisateur en ce qui concerne les services que vous soutenez. Vous aiderez à gérer et à orchestrer chacun de ces éléments en vous appuyant fortement sur des technologies telles que Terraform, Docker, Bash et Go. Chaque jour, vous devez vous attendre à passer au moins 75% de votre temps à développer activement de nouvelles solutions; le reste sera généralement un mélange de révision du code de vos collègues, de définition de SLI et de SLO, de participation à des réunions de conception, de réponse aux demandes ad hoc, de documentation et d'auto-développement.

Cette position implique d'avoir un appareil mobile et nécessitera occasionnellement des heures d'activité atypique, parfois les soirs et fins de semaine, pour soutenir une large équipe de production évoluant sur un horaire asymétrique.

Responsabilités principales:
  • Être une voix de confiance dans l'évangélisation de Dev SecOps dans toute l'équipe, en promouvant la sécurité et l'observabilité comme étant d'égale importance du prototype à la production
  • Les discussions de champion qui définissent les SLI et les SLO appropriés pour les services de vente au détail / de commerce électronique
  • Collaborer avec notre équipe grandissante de devellopeur, en aidant à établir les meilleures pratiques en matière d'observabilité, de fiabilité et de sécurité
  • Concevoir et développer des solutions logicielles pour améliorer l'observabilité, la fiabilité et la sécurité des services de vente au détail / commerce électronique
  • Instrumental dans l'intégration de l'observabilité des services de vente au détail / e-commerce
  • Développer des outils qui aident les développeurs dans la gestion des builds
  • Encadrer les développeurs juniors au besoin
  • Participer aux rotations de soutien sur appel après les heures d'ouverture

Profil du candidat :
  • Expertise dans les fonctionnalités de gestion, d'orchestration et d'observabilité des applications/conteneurs AWS (ECS, Fargate, Aurora, CloudWatch, etc.)
  • Expertise dans la gestion de la sécurité AWS et les meilleures pratiques (IAM, kms, Secrets Manager, WAFv2, GuardDuty, Security Groups, NACLs, etc.)
  • Au moins 4 ans d'expérience pratique approfondie dans une grande variété de technologies AWS dans un cadre professionnel
  • Minimum de 3 ans d'expérience avec les conteneurs et l'infrastructure en tant que code dans un cadre professionnel, de préférence Docker et Terraform
  • Minimum d'un an d'expérience en génie logiciel discipliné avec un accent sur le développement et la mise en œuvre d'applications hautement évolutives / disponibles
  • Expérience de développement professionnel avec au moins l'un des éléments suivants: Go, Python
  • Expérience professionnelle dans la définition de SLI et SLO pour des applications cloud hautement disponibles
  • Compréhension approfondie de la gestion de la pile d'observabilité (surveillance, alertes, journalisation structurée, APM, etc.)
  • Excellentes compétences en travail d'équipe, flexibilité et capacité à gérer plusieurs tâches
  • Communicateur à l'aise, capable de détailler clairement les conceptions et les mises en œuvre au niveau individuel et dans le cadre de grands groupes
  • Expérience pratique dans le développement et la maintenance de pipelines CI/CD, de préférence dans git/GitLab
  • Compréhension des API basées sur RESTful et Websocket
  • Baccalauréat en informatique, domaine connexe, ou formation et expérience professionnelle équivalentes
  • Toute certification de sécurité vérifiable (isc2, spécialiste de la sécurité aws, piratage éthique, sécurité +, etc.)
  • Expérience de travail dans des programmes de vente au détail / commerce électronique
  • Familier avec OpenTelemetry / OpenSLO
  • Familier avec Datadog / Honeycomb
  • Familier avec les produits Atlassian (OpsGenie, JIRA, Confluence)
  • Expérience en NodeJS
  • Expérience de travail avec des développeurs dans un environnement agile
  • Expérience dans l'industrie des jeux, de préference AAA en ligne
  • Connaissance d'IP appartenant à Gearbox

Gearbox Studio Québec

Situé dans la magnifique ville de Québec, notre studio est à une courte distance de marche des quartiers les plus vivants, restaurants, bars, parcs et cafés. Nous aimons créer des jeux et adorons y jouer. Nous récompensons le travail au mérite et offrons de nombreux avantages: assurances collectives, contribution au REER des employés, formation spécialisée, gestion du temps flexible, et autres.

****

Spark is the Gearbox Software team behind SHiFT, our online services platform that serves millions of users every month across multiple gaming franchises. SHiFT is our one-stop-shop gaming services platform responsible for dozens of features gamers around the world depend on every day, from cross-play to friend presence, citizen science, dedicated server hosting, matchmaking, and much more. Spark is passionate about delivering features for our gaming partners that are relevant, dependable, and secure. We take pride in the stability of our platform and are always looking for ways to take that stability to new levels. Our team is agile with a commitment to seeing features go from desktop to production in minutes, not days.

Position

To further drive our vision of premier stability and rapid feature delivery, we are looking for a mid-level Site Reliability developer to join our team. As an SRE on Spark, you will be responsible for assisting in the design and implementation of flexible cloud architectures with an automation-first emphasis. You will be challenged along the way to adopt the shared mentality that observability is everything and push for that philosophy to be actualized throughout the platform. As an SRE you should be comfortable integrating multiple technologies together to form a single, coherent view of platform health. You should have expertise in cloud and micro-service security best practices. When challenged with designing and implementing a new feature in the infrastructure, you are confident in both, ready to defend them in a room with other technical minds. You also recognize that the best designs come from collaboration, not dictation, and are willing to bring implementations to the table with an open mind.

TypicalDay

Tl;dr: You will bedeeplyimmersed inAWSandTerraform; plenty ofGodevelopment sprinkled in as well.Your days will be filled with building solutions to technical challenges in security, observability, and availability for a particular set of services. You will evangelize security best practices, call out gaps in observability, and beimmensely concerned with user experience as it relates to the services you support. You will help manage and orchestrate each of these by leaning heavily on technologies likeTerraform,Docker,Bash, andGo. On any given day, you should expect to spend at least 75% of your time actively developing new solutions; the rest will typically be a mixture of reviewing code from your colleagues, defining SLIs and SLOs, participating in design meetings, responding to ad-hoc requests, documentation, and self-development.This position will require you to carry a company-paid mobile device and participate in 24/7 on-call rotations alongside your developer colleagues. Don't worry though, our on-call experience doesn't suck.

Responsibilities:
  • Be a trusted voice in the evangelism of DevSecOps throughout the team, promoting security and observability as being of equal importance from prototype to production
  • Champion discussions that define appropriate SLIs and SLOs for retail/eCommerce services
  • Collaborate with our growing team of developer, helping to establish best practices in observability, reliability, and security
  • Design and develop software solutions to improve the observability, reliability, and security of retail/eCommerce services
  • Instrumental in observability integration of retail/eCommerce services
  • Develop tooling that aids developers in build management
  • Mentoring junior developer as needed
  • Participate in after-hours on-call support rotations

Must Have (the non-negotiable parts):

  • Expertisein AWS app/container management, orchestration, and observability features (ECS, Fargate, Aurora, CloudWatch, etc.)
  • Expertisein AWS security management and best practices (IAM, kms, Secrets Manager, WAFv2, GuardDuty, Security Groups, NACLs, etc.)
  • Minimum of 4 years extensive hands-on experience in a wide variety of AWS technologies in a professional setting
  • Minimum of 3 years experience with containers and infrastructure as code in a professional setting, preferably Docker and Terraform
  • Minimum of 1 year experience in disciplined software developer with a focus on development and implementation of highly scalable/available applications
  • Professional development experience withat leastone of: Go, Python
  • Professional experience defining SLIs and SLOs for highly available cloud-based applications
  • Deep understanding of observability stack management (monitoring, alerting, structured logging, APM, etc.)
  • Excellent teamwork skills, flexibility, and ability to handle multiple tasks
  • Comfortable communicator, able to clearly detail designs and implementations on an individual level and in large group settings

Should Have (some wiggle room):

  • Hands-on experience developing and maintaining CI/CD pipelines, preferably in git/GitLab
  • Understanding of RESTful and Websocket based APIs
  • Bachelor's degree in computer science, related field, or equivalent training and professional experience
  • Any verifiable security certification (isc2, aws security specialist, ethical hacking, security+, etc.)
  • Experience working in retail/eCommerce programs
  • Familiarity with OpenTelemetry / OpenSLO
  • Familiarity with Datadog / Honeycomb
  • Familiarity with Atlassian products (OpsGenie, JIRA, Confluence)
  • Experience in NodeJS
  • Experience working with developers in an agile environment
  • Experience in the games industry, preferably launching multiple online-enabled AAAs
  • Knowledge about Gearbox-owned Ips

Gearbox Studio Québec

Located in beautiful Quebec City, our studio is a short walk away from the the city's most vibrant districts, bars, restaurants, parks and coffee shops. We love to create and play games. We reward teammates based on merit and offer a comprehensive health benefits package, generous RRSP matching, flexible time-off, training and numerous other perks.