転職AI
AIに相談
AIに相談
株式会社メルカリ

Software Engineer (Site reliability) - Mercari

SRE ハイブリッド 正社員 シニア
想定年収
応相談
勤務地
東京都 港区
リモート
リモート可
掲載中・最終確認 2026/5/27(1週間前)

仕事内容

Mercari、Merpay、Mercoinを含むメルカリグループの本番サービスの信頼性・スケーラビリティ・運用品質をリードするSREポジション。Google Cloud + Kubernetesで稼働する数百規模のマイクロサービスをSLO/エラーバジェットベースで運用し、TerraformによるIaC、Datadogによるオブザーバビリティ、インシデント対応・ポストモーテムを推進する。AI Agentを用いた検知・トリアージ・復旧の自動化にも取り組む。

求めるスキル・経験

必須
サービスの信頼性に責任を持ち、可用性目標の達成、トイル削減、本番稼働に向けた準備を推進した経験。SLI/SLOを活用し、開発チームと連携しながら信頼性向上の優先順位を判断した経験を含む。
SLOに基づき、大規模なサービス(10K QPS以上、または複数の本番マイクロサービス)を運用した経験。
Google CloudなどのクラウドサービスおよびKubernetes上で稼働するワークロードの本番運用経験。
Infrastructure as Codeの実践やSRE業務向けツールの開発を通じて、運用の効率化・自動化を推進した経験。
Datadogまたは同等のツールを用いた監視・オブザーバビリティ強化の実務経験。アラート設計や疲労の軽減に取り組んだ経験を含む。
インシデント対応、ポストモーテム、オンコールまたは運用サポートの当番制を担った経験。
信頼性向上に向けた取り組みを、設計から実行、改善まで自律的にリードできる。
SREの専門領域に閉じず、AIを運用業務に学習・適用していく意欲。
日本語:Independent (CEFR – C1) OR 英語:Independent (CEFR – C1)
歓迎
複数のサービスまたは事業領域をまたぐ、全社的・横断的なSLOプログラムの設計または運用経験。
ログ分析、アラート要約、根本原因分析、復旧対応などの運用業務にAIを活用した経験、およびその精度や安全性を評価した経験。
大規模なKubernetes基盤の運用経験、または分散システムの内部動作に関する知識・経験。
複数チームにまたがる信頼性向上またはプラットフォーム改善の取り組みをリードした経験。
リスク評価、監査証跡の自動収集、インフラ設定や運用ルールのコード化・自動検証を通じて、本番環境の安全性と信頼性を高めた経験。

関連スキル