Senior Tech Lead - AI Quality & Evaluation

AIエンジニアハイブリッド正社員リード

想定年収

応相談

勤務地

東京都新宿区

リモート

リモート可

掲載中・最終確認 2026/5/27（1週間前）

仕事内容

ベネッセの生成AI/AIエージェントプロジェクトで品質基準・評価設計・継続改善を担う技術リード。プロジェクト毎の品質基準・リリース判定の定義、評価データセット/自動評価ロジック/テスト環境の設計運用、オフライン評価とオンライン指標とA/Bテストを組み合わせた改善サイクル運用までを担当。Applied AI Engineering / AI Platform & Reliability 担当と協働し、評価観点とリリース判定を組織知として横断展開する。

求めるスキル・経験

必須

ソフトウェアエンジニアリング、データ基盤、ML、Security、Platform、Backend のいずれかの領域で、5年以上の実務経験

Tech Lead またはそれに準ずる立場で、技術方針の決定や実装推進を担った経験

LLM、RAG、AIエージェントを活用した機能またはシステムについて1年以上の実務経験があり、本番導入または継続運用に関わった案件経験

評価指標設計、評価データセット設計、または回帰評価設計を含む品質改善サイクルを設計・運用した案件経験

オフライン評価、オンライン指標、A/Bテスト、モニタリング、人手レビューまたは自動評価を組み合わせて品質を運用した経験

品質課題を分解し、Prompt、RAG、モデル選定、tool use、UX、運用フローのどこを改善すべきかを判断し、改善につなげた経験

Pythonを中心とした実装力、ならびにAPI/バックエンド/データ処理のいずれかの実務経験

PdM・企画担当者、エンジニア、業務側メンバーと協働し、品質基準を意思決定に接続した経験

歓迎

Data Engineer、ML Engineer、Research Engineer、Security Engineer、Platform Engineer、Backend Engineer などの基礎技術領域で、専門性を磨いてきた経験

情報理工学系または関連分野での学士号、またはそれに準ずる基礎知識

教育、学習、B2C/B2B SaaS、ヘルスケア、法務、金融など高信頼領域でのAI運用経験

Ragas、DeepEval、OpenAI Evals、Langfuse、Arize Phoenix など評価・観測ツールの利用経験

敵対的テスト、レッドチーミング、プロンプトインジェクション対策、ハルシネーション対策の実務経験

検索品質、RAG評価、ランキング評価、推薦評価の経験

ファインチューニング、追加学習、またはモデルカスタマイズの経験

品質基盤やMLOps基盤の設計経験

技術発信、社内標準化、プレイブック作成の経験

Senior Tech Lead - AI Quality & Evaluation

仕事内容

求めるスキル・経験

関連スキル

AIエンジニアの新着求人

株式会社ベネッセコーポレーションの他の求人

関連する職種