転職AI
AIに相談
AIに相談
株式会社ベネッセコーポレーション

Senior Tech Lead - AI Quality & Evaluation

AIエンジニア ハイブリッド 正社員 リード
想定年収
応相談
勤務地
東京都 新宿区
リモート
リモート可
掲載中・最終確認 2026/5/27(1週間前)

仕事内容

ベネッセの生成AI/AIエージェントプロジェクトで品質基準・評価設計・継続改善を担う技術リード。プロジェクト毎の品質基準・リリース判定の定義、評価データセット/自動評価ロジック/テスト環境の設計運用、オフライン評価とオンライン指標とA/Bテストを組み合わせた改善サイクル運用までを担当。Applied AI Engineering / AI Platform & Reliability 担当と協働し、評価観点とリリース判定を組織知として横断展開する。

求めるスキル・経験

必須
ソフトウェアエンジニアリング、データ基盤、ML、Security、Platform、Backend のいずれかの領域で、5年以上の実務経験
Tech Lead またはそれに準ずる立場で、技術方針の決定や実装推進を担った経験
LLM、RAG、AIエージェントを活用した機能またはシステムについて1年以上の実務経験があり、本番導入または継続運用に関わった案件経験
評価指標設計、評価データセット設計、または回帰評価設計を含む品質改善サイクルを設計・運用した案件経験
オフライン評価、オンライン指標、A/Bテスト、モニタリング、人手レビューまたは自動評価を組み合わせて品質を運用した経験
品質課題を分解し、Prompt、RAG、モデル選定、tool use、UX、運用フローのどこを改善すべきかを判断し、改善につなげた経験
Pythonを中心とした実装力、ならびにAPI/バックエンド/データ処理のいずれかの実務経験
PdM・企画担当者、エンジニア、業務側メンバーと協働し、品質基準を意思決定に接続した経験
歓迎
Data Engineer、ML Engineer、Research Engineer、Security Engineer、Platform Engineer、Backend Engineer などの基礎技術領域で、専門性を磨いてきた経験
情報理工学系または関連分野での学士号、またはそれに準ずる基礎知識
教育、学習、B2C/B2B SaaS、ヘルスケア、法務、金融など高信頼領域でのAI運用経験
Ragas、DeepEval、OpenAI Evals、Langfuse、Arize Phoenix など評価・観測ツールの利用経験
敵対的テスト、レッドチーミング、プロンプトインジェクション対策、ハルシネーション対策の実務経験
検索品質、RAG評価、ランキング評価、推薦評価の経験
ファインチューニング、追加学習、またはモデルカスタマイズの経験
品質基盤やMLOps基盤の設計経験
技術発信、社内標準化、プレイブック作成の経験

関連スキル