募集要項
会社名
ポジション名
【CIU】ソフトウェアエンジニア(機械学習基盤)
仕事内容
■部署紹介
CIU(CyberAgent group Infrastructure Unit)は、サイバーエージェントグループ全体のインフラを支える組織です。Cycloud というブランドでプライベートクラウドを展開しており、OpenStack (IaaS)、AKE (KaaS)、ML Platform (機械学習基盤) など様々なサービスを提供しています。
■仕事内容
機械学習基盤 ML Platformの開発・運用を行い、社内のAI系技術者やプロダクトの開発効率化・速度向上・コスト削減を支援しています。
ML PlatformではGPUインスタンスの払い出し、機械学習ジョブの実行、機械学習モデルのデプロイといった機能を提供しています。今後はこれらの他にもMLOpsを推進するための機能を開発していく予定です。またこれらのサービスは基本的にKubernetes上のアプリケーションとして作られており、基礎的な機械学習の知識に加えてKubernetesに対する深い知識も必要になります。
サイバーエージェントは技術選定が自由であるため、ユーザーとなる社内プロダクトがパブリッククラウドを使うかCycloudを使うかは自由です。その中でCycloudのML Platformを選択してもらうために、ユーザーの求めるUXや機能を備えたサービスを作るのが我々のミッションです。
具体的な仕事内容は下記になります。
1. 大規模な GPU Kubernetes クラスタの開発、運用
・物理 GPU ノードのセットアップ(OS インストールやパラメーターチューニング)
・Kubernetes クラスタの構築・運用
・定期的な Kubernetes クラスタのバージョンアップデート
・Kubernetes の最新バージョンに対するキャッチアップ
・大規模計算クラスタのための技術検証・導入(NVIDIA H100, RoCEv2/RDMA, NCCL など)
2. AI 系の開発を支援する機械学習サービスの開発、運用
・GPU インスタンスや Jupyter Notebook を払い出すサービスの開発
・各種機械学習フレームワークを用いたジョブシステムの開発(Pytorch/Tensorflow/etc.)
・機械学習モデルのサーバーレスデプロイシステムの開発
・機械学習のためのノード間分散ジョブシステムの開発(MPI)
・Kubernetes カスタムコントローラー(Go)の開発
・Kubeflow などの機械学習系エコシステムの検証・導入・コントリビュート
3. ML Platform の規模拡大
・新規・既存社内ユーザーとの積極的なコミュニケーションや折衝
・ユーザーサポート(Python の学習スクリプトの調査など)
・AI 系技術や最新 GPU に対するキャッチアップ
・GPU リソースの需要調査や増設に向けた選定・導入
CIU(CyberAgent group Infrastructure Unit)は、サイバーエージェントグループ全体のインフラを支える組織です。Cycloud というブランドでプライベートクラウドを展開しており、OpenStack (IaaS)、AKE (KaaS)、ML Platform (機械学習基盤) など様々なサービスを提供しています。
■仕事内容
機械学習基盤 ML Platformの開発・運用を行い、社内のAI系技術者やプロダクトの開発効率化・速度向上・コスト削減を支援しています。
ML PlatformではGPUインスタンスの払い出し、機械学習ジョブの実行、機械学習モデルのデプロイといった機能を提供しています。今後はこれらの他にもMLOpsを推進するための機能を開発していく予定です。またこれらのサービスは基本的にKubernetes上のアプリケーションとして作られており、基礎的な機械学習の知識に加えてKubernetesに対する深い知識も必要になります。
サイバーエージェントは技術選定が自由であるため、ユーザーとなる社内プロダクトがパブリッククラウドを使うかCycloudを使うかは自由です。その中でCycloudのML Platformを選択してもらうために、ユーザーの求めるUXや機能を備えたサービスを作るのが我々のミッションです。
具体的な仕事内容は下記になります。
1. 大規模な GPU Kubernetes クラスタの開発、運用
・物理 GPU ノードのセットアップ(OS インストールやパラメーターチューニング)
・Kubernetes クラスタの構築・運用
・定期的な Kubernetes クラスタのバージョンアップデート
・Kubernetes の最新バージョンに対するキャッチアップ
・大規模計算クラスタのための技術検証・導入(NVIDIA H100, RoCEv2/RDMA, NCCL など)
2. AI 系の開発を支援する機械学習サービスの開発、運用
・GPU インスタンスや Jupyter Notebook を払い出すサービスの開発
・各種機械学習フレームワークを用いたジョブシステムの開発(Pytorch/Tensorflow/etc.)
・機械学習モデルのサーバーレスデプロイシステムの開発
・機械学習のためのノード間分散ジョブシステムの開発(MPI)
・Kubernetes カスタムコントローラー(Go)の開発
・Kubeflow などの機械学習系エコシステムの検証・導入・コントリビュート
3. ML Platform の規模拡大
・新規・既存社内ユーザーとの積極的なコミュニケーションや折衝
・ユーザーサポート(Python の学習スクリプトの調査など)
・AI 系技術や最新 GPU に対するキャッチアップ
・GPU リソースの需要調査や増設に向けた選定・導入
求める経験
【必須の経験・スキル】
以下全てを満たす経験をお持ちの方
・計算機科学に対する基本的な知識および理解
・機械学習や GPU に対する基本的な知識および理解
・Linux 環境における開発および運用経験
・Kubernetes などのコンテナオーケストレーションツールを用いた運用経験
・プログラミング言語を用いた 3 年以上の開発経験(Go が望ましい)
【歓迎する経験・知識】
以下の経験・知識を一つでもお持ちの方
・Kubernetes カスタムコントローラーの開発経験
・Kubernetes 各種認定資格の取得(CKA/CKAD/CKS/KCNA)
・最新の機械学習やフレームワークに対する知識および理解
・HPC を目的とした大規模計算クラスタに対する知識および理解
・MLOps の知識・実践経験
・Kubeflow, Kueue, MPI Operator の知識・運用経験(分散学習の経験)
・Web API におけるセキュリティ対策の経験
・パブリッククラウド(GCP/AWS/etc.)の AI 系サービスを用いた開発経験
・フロント(React)の開発経験
・OSS コミュニティでの開発経験
以下全てを満たす経験をお持ちの方
・計算機科学に対する基本的な知識および理解
・機械学習や GPU に対する基本的な知識および理解
・Linux 環境における開発および運用経験
・Kubernetes などのコンテナオーケストレーションツールを用いた運用経験
・プログラミング言語を用いた 3 年以上の開発経験(Go が望ましい)
【歓迎する経験・知識】
以下の経験・知識を一つでもお持ちの方
・Kubernetes カスタムコントローラーの開発経験
・Kubernetes 各種認定資格の取得(CKA/CKAD/CKS/KCNA)
・最新の機械学習やフレームワークに対する知識および理解
・HPC を目的とした大規模計算クラスタに対する知識および理解
・MLOps の知識・実践経験
・Kubeflow, Kueue, MPI Operator の知識・運用経験(分散学習の経験)
・Web API におけるセキュリティ対策の経験
・パブリッククラウド(GCP/AWS/etc.)の AI 系サービスを用いた開発経験
・フロント(React)の開発経験
・OSS コミュニティでの開発経験
求める人物像
・ソフトウェアからインフラまで幅広く興味があるエンジニアの方
・向上心が高く、新しい技術の習得に対して抵抗がない方
・良好なコミュニケーション能力により、チーム内や他部署と調整可能な方
・サービス、ユーザー中心で物事を考えられる方
・クラウドネイティブ技術に親和性のある方
・OSS のアップストリームを追従・貢献する気持ちのある方
・向上心が高く、新しい技術の習得に対して抵抗がない方
・良好なコミュニケーション能力により、チーム内や他部署と調整可能な方
・サービス、ユーザー中心で物事を考えられる方
・クラウドネイティブ技術に親和性のある方
・OSS のアップストリームを追従・貢献する気持ちのある方
語学力
英語力:
不要
勤務時間
残業時間:有
10:00~19:00(休憩1時間)
職種によっては裁量労働制適用
10:00~19:00(休憩1時間)
職種によっては裁量労働制適用
勤務地
東京都
勤務地詳細
東京都渋谷区宇田川町40番1号 Abema Towers
東京本社
※屋内の受動喫煙対策 有(喫煙室あり)
東京本社
※屋内の受動喫煙対策 有(喫煙室あり)
転勤
転勤の有無:無
雇用形態
正社員
給与
給与形態:
年俸制
応相談
※年俸制
※経験・能力を考慮の上、当社規定により優遇します。
※半期ごとの目標管理制度を導入しており、評価に応じて年俸を見直します。
※選考の中で最終的なスキル・経験を加味した後、正社員・契約社員どちらかでの採用となります。
応相談
※年俸制
※経験・能力を考慮の上、当社規定により優遇します。
※半期ごとの目標管理制度を導入しており、評価に応じて年俸を見直します。
※選考の中で最終的なスキル・経験を加味した後、正社員・契約社員どちらかでの採用となります。
この求人にご興味をお持ちの方は
「転職支援サービス」にお申し込みください。
求人情報は変更が入り次第速やかに更新しています。また定期的(1~3ヵ月毎)に最新情報を確認し、更新しています。