セッション内容

機械学習の推論基盤をEKSで構築しました。

kubeflow pipelinesで数百台規模のnodeで推論処理が動いていますが、kubeflow pipelinesの利用方法も含め、node数が多い場合のEKSで詰まった箇所などをお話します。

またコストを削減するために工夫した点や、autoscalingについての工夫についてもお話します。


登壇者

外山 寛

製造業大手web会社で分析基盤構築を担当し、現在は株式会社DeNA AIシステム部 MLエンジニアリンググループでAIプロジェクトのMLOPSやAIインフラ構築業務を担当。

k8s歴は半年〜くらいです

https://twitter.com/toyama0919
https://github.com/toyama0919

資料