개요
- W&B 계정과 Kubernetes 클러스터를 가지고 있는지 확인합니다.
- Volcano 작업을 위한 Launch 큐를 생성합니다.
- Kubernetes 클러스터에 Launch 에이전트를 배포합니다.
- 분산 학습 작업을 생성합니다.
- 분산 학습을 실행합니다.
사전 준비 사항
- W&B 계정
- Kubernetes 클러스터
Launch 큐 생성하기
- YAML
- JSON
Volcano 설치
Launch 에이전트 배포하기
helm-charts 리포지토리의 launch-agent 차트를 사용하는 것입니다. README의 안내에 따라 해당 차트를 Kubernetes 클러스터에 설치하고, 앞서 생성한 큐를 주기적으로 조회(polling)하도록 에이전트를 반드시 설정하세요.
학습 잡 생성하기
MASTER_ADDR, RANK, WORLD_SIZE와 같이 PyTorch DDP가 동작하는 데 필요한 환경 변수를 자동으로 설정합니다. 사용자 정의 Python 코드에서 DDP를 사용하는 방법에 대한 자세한 내용은 PyTorch 문서를 참고하세요.
Volcano의 PyTorch 플러그인은 PyTorch Lightning
Trainer를 통한 멀티 노드 학습에도 호환됩니다.Launch

- job 파라미터를 원하는 대로 설정합니다.
- 앞에서 생성한 큐를 선택합니다.
- Resource config 섹션에서 volcano job을 수정해 job의 파라미터를 변경합니다. 예를 들어
worker태스크의replicas필드를 변경하여 워커 수를 조정할 수 있습니다. - Launch를 클릭합니다.