CreateTrainingJob API에 전달되는 매개변수를 제어할 수 있습니다.
Amazon SageMaker는 Docker 이미지를 사용해 Training Job을 실행합니다. SageMaker가 pull하는 이미지는 Amazon Elastic Container Registry(ECR)에 저장되어 있어야 합니다. 즉, 학습에 사용할 이미지는 ECR에 저장되어 있어야 합니다.
이 가이드는 SageMaker Training Job을 실행하는 방법을 보여줍니다. Amazon SageMaker에서 추론용 모델을 배포하는 방법은 이 Launch 작업 예제를 참고하세요.
사전 준비 사항
- Docker 이미지를 Launch 에이전트가 대신 빌드하도록 할지 결정하세요.
- AWS 리소스를 설정하고 S3, ECR, SageMaker IAM 역할에 대한 정보를 수집하세요.
- Launch 에이전트용 IAM 역할을 생성하세요.
Launch agent가 Docker 이미지를 빌드하도록 할지 결정하기
- Launch agent가 Docker 이미지를 빌드하고, 그 이미지를 Amazon ECR에 푸시한 다음, 대신 SageMaker Training 작업을 제출하도록 허용합니다. 이 옵션은 학습 코드를 빠르게 반복 개발하는 ML 엔지니어에게 더 단순한 워크플로를 제공할 수 있습니다.
- Launch agent가 학습 또는 추론 스크립트를 포함한 기존 Docker 이미지를 사용하도록 합니다. 이 옵션은 기존 CI 시스템과 잘 연동됩니다. 이 옵션을 선택하는 경우, Docker 이미지를 Amazon ECR의 컨테이너 레지스트리에 수동으로 업로드해야 합니다.
AWS 리소스 설정
- 컨테이너 이미지를 저장할 ECR 리포지토리
- SageMaker Training 작업의 입력 및 출력을 저장할 하나 이상의 S3 버킷
- SageMaker가 Training 작업을 실행하고 Amazon ECR 및 Amazon S3와 상호작용할 수 있도록 권한을 부여하는 Amazon SageMaker용 IAM 역할
Launch 에이전트를 위한 IAM 정책 생성
- AWS 콘솔의 IAM 화면에서 새 정책을 생성합니다.
- JSON 정책 편집기로 전환한 다음, 사용 사례에 맞게 아래 정책을 붙여넣습니다.
<>로 둘러싸인 값은 실제 값으로 바꿉니다.
- 에이전트가 미리 빌드된 Docker 이미지를 제출
- 에이전트가 Docker 이미지를 빌드하여 제출
- Next를 클릭합니다.
- 정책 이름과 설명을 입력합니다.
- Create policy를 클릭합니다.
Launch agent용 IAM 역할 생성
- AWS의 IAM 화면에서 새 역할을 생성합니다.
- Trusted Entity로 AWS Account(또는 조직의 정책에 맞는 다른 옵션)를 선택합니다.
- 권한 화면을 내려서 위에서 방금 생성한 정책 이름을 선택합니다.
- 역할의 이름과 설명을 입력합니다.
- Create role을 선택합니다.
- 역할의 ARN을 기록해 둡니다. Launch agent를 설정할 때 이 ARN을 지정합니다.
- Launch agent가 이미지를 빌드하도록 하려면, 필요한 추가 권한은 Advanced agent set up을 참조하세요.
- SageMaker 큐에 대한
kms:CreateGrant권한은 연결된 ResourceConfig에 VolumeKmsKeyId가 지정되어 있고, 연결된 역할에 이 작업을 허용하는 정책이 없을 때만 필요합니다.
SageMaker용 Launch 큐 구성
- Launch App으로 이동합니다.
- Create Queue 버튼을 클릭합니다.
- 큐를 생성할 Entity를 선택합니다.
- Name 필드에 큐 이름을 입력합니다.
- Resource로 SageMaker를 선택합니다.
- Configuration 필드에 SageMaker 작업에 대한 정보를 입력합니다. 기본적으로 W&B는 YAML 및 JSON 형식의
CreateTrainingJob요청 본문을 자동으로 채워 넣습니다:
RoleArn: SageMaker 실행 IAM 역할의 ARN입니다(사전 준비 참조). Launch 에이전트 IAM 역할과 혼동하지 마십시오.OutputDataConfig.S3OutputPath: SageMaker 출력이 저장될 위치를 지정하는 Amazon S3 URI입니다.ResourceConfig: 필수 리소스 구성 사양입니다. 리소스 구성 옵션은 여기에 정리되어 있습니다.StoppingCondition: 학습 작업의 중지 조건에 대한 필수 사양입니다. 옵션은 여기에 정리되어 있습니다.
- Create Queue 버튼을 클릭합니다.
Launch agent 설정
Launch 에이전트를 어디에서 실행할지 결정
t2.micro 크기의 EC2 인스턴스 정도면 충분합니다.
실험적이거나 개인 단일 사용 사례의 경우, 로컬 머신에서 Launch 에이전트를 실행하는 것이 빠르게 시작하는 방법이 될 수 있습니다.
사용 사례에 따라, Launch 에이전트를 올바르게 구성하기 위해 다음 탭에 제공된 안내를 따르십시오:
- EKS
- EC2
- 로컬 머신
W&B에서는 EKS 클러스터에 에이전트를 설치할 때 W&B에서 관리하는 helm chart를 사용하는 것을 강력히 권장합니다.
launch 에이전트 구성
launch-config.yaml라는 이름의 YAML 구성 파일로 launch 에이전트를 구성합니다.
기본적으로 W&B는 ~/.config/wandb/launch-config.yaml 위치에서 구성 파일을 찾습니다. -c 플래그와 함께 launch 에이전트를 활성화할 때 다른 디렉터리를 선택적으로 지정할 수 있습니다.
다음 YAML 스니펫은 핵심 에이전트 구성 옵션을 지정하는 방법을 보여줍니다:
launch-config.yaml
wandb launch-agent를 실행해 에이전트를 시작하세요
(선택 사항) Launch 작업용 Docker 이미지를 Amazon ECR에 푸시하기
이 섹션은 Launch 에이전트가 학습 또는 추론 로직을 포함한 기존 Docker 이미지를 사용할 때에만 적용됩니다. Launch 에이전트의 동작 방식에는 두 가지 옵션이 있습니다.