메인 콘텐츠로 건너뛰기
현재 퍼블릭 프리뷰 단계인 서버리스 RL은 개발자가 LLM을 사후 학습하여 새로운 동작을 익히게 하고, 멀티턴 에이전트 기반 작업을 수행할 때의 신뢰성, 속도, 비용을 개선할 수 있도록 도와줍니다. W&B가 (CoreWeave) 위에 학습 인프라를 대신 프로비저닝하면서도, 사용자의 환경 구성에는 완전한 유연성을 제공합니다. 서버리스 RL을 사용하면 탄력적으로 자동 확장되어 수십 개의 GPU까지 규모를 늘릴 수 있는 관리형 학습 클러스터에 즉시 액세스할 수 있습니다. RL 워크플로를 추론 단계와 학습 단계로 분리한 뒤 여러 작업에 멀티플렉싱함으로써, 서버리스 RL은 GPU 사용률을 높이고 학습 시간과 비용을 절감합니다. 서버리스 RL은 다음과 같은 작업에 적합합니다:
  • 보이스 에이전트
  • 심층 리서치 어시스턴트
  • 온프렘(온프레미스) 모델
  • 콘텐츠 마케팅 분석 에이전트
서버리스 RL은 저랭크 어댑터(LoRA)를 학습하여 에이전트의 특정 작업에 맞게 모델을 특화합니다. 이를 통해 실제 운영 경험을 바탕으로 원본 모델의 기능을 확장할 수 있습니다. 여러분이 학습한 LoRA는 W&B 계정에 아티팩트로 자동 저장되며, 로컬 또는 서드 파티 위치에 백업용으로 저장할 수 있습니다. 서버리스 RL을 통해 학습한 모델은 W&B Inference에 자동으로 호스팅됩니다. 시작하려면 ART 퀵스타트 또는 Google Colab 노트북을 참고하세요.

왜 Serverless RL인가?

강화학습(RL)은 직접 보유하거나 임대한 GPU를 포함해 다양한 학습 환경에서 사용할 수 있는 강력한 학습 기법들의 집합입니다. Serverless RL은 RL 사후 학습(post-training) 단계에서 다음과 같은 이점을 제공합니다:
  • 더 낮은 학습 비용: 여러 사용자가 인프라를 효율적으로 공유해 사용하고, 각 작업마다 개별 설정 과정을 건너뛰며, 학습 중이 아닐 때 GPU 비용을 0으로 줄임으로써, Serverless RL은 학습 비용을 크게 절감합니다.
  • 더 짧은 학습 시간: 추론 요청을 여러 GPU에 분산하고, 필요한 시점에 즉시 학습 인프라를 프로비저닝함으로써, Serverless RL은 학습 작업을 가속화하고 더 빠른 반복을 가능하게 합니다.
  • 자동 배포: Serverless RL은 학습한 모든 체크포인트를 자동으로 배포하여, 호스팅 인프라를 수동으로 구성할 필요를 없앱니다. 학습된 모델은 로컬, 스테이징, 프로덕션 환경에서 즉시 액세스해 테스트할 수 있습니다.

Serverless RL이 W&B 서비스를 사용하는 방법

Serverless RL은 다음 W&B 구성 요소를 조합해 운영됩니다:
  • Inference: 모델을 실행하는 데 사용
  • Models: LoRA 어댑터 학습 중 성능 지표를 추적하는 데 사용
  • Artifacts: LoRA 어댑터를 저장하고 버전 관리하는 데 사용
  • Weave (optional): 학습 루프 각 단계에서 모델 응답을 관찰할 수 있도록 가시성을 확보하는 데 사용
Serverless RL은 현재 공개 프리뷰 단계입니다. 프리뷰 기간에는 추론 사용량과 아티팩트 저장에 대해서만 비용이 청구됩니다. W&B는 프리뷰 기간 동안 어댑터 학습에 대해서는 비용을 청구하지 않습니다.