서버리스 RL

현재 퍼블릭 프리뷰 단계인 서버리스 RL은 개발자가 LLM을 사후 학습하여 새로운 동작을 익히게 하고, 멀티턴 에이전트 기반 작업을 수행할 때의 신뢰성, 속도, 비용을 개선할 수 있도록 도와줍니다. W&B가 (CoreWeave) 위에 학습 인프라를 대신 프로비저닝하면서도, 사용자의 환경 구성에는 완전한 유연성을 제공합니다. 서버리스 RL을 사용하면 탄력적으로 자동 확장되어 수십 개의 GPU까지 규모를 늘릴 수 있는 관리형 학습 클러스터에 즉시 액세스할 수 있습니다. RL 워크플로를 추론 단계와 학습 단계로 분리한 뒤 여러 작업에 멀티플렉싱함으로써, 서버리스 RL은 GPU 사용률을 높이고 학습 시간과 비용을 절감합니다. 서버리스 RL은 다음과 같은 작업에 적합합니다:

보이스 에이전트
심층 리서치 어시스턴트
온프렘(온프레미스) 모델
콘텐츠 마케팅 분석 에이전트

서버리스 RL은 저랭크 어댑터(LoRA)를 학습하여 에이전트의 특정 작업에 맞게 모델을 특화합니다. 이를 통해 실제 운영 경험을 바탕으로 원본 모델의 기능을 확장할 수 있습니다. 여러분이 학습한 LoRA는 W&B 계정에 아티팩트로 자동 저장되며, 로컬 또는 서드 파티 위치에 백업용으로 저장할 수 있습니다. 서버리스 RL을 통해 학습한 모델은 W&B Inference에 자동으로 호스팅됩니다. 시작하려면 ART 퀵스타트 또는 Google Colab 노트북을 참고하세요.

왜 Serverless RL인가?

강화학습(RL)은 직접 보유하거나 임대한 GPU를 포함해 다양한 학습 환경에서 사용할 수 있는 강력한 학습 기법들의 집합입니다. Serverless RL은 RL 사후 학습(post-training) 단계에서 다음과 같은 이점을 제공합니다:

더 낮은 학습 비용: 여러 사용자가 인프라를 효율적으로 공유해 사용하고, 각 작업마다 개별 설정 과정을 건너뛰며, 학습 중이 아닐 때 GPU 비용을 0으로 줄임으로써, Serverless RL은 학습 비용을 크게 절감합니다.
더 짧은 학습 시간: 추론 요청을 여러 GPU에 분산하고, 필요한 시점에 즉시 학습 인프라를 프로비저닝함으로써, Serverless RL은 학습 작업을 가속화하고 더 빠른 반복을 가능하게 합니다.
자동 배포: Serverless RL은 학습한 모든 체크포인트를 자동으로 배포하여, 호스팅 인프라를 수동으로 구성할 필요를 없앱니다. 학습된 모델은 로컬, 스테이징, 프로덕션 환경에서 즉시 액세스해 테스트할 수 있습니다.

Serverless RL이 W&B 서비스를 사용하는 방법

Serverless RL은 다음 W&B 구성 요소를 조합해 운영됩니다:

Inference: 모델을 실행하는 데 사용
Models: LoRA 어댑터 학습 중 성능 지표를 추적하는 데 사용
Artifacts: LoRA 어댑터를 저장하고 버전 관리하는 데 사용
Weave (optional): 학습 루프 각 단계에서 모델 응답을 관찰할 수 있도록 가시성을 확보하는 데 사용

Serverless RL은 현재 공개 프리뷰 단계입니다. 프리뷰 기간에는 추론 사용량과 아티팩트 저장에 대해서만 비용이 청구됩니다. W&B는 프리뷰 기간 동안 어댑터 학습에 대해서는 비용을 청구하지 않습니다.

서버리스 SFT

API 레퍼런스

서버리스 RL

왜 Serverless RL인가?

Serverless RL이 W&B 서비스를 사용하는 방법

서버리스 RL

서버리스 SFT

API 레퍼런스

Documentation Index

​왜 Serverless RL인가?

​Serverless RL이 W&B 서비스를 사용하는 방법

왜 Serverless RL인가?

Serverless RL이 W&B 서비스를 사용하는 방법