- Serverless RL: 멀티 턴 에이전트 작업을 수행하면서 신뢰성을 향상시키고, 속도를 높이며 비용을 절감합니다. RL은 모델이 출력에 대한 피드백을 통해 스스로의 행동을 개선하도록 학습하는 기법입니다.
- Serverless SFT: 디스틸레이션, 출력 스타일 및 포맷 학습, 또는 RL 이전 워밍업을 위해 정제된 데이터셋을 사용해 모델을 미세 튜닝합니다.
- 유연한 미세 튜닝 프레임워크인 ART
- 범용 검증기인 RULER
- CoreWeave Cloud 상의 완전 관리형 백엔드