- Distillation: 더 크고 성능이 좋은 모델의 지식을 더 작고 빠른 모델로 이전
- 출력 스타일과 형식 학습: 모델이 특정 응답 형식, 톤, 구조를 따르도록 학습
- RL 전 워밍업: 추가 정제를 위해 강화 학습을 적용하기 전에 감독 학습 예제로 모델을 사전 학습
왜 Serverless SFT인가?
- 더 낮은 훈련 비용: 여러 사용자가 공유 인프라를 동시에 활용하도록 멀티플렉싱하고, 각 작업마다 별도의 설정 과정을 생략하며, 실제로 훈련 중이 아닐 때 GPU 비용이 0이 되도록 스케일링함으로써, Serverless SFT는 훈련 비용을 크게 절감합니다.
- 더 빠른 훈련 시간: 필요한 순간에 즉시 훈련 인프라를 프로비저닝하여, Serverless SFT는 훈련 작업을 가속하고 더 빠르게 반복할 수 있게 합니다.
- 자동 배포: Serverless SFT는 학습한 모든 체크포인트를 자동으로 배포하여, 호스팅 인프라를 수동으로 구성할 필요를 없앱니다. 학습된 모델은 로컬, 스테이징, 프로덕션 환경에서 즉시 접근하고 테스트할 수 있습니다.
Serverless SFT가 W&B 서비스를 사용하는 방식
- Inference: 모델을 실행하기 위해
- Models: LoRA 어댑터 학습 동안 성능 지표를 추적하기 위해
- Artifacts: LoRA 어댑터를 저장하고 버전 관리를 하기 위해
- Weave (optional): 학습 루프의 각 단계에서 모델이 어떻게 응답하는지에 대한 관측 가능성을 확보하기 위해