
시작하기
uv를 사용해 Verifiers 라이브러리를 설치합니다 (라이브러리 작성자가 권장하는 방법). 다음 명령어 중 하나를 사용해 라이브러리를 설치하세요:
rollout을 추적하고 평가하기
실험 추적 및 트레이싱과 함께 모델 파인튜닝하기
verifiers 리포지토리에는 시작하는 데 도움이 되는 즉시 실행 가능한 예제가 포함되어 있습니다.
다음 예제 RL 훈련 파이프라인은 로컬 추론 서버를 실행하고 GSM8K 데이터셋을 사용해 모델을 훈련합니다. 모델은 수학 문제에 대한 답변을 생성하고, 훈련 루프는 출력에 점수를 매긴 뒤 그에 따라 모델을 업데이트합니다. W&B는 손실, 보상, 정확도 같은 훈련 지표를 로깅하고, Weave는 입력, 출력, 추론 과정, 그리고 점수를 캡처합니다.
이 파이프라인을 사용하려면:
- 소스 코드에서 프레임워크를 설치합니다. 다음 명령은 GitHub에서 Verifiers 라이브러리와 필요한 종속성을 설치합니다:
- 기성 환경을 설치합니다. 다음 명령으로 사전 구성된 GSM8K 학습 환경을 설치합니다:
- 모델을 학습합니다. 다음 명령은 각각 추론 서버와 학습 루프를 시작합니다. 이 예제 워크플로는 기본적으로
report_to=wandb로 설정되어 있으므로 별도로wandb.init을 호출할 필요가 없습니다. 이 머신이 W&B에 메트릭을 기록할 수 있도록 인증하라는 프롬프트가 표시됩니다.
이 예제는 H100 2개 환경에서 성공적으로 테스트되었으며, 안정성을 높이기 위해 다음 환경 변수를 설정했습니다:이 환경 변수는 디바이스 메모리 할당에 대해 CUDA Unified Memory(CuMem)를 비활성화합니다.
Environment.a_generate 및 Rubric.score_rollouts 메서드의 logprobs가 포함되지 않습니다. 이는 페이로드 크기를 작게 유지하면서 학습을 위해 원본 데이터는 그대로 보존하기 위한 것입니다.