LLM Evaluation Jobs는 W&B 멀티 테넌트 클라우드에서 현재 미리보기(Preview) 단계입니다. 미리보기 기간 동안에는 컴퓨트 리소스를 무료로 사용할 수 있습니다. 자세히 알아보기
작동 방식
- W&B Models에서 평가 작업을 설정합니다. 리더보드 생성 여부 등의 벤치마크와 구성을 정의합니다.
- 평가 작업을 실행합니다.
- 결과와 리더보드를 확인하고 분석합니다.

다음 단계
- 평가 벤치마크 카탈로그를 살펴보세요
- 모델 체크포인트를 평가하세요
- API로 호스팅된 모델을 평가하세요
자세한 내용
가격
작업 제한
- 컨텍스트를 포함해 평가할 수 있는 모델의 최대 크기는 86 GB입니다.
- 각 작업은 최대 2개의 GPU만 사용할 수 있습니다.
요구 사항
- 모델 체크포인트를 평가하려면 모델 가중치가 VLLM과 호환되는 아티팩트로 패키징되어 있어야 합니다. 자세한 내용과 예제 코드는 예시: 모델 준비하기를 참고하세요.
- OpenAI 호환 모델을 평가하려면, 해당 모델이 공개 URL을 통해 접근 가능해야 하며, 조직 또는 팀 관리자(admin)가 인증용 API key를 포함한 팀 시크릿을 설정해야 합니다.
- 일부 벤치마크는 점수 계산에 OpenAI 모델을 사용합니다. 이러한 벤치마크를 실행하려면, 조직 또는 팀 관리자(admin)가 필요한 API key를 포함한 팀 시크릿을 설정해야 합니다. 특정 벤치마크에 이 요구 사항이 있는지 확인하려면 Evaluation benchmark catalog를 참고하세요.
- 일부 벤치마크는 Hugging Face의 게이트된 데이터셋에 대한 액세스가 필요합니다. 이러한 벤치마크를 실행하려면, 조직 또는 팀 관리자(admin)가 Hugging Face에서 해당 게이트된 데이터셋에 대한 액세스를 요청하고, Hugging Face 사용자 액세스 토큰을 생성한 다음 이를 팀 시크릿으로 설정해야 합니다. 특정 벤치마크에 이 요구 사항이 있는지 확인하려면 Evaluation benchmark catalog를 참고하세요.