메인 콘텐츠로 건너뛰기
LLM Evaluation Jobs는 CoreWeave에서 관리하는 인프라를 사용해 LLM 모델의 성능을 벤치마킹하는 프레임워크입니다. 최신 업계 표준을 폭넓게 아우르는 모델 평가 벤치마크 세트 중에서 선택한 뒤, W&B Models의 자동 리더보드와 차트를 통해 결과를 조회·분석·공유할 수 있습니다. LLM Evaluation Jobs를 사용하면 직접 GPU 인프라를 구축하고 유지 관리해야 하는 복잡성을 제거할 수 있습니다.
LLM Evaluation Jobs는 W&B 멀티 테넌트 클라우드에서 현재 미리보기(Preview) 단계입니다. 미리보기 기간 동안에는 컴퓨트 리소스를 무료로 사용할 수 있습니다. 자세히 알아보기

작동 방식

모델 체크포인트 또는 공개적으로 접근 가능한 OpenAI 호환 호스티드 모델을 몇 가지 단계만으로 평가할 수 있습니다:
  1. W&B Models에서 평가 작업을 설정합니다. 리더보드 생성 여부 등의 벤치마크와 구성을 정의합니다.
  2. 평가 작업을 실행합니다.
  3. 결과와 리더보드를 확인하고 분석합니다.
동일한 대상 프로젝트로 평가 작업을 실행할 때마다 해당 프로젝트의 리더보드는 자동으로 업데이트됩니다.
평가 작업 리더보드 예시

다음 단계

자세한 내용

가격

LLM Evaluation Jobs는 관리해야 할 인프라 없이, 완전 관리형 CoreWeave 컴퓨트에서 인기 있는 벤치마크로 모델 체크포인트 또는 호스팅된 API를 평가합니다. 유휴 시간(idle time)이 아니라 사용한 리소스에 대해서만 비용을 지불합니다. 가격은 컴퓨트와 스토리지 두 가지 요소로 구성됩니다. 컴퓨트는 퍼블릭 프리뷰 기간 동안 무료이며, 정식 출시 시점에 가격을 공지할 예정입니다. 저장된 결과에는 Models 실행에 저장된 메트릭과 예제별 trace가 포함됩니다. 스토리지는 데이터 양을 기준으로 월별 청구됩니다. 프리뷰 기간 동안 LLM Evaluation Jobs는 Multi-tenant Cloud에서만 사용할 수 있습니다. 자세한 내용은 Pricing 페이지를 참조하세요.

작업 제한

개별 평가 작업에는 다음과 같은 제한이 적용됩니다:
  • 컨텍스트를 포함해 평가할 수 있는 모델의 최대 크기는 86 GB입니다.
  • 각 작업은 최대 2개의 GPU만 사용할 수 있습니다.

요구 사항

  • 모델 체크포인트를 평가하려면 모델 가중치가 VLLM과 호환되는 아티팩트로 패키징되어 있어야 합니다. 자세한 내용과 예제 코드는 예시: 모델 준비하기를 참고하세요.
  • OpenAI 호환 모델을 평가하려면, 해당 모델이 공개 URL을 통해 접근 가능해야 하며, 조직 또는 팀 관리자(admin)가 인증용 API key를 포함한 팀 시크릿을 설정해야 합니다.
  • 일부 벤치마크는 점수 계산에 OpenAI 모델을 사용합니다. 이러한 벤치마크를 실행하려면, 조직 또는 팀 관리자(admin)가 필요한 API key를 포함한 팀 시크릿을 설정해야 합니다. 특정 벤치마크에 이 요구 사항이 있는지 확인하려면 Evaluation benchmark catalog를 참고하세요.
  • 일부 벤치마크는 Hugging Face의 게이트된 데이터셋에 대한 액세스가 필요합니다. 이러한 벤치마크를 실행하려면, 조직 또는 팀 관리자(admin)가 Hugging Face에서 해당 게이트된 데이터셋에 대한 액세스를 요청하고, Hugging Face 사용자 액세스 토큰을 생성한 다음 이를 팀 시크릿으로 설정해야 합니다. 특정 벤치마크에 이 요구 사항이 있는지 확인하려면 Evaluation benchmark catalog를 참고하세요.
이러한 요구 사항을 충족하는 방법에 대한 더 자세한 내용과 지침은 다음 문서를 참고하세요: