메인 콘텐츠로 건너뛰기
LLM Evaluation Jobs는 W&B 멀티 테넌트 클라우드에서 현재 미리보기(Preview) 단계입니다. 미리보기 기간 동안에는 컴퓨트 리소스를 무료로 사용할 수 있습니다. 자세히 알아보기
이 페이지에서는 CoreWeave가 관리하는 인프라를 사용해 W&B Models의 모델 체크포인트에 대해 일련의 평가 벤치마크를 실행하기 위해 LLM Evaluation Jobs를 사용하는 방법을 설명합니다. 공개 URL을 통해 제공되는 API 호스팅 모델을 평가하려면, 대신 API 호스팅 모델 평가하기를 참조하세요.

사전 준비 사항

  1. LLM 평가 작업에 대한 요구 사항 및 제한 사항을 검토합니다.
  2. 특정 벤치마크를 실행하려면 팀 관리자(admin)가 필요한 API key를 team 범위 시크릿으로 추가해야 합니다. 팀 멤버라면 누구나 평가 작업을 구성할 때 해당 시크릿을 지정할 수 있습니다. 요구 사항은 Evaluation model catalog를 참고하십시오.
    • OpenAPI API key: 점수 산출에 OpenAI 모델을 사용하는 벤치마크에서 사용됩니다. 벤치마크를 선택한 후 Scorer API key 필드가 표시되는 경우 필수입니다. 시크릿 이름은 OPENAI_API_KEY여야 합니다.
    • Hugging Face user access token: 하나 이상의 제한된 공개 Hugging Face 데이터셋에 접근해야 하는 lingoly, lingoly2와 같은 특정 벤치마크에 필요합니다. 벤치마크를 선택한 후 Hugging Face Token 필드가 표시되는 경우 필수입니다. 이 API key는 해당 데이터셋에 대한 접근 권한을 가져야 합니다. 자세한 내용은 Hugging Face 문서의 User access tokensaccessing gated datasets를 참조하십시오.
  3. 평가 결과를 위한 새 W&B 프로젝트를 생성합니다. 왼쪽 내비게이션에서 Create new project를 클릭합니다.
  4. 모델을 VLLM 호환 형식으로 패키징하고 W&B Models에서 아티팩트로 저장합니다. 다른 유형의 아티팩트에 대해 벤치마크를 시도하면 실패합니다. 한 가지 방법은 이 페이지 마지막의 예시: 모델 준비를 참고하십시오.
  5. 각 벤치마크 문서를 검토하여 동작 방식을 이해하고 구체적인 요구 사항을 파악합니다. 편의를 위해 사용 가능한 평가 벤치마크 참고 문서에 관련 링크가 포함되어 있습니다.

모델 평가하기

다음 단계를 따라 평가 작업을 설정하고 실행합니다:
  1. W&B에 로그인한 뒤, 왼쪽 내비게이션에서 Launch를 클릭합니다. LLM Evaluation Jobs 페이지가 표시됩니다.
  2. 평가 작업을 설정하려면 Evaluate model checkpoint를 클릭합니다.
  3. 평가 결과를 저장할 대상 프로젝트를 선택합니다.
  4. Model artifact 섹션에서 평가할 준비된 모델의 프로젝트, 아티팩트, 버전을 지정합니다.
  5. Evaluations를 클릭한 다음, 최대 네 개의 벤치마크를 선택합니다.
  6. OpenAI 모델을 사용해 점수를 매기는 벤치마크를 선택하면 Scorer API key 필드가 표시됩니다. 이 필드를 클릭한 다음 OPENAI_API_KEY secret을 선택합니다. 편의를 위해, 팀 관리자(admin)는 이 드로어에서 Create secret을 클릭해 바로 secret을 생성할 수 있습니다.
  7. Hugging Face의 권한이 필요한(gated) 데이터셋에 대한 접근이 필요한 벤치마크를 선택하면 Hugging Face token 필드가 표시됩니다. 관련 데이터셋에 대한 접근을 요청한 뒤, Hugging Face 사용자 액세스 토큰이 포함된 secret을 선택합니다.
  8. 선택 사항으로, Sample limit에 양의 정수를 설정해 평가할 벤치마크 샘플의 최대 개수를 제한할 수 있습니다. 설정하지 않으면 해당 태스크의 모든 샘플이 포함됩니다.
  9. 리더보드를 자동으로 생성하려면 Publish results to leaderboard를 클릭합니다. 리더보드는 워크스페이스 패널에서 모든 평가를 함께 표시하며, 리포트에 공유할 수도 있습니다.
  10. Launch를 클릭하여 평가 작업을 실행합니다.
  11. 페이지 상단의 원형 화살표 아이콘을 클릭하여 최근 실행 모달을 엽니다. 평가 작업은 다른 최근 실행과 함께 표시됩니다. 완료된 실행 이름을 클릭하면 단일 실행 보기(single-run view)로 열리고, Leaderboard 링크를 클릭하면 리더보드를 바로 열 수 있습니다. 자세한 내용은 결과 보기를 참조하세요.
첫 번째 모델을 평가한 이후에는, 다음 평가 작업을 구성할 때 많은 필드가 가장 최근 값으로 미리 채워집니다.
다음 예시 평가 작업은 하나의 아티팩트에 대해 두 개의 벤치마크를 실행합니다:
Example model checkpoint evaluation job
다음 예시 리더보드는 여러 모델의 성능을 함께 시각화한 것입니다:
Example leaderboard visualizing the performance of several models against several benchmark tasks

평가 결과 검토

대상 프로젝트의 워크스페이스에 있는 W&B Models에서 평가 작업 결과를 검토합니다.
  1. 페이지 상단의 원형 화살표 아이콘을 클릭하여 최근 실행 모달 창을 엽니다. 여기에서 평가 작업은 프로젝트의 다른 실행과 함께 표시됩니다. 평가 작업에 리더보드가 있는 경우 Leaderboard를 클릭하여 전체 화면으로 리더보드를 열거나, 실행 이름을 클릭하여 해당 실행을 프로젝트에서 단일 실행 보기로 엽니다.
  2. 워크스페이스의 Evaluations 섹션이나 Weave 사이드바 패널의 Traces 탭에서 평가 작업의 트레이스를 확인합니다.
  3. Overview 탭을 클릭하여 구성 및 요약 지표를 포함한 평가 작업의 자세한 정보를 확인합니다.
  4. Logs 탭을 클릭하여 평가 작업의 디버그 로그를 보고, 검색하거나 다운로드합니다.
  5. Files 탭을 클릭하여 코드, 로그, 구성 및 기타 출력 파일을 포함한 평가 작업의 파일을 탐색, 조회 또는 다운로드합니다.

리더보드를 사용자 지정하기

리더보드는 특정 프로젝트로 전송된 모든 평가 작업의 결과를 표시하며, 평가 작업당 벤치마크마다 한 행으로 구성됩니다. 열에는 평가 작업에 대한 트레이스, 입력 값, 출력 값 등의 세부 정보가 표시됩니다. 리더보드에 대한 자세한 내용은 Weave의 리더보드를 참고하세요.
리더보드의 결과에 대해 피드백을 남기려면 Feedback 열에서 이모지 아이콘 또는 채팅 아이콘을 클릭하세요.
  • 기본적으로 모든 평가 작업이 표시됩니다. 왼쪽의 실행 선택기를 사용하여 평가 작업을 필터링하거나 검색하세요.
  • 기본적으로 평가 작업은 그룹화되지 않습니다. 하나 이상의 열을 기준으로 그룹화하려면 Group 아이콘을 클릭하세요. 그룹을 표시하거나 숨기고, 그룹을 확장하여 해당 실행을 볼 수 있습니다.
  • 기본적으로 모든 op가 표시됩니다. 단일 op만 표시하려면 All ops를 클릭하고 op를 선택하세요.
  • 열을 기준으로 정렬하려면 열 헤더를 클릭하세요. 열 표시를 사용자 지정하려면 Columns를 클릭하세요.
    • 기본적으로 헤더는 단일 레벨로 구성됩니다. 관련 헤더를 함께 구성하기 위해 헤더 깊이를 늘릴 수 있습니다.
    • 개별 열을 선택 또는 선택 해제하여 표시하거나 숨기고, 클릭 한 번으로 모든 열을 표시하거나 숨길 수 있습니다.
    • 열을 고정하여 고정되지 않은 열보다 앞에 표시되도록 할 수 있습니다.

리더보드 내보내기

리더보드를 내보내려면:
  1. Columns 버튼 근처에 있는 다운로드 아이콘을 클릭합니다.
  2. 내보낸 파일 크기를 최적화하기 위해 기본적으로 트레이스 루트(trace root)만 내보내집니다. 전체 트레이스를 내보내려면 Trace roots only를 끕니다.
  3. 내보낸 파일 크기를 최적화하기 위해 기본적으로 피드백과 비용 정보는 내보내지 않습니다. 내보내기에 포함하려면 Feedback 또는 Costs를 켭니다.
  4. 기본 내보내기 형식은 JSONL입니다. 형식을 변경하려면 Export to file을 클릭하고 원하는 형식을 선택합니다.
  5. 브라우저에서 리더보드를 내보내려면 Export를 클릭합니다.
  6. 코드로 리더보드를 내보내려면 Python 또는 cURL을 선택한 다음 Copy를 클릭하고 스크립트나 명령을 실행합니다.

평가 작업 재실행

상황에 따라 평가 작업을 다시 실행하거나 해당 작업의 구성을 확인하는 방법은 여러 가지가 있습니다.
  • 직전에 실행한 평가 작업을 다시 실행하려면 모델 평가의 단계를 따르세요. 대상 프로젝트를 선택하면 지난번에 선택했던 모델 아티팩트 정보와 벤치마크가 자동으로 채워집니다. 필요에 따라 설정을 조정한 후 평가 작업을 실행하세요.
  • 프로젝트의 Runs 탭 또는 실행 선택기에서 평가 작업을 다시 실행하려면, 실행 이름 위에 마우스를 올린 뒤 재생 아이콘을 클릭하세요. 그러면 설정이 미리 채워진 작업 구성 패널이 표시됩니다. 필요에 따라 설정을 조정한 다음 Launch를 클릭하세요.
  • 다른 프로젝트에서 평가 작업을 다시 실행하려면 해당 작업의 구성을 가져오세요:
    1. 모델 평가의 단계를 따르세요. 대상 프로젝트를 선택한 후 Import configuration을 클릭하세요.
    2. 가져올 평가 작업이 포함된 프로젝트를 선택한 다음, 해당 평가 작업 실행을 선택하세요. 그러면 설정이 미리 채워진 작업 구성 패널이 표시됩니다.
    3. 필요에 따라 구성을 조정하세요.
    4. Launch를 클릭하세요.

평가 작업 구성 내보내기

실행의 Files 탭에서 평가 작업 구성을 내보냅니다.
  1. 단일 실행 보기에서 해당 실행을 엽니다.
  2. Files 탭을 클릭합니다.
  3. config.yaml 옆의 다운로드 버튼을 클릭해 로컬로 다운로드합니다.

예시: 모델 준비하기

모델을 준비하려면 W&B Models에서 모델을 불러온 다음, 모델 가중치를 VLLM과 호환되는 형식으로 패키징하고 결과를 저장합니다. 다음 예시는 이를 수행하는 한 가지 방법을 보여줍니다:
import os
from transformers import AutoTokenizer, AutoModelForCausalLM

# 모델 로드
model_name = "your-model-name"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# vLLM 호환 형식으로 저장
save_dir = "path/to/save"
tokenizer.save_pretrained(save_dir)
model.save_pretrained(save_dir)

# W&B Models에 저장
import wandb
wandb_run = wandb.init(entity="your-entity-name", project="your-project-name")
artifact = wandb.Artifact(name="your-artifact-name")
artifact.add_dir(save_dir)
logged_artifact = wandb_run.log_artifact(artifact)
logged_artifact.wait()
wandb.finish()