메인 콘텐츠로 건너뛰기

Evaluation Playground

Evaluation Playground을 사용하면 기존 모델에 액세스하고, 평가 데이터셋과 LLM 기반 채점기를 활용해 성능을 비교할 수 있습니다. 이를 통해 코드를 작성하거나 설정하지 않고도 모델을 실험하고 비교하기 시작할 수 있습니다. 또한 Playground에서 구성한 모델, 스코러, 데이터셋을 저장해 두었다가 이후 개발과 배포에 사용할 수 있습니다. 예를 들어 Evaluation Playground를 열고, 이전에 저장해 둔 두 개의 모델을 추가한 다음, 새로 만든 또는 이전에 저장해 둔 질문-답변(question-answer) 형식의 평가 데이터셋을 기반으로 이들의 성능을 평가할 수 있습니다. 그런 다음 인터페이스에서 새 모델을 추가하고 그 모델에 시스템 프롬프트를 설정한 후, 세 개의 모델 모두에 대해 새로운 평가를 실행하여 서로 상대적인 성능을 확인할 수 있습니다.
Evaluation Playground Interface

Playground에서 평가 설정하기

Evaluation Playground에서 평가를 설정하려면:
  1. Weave UI를 연 다음, 평가를 수행하려는 프로젝트를 엽니다. 그러면 Traces 페이지가 열립니다.
  2. Traces 페이지의 왼쪽 메뉴에서 Playground 아이콘을 클릭한 다음, Playground 페이지에서 Evaluate 탭을 선택합니다. Evaluate 페이지에서 다음 중 하나를 수행할 수 있습니다:
    • Load a demo example: 미리 정의된 구성을 불러와 MoonshotAI Kimi K2 모델을 예상 출력에 대해 평가하고, LLM judge를 사용해 정답 여부를 판단합니다. 이 구성을 사용해 인터페이스를 실험해 볼 수 있습니다.
    • Start from scratch: 처음부터 구성할 수 있는 빈 구성을 불러옵니다.
  3. Start from scratch를 선택했다면, TitleDescription 필드에 평가를 설명하는 제목과 설명을 추가합니다.
다음 섹션의 안내에 따라 데이터셋, 모델, 그리고 스코어러를 설정하십시오.

데이터세트 추가

데이터세트는 예시 사용자 입력과 모델의 예상 응답을 모아 구성한 컬렉션입니다. 평가 중에 플레이그라운드는 각 테스트 입력을 모델에 전달하고, 모델의 출력을 수집한 뒤 정확성(correctness)과 같이 선택한 메트릭을 기준으로 출력을 점수화합니다. UI에서 새 데이터세트를 생성하거나, 이미 프로젝트에 저장된 기존 데이터세트를 추가하거나, 새 데이터세트를 업로드할 수 있습니다. 다음 형식의 데이터세트를 업로드할 수 있습니다:
  • .csv
  • .tsv
  • .json
  • .jsonl
데이터세트 포맷 및 Weave에 데이터세트를 저장하는 방법에 대한 자세한 내용은 Datasets 페이지를 참고하세요. Dataset 섹션에서 데이터세트를 추가하려면:
  1. 드롭다운 메뉴를 클릭한 다음, 다음 중 하나를 선택합니다:
    • Start from scratch: UI에서 새 데이터세트를 생성합니다.
    • Upload a file: 로컬 머신에서 데이터세트를 업로드합니다.
    • 프로젝트에 이미 저장된 기존 데이터세트.
  2. 선택 사항: Save를 클릭해 나중에 사용할 수 있도록 데이터세트를 프로젝트에 저장합니다.
옵션을 선택하면 데이터세트가 UI 오른쪽 패널에 표시되며, 각 필드를 클릭하여 필요에 따라 편집할 수 있습니다. Add row를 클릭해 데이터세트에 새 행을 추가할 수도 있습니다.
UI를 사용해 편집할 수 있는 것은 새로 만든 데이터세트뿐입니다.또한 스코어러가 데이터를 읽을 수 있도록 데이터세트의 열 이름을 user_inputexpected_output으로 적절히 지정하는 것이 중요합니다.

모델 추가하기

Weave의 맥락에서 Models는 평가 중 모델이 어떻게 동작할지를 결정하는 AI 모델(예: GPT)과 환경(이 경우 시스템 프롬프트)의 조합입니다. 프로젝트에서 기존 모델을 선택하거나 새 모델을 만들어 평가할 수 있으며, 여러 모델을 한 번에 추가해 동일한 데이터셋과 스코어러로 동시에 평가할 수 있습니다. 플레이그라운드 기능을 사용해 생성한 모델만 사용할 수 있습니다. Evaluation Playground의 Models 섹션에서 모델을 추가하려면:
  1. Add Model을 클릭한 후 New Model 또는 드롭다운 메뉴에서 기존 모델을 선택합니다.
  2. New Model을 선택했다면 다음 필드를 설정합니다:
    • Name: 새 모델을 식별하기 쉬운 설명적인 이름을 지정합니다.
    • LLM Model: OpenAI의 GPT-4와 같은 파운데이션 모델을 선택해 새 모델의 기반으로 사용합니다. 이미 액세스를 구성해 둔 파운데이션 모델 목록에서 선택하거나, Add AI provider를 선택해 모델을 고르고 해당 파운데이션 모델에 대한 액세스를 추가할 수 있습니다. 프로바이더를 추가하면 해당 프로바이더의 액세스 자격 증명을 입력하라는 메시지가 표시됩니다. Weave를 사용해 모델에 액세스하는 데 필요한 API key, 엔드포인트, 추가 구성 정보를 찾는 방법은 프로바이더 문서를 참고하세요.
    • System Prompt: 모델이 어떻게 동작해야 하는지에 대한 지침을 제공합니다. 예: You are a helpful assistant specializing in Python programming. 데이터셋의 user_input은 이후 메시지로 전송되므로, 이를 시스템 프롬프트에 포함할 필요는 없습니다.
    기존 모델을 선택하면 모델 이름 옆에 기존 모델의 버전을 선택할 수 있는 새 필드가 나타나며, 추가로 설정해야 할 다른 필드는 없습니다. 평가 전후에 기존 모델을 변경하려면 Prompt Playground를 사용하세요.
  3. 선택 사항: Save를 클릭해 모델을 프로젝트에 저장해 두고 나중에 사용할 수 있습니다.
  4. 선택 사항: 동시에 평가할 추가 모델이 필요하면 Add Model을 다시 클릭해 필요한 만큼 다른 모델을 추가합니다.

Scorer 추가

Scorer는 LLM 판정을 사용해 AI 모델 출력의 품질을 측정하고 평가합니다. 프로젝트에 있는 기존 scorer를 선택하거나 새로 만들어 모델을 평가할 수 있습니다. Evaluation Playground에서 scorer를 추가하려면 다음을 수행합니다:
  1. Add Scorer를 클릭한 뒤 다음 필드를 설정합니다:
    • Name: scorer에 대한 설명적인 이름을 지정합니다.
    • Type: 점수가 출력되는 방식을 선택합니다. boolean 또는 숫자 중 하나입니다. Boolean scorer는 모델 출력이 미리 설정한 판정 기준을 만족했는지 여부에 따라 이진 값 True 또는 False를 반환합니다. 숫자 scorer는 01 사이의 점수를 출력하며, 모델 출력이 판정 기준을 얼마나 잘 만족했는지를 전반적으로 나타냅니다.
    • LLM-as-a-judge-model: scorer의 판정에 사용할 foundation model을 선택합니다. Models 섹션의 LLM Model 필드와 유사하게, 이미 접근 권한을 구성해 둔 foundation model 중에서 선택하거나, 새 foundation model에 대한 접근 권한을 구성할 수 있습니다.
    • Scoring Prompt: LLM judge가 어떤 기준으로 출력을 채점해야 하는지에 대한 매개변수를 제공합니다. 예를 들어, 환각(hallucination)을 검사하고 싶다면 다음과 유사한 scoring prompt를 입력할 수 있습니다:
      Given the following context and answer, determine if the answer contains any information not supported by the context.
      
      User input: {user_input}
      Expected output: {expected_output}
      Model Output: {output}
      
      Is the model output correct?
      
      {user_input}, {expected_output}, {output}과 같이, scoring prompt에서 데이터셋과 응답의 필드를 변수로 사용할 수 있습니다. 사용 가능한 변수 목록을 보려면 UI에서 Insert variable을 클릭합니다.
  2. 선택 사항: 나중에 사용할 수 있도록 scorer를 프로젝트에 저장하려면 Save를 클릭합니다.

평가 실행하기

데이터셋, 모델, 스코어러까지 모두 설정했으면 평가를 실행할 수 있습니다.
  • Evaluation Playground에서 평가를 실행하려면 Run eval을 클릭합니다.
Weave는 추가한 각 모델에 대해 개별 평가를 실행하고, 데이터셋을 사용해 이루어지는 각 요청에 대한 메트릭을 수집합니다. Weave는 이렇게 수행된 각 평가를 나중에 검토할 수 있도록 Evals 섹션에 저장합니다.

평가 결과 검토

평가가 완료되면 playground에서 모델에 대해 수행된 각 요청에서 수집된 다양한 지표를 보여주는 리포트가 열립니다.
Evals hero
Dataset results 탭에는 입력값, 예상 출력값, 모델의 실제 출력값, 지연 시간(레이턴시), 토큰 사용량, 스코어링 결과가 표시됩니다. Row 열에 있는 ID를 클릭하면 특정 요청 세트에 대한 지표를 자세히 확인할 수 있습니다. 탭 바로 아래에 있는 표시 형식 버튼을 사용해 리포트 셀의 표시 형식을 변경할 수도 있습니다. Summary 탭은 각 모델의 성능을 데이터의 시각적 표현과 함께 개괄적으로 보여줍니다. 평가를 열고 비교하는 방법에 대한 자세한 내용은 Evaluations을 참고하세요.