Evaluation Playground

Playground에서 평가 설정하기
- Weave UI를 연 다음, 평가를 수행하려는 프로젝트를 엽니다. 그러면 Traces 페이지가 열립니다.
- Traces 페이지의 왼쪽 메뉴에서 Playground 아이콘을 클릭한 다음, Playground 페이지에서 Evaluate 탭을 선택합니다. Evaluate 페이지에서 다음 중 하나를 수행할 수 있습니다:
- Load a demo example: 미리 정의된 구성을 불러와 MoonshotAI Kimi K2 모델을 예상 출력에 대해 평가하고, LLM judge를 사용해 정답 여부를 판단합니다. 이 구성을 사용해 인터페이스를 실험해 볼 수 있습니다.
- Start from scratch: 처음부터 구성할 수 있는 빈 구성을 불러옵니다.
- Start from scratch를 선택했다면, Title 및 Description 필드에 평가를 설명하는 제목과 설명을 추가합니다.
데이터세트 추가
.csv.tsv.json.jsonl
- 드롭다운 메뉴를 클릭한 다음, 다음 중 하나를 선택합니다:
- Start from scratch: UI에서 새 데이터세트를 생성합니다.
- Upload a file: 로컬 머신에서 데이터세트를 업로드합니다.
- 프로젝트에 이미 저장된 기존 데이터세트.
- 선택 사항: Save를 클릭해 나중에 사용할 수 있도록 데이터세트를 프로젝트에 저장합니다.
UI를 사용해 편집할 수 있는 것은 새로 만든 데이터세트뿐입니다.또한 스코어러가 데이터를 읽을 수 있도록 데이터세트의 열 이름을
user_input 및 expected_output으로 적절히 지정하는 것이 중요합니다.모델 추가하기
- Add Model을 클릭한 후 New Model 또는 드롭다운 메뉴에서 기존 모델을 선택합니다.
-
New Model을 선택했다면 다음 필드를 설정합니다:
- Name: 새 모델을 식별하기 쉬운 설명적인 이름을 지정합니다.
- LLM Model: OpenAI의 GPT-4와 같은 파운데이션 모델을 선택해 새 모델의 기반으로 사용합니다. 이미 액세스를 구성해 둔 파운데이션 모델 목록에서 선택하거나, Add AI provider를 선택해 모델을 고르고 해당 파운데이션 모델에 대한 액세스를 추가할 수 있습니다. 프로바이더를 추가하면 해당 프로바이더의 액세스 자격 증명을 입력하라는 메시지가 표시됩니다. Weave를 사용해 모델에 액세스하는 데 필요한 API key, 엔드포인트, 추가 구성 정보를 찾는 방법은 프로바이더 문서를 참고하세요.
- System Prompt: 모델이 어떻게 동작해야 하는지에 대한 지침을 제공합니다. 예:
You are a helpful assistant specializing in Python programming.데이터셋의user_input은 이후 메시지로 전송되므로, 이를 시스템 프롬프트에 포함할 필요는 없습니다.
- 선택 사항: Save를 클릭해 모델을 프로젝트에 저장해 두고 나중에 사용할 수 있습니다.
- 선택 사항: 동시에 평가할 추가 모델이 필요하면 Add Model을 다시 클릭해 필요한 만큼 다른 모델을 추가합니다.
Scorer 추가
-
Add Scorer를 클릭한 뒤 다음 필드를 설정합니다:
- Name: scorer에 대한 설명적인 이름을 지정합니다.
-
Type: 점수가 출력되는 방식을 선택합니다.
boolean또는 숫자 중 하나입니다. Boolean scorer는 모델 출력이 미리 설정한 판정 기준을 만족했는지 여부에 따라 이진 값True또는False를 반환합니다. 숫자 scorer는0과1사이의 점수를 출력하며, 모델 출력이 판정 기준을 얼마나 잘 만족했는지를 전반적으로 나타냅니다. - LLM-as-a-judge-model: scorer의 판정에 사용할 foundation model을 선택합니다. Models 섹션의 LLM Model 필드와 유사하게, 이미 접근 권한을 구성해 둔 foundation model 중에서 선택하거나, 새 foundation model에 대한 접근 권한을 구성할 수 있습니다.
-
Scoring Prompt: LLM judge가 어떤 기준으로 출력을 채점해야 하는지에 대한 매개변수를 제공합니다. 예를 들어, 환각(hallucination)을 검사하고 싶다면 다음과 유사한 scoring prompt를 입력할 수 있습니다:
{user_input},{expected_output},{output}과 같이, scoring prompt에서 데이터셋과 응답의 필드를 변수로 사용할 수 있습니다. 사용 가능한 변수 목록을 보려면 UI에서 Insert variable을 클릭합니다.
- 선택 사항: 나중에 사용할 수 있도록 scorer를 프로젝트에 저장하려면 Save를 클릭합니다.
평가 실행하기
- Evaluation Playground에서 평가를 실행하려면 Run eval을 클릭합니다.
평가 결과 검토
