Weave로 모델 평가하기

모델 평가의 주요 기능
- Scorers 및 Judges: 정확도, 관련성, 일관성 등을 위한 사전 정의 및 사용자 정의 평가 지표
- 평가 데이터세트: 체계적인 평가를 위한 정답(ground truth)이 포함된 구조화된 테스트 세트
- 모델 버저닝: 모델의 서로 다른 버전 추적 및 비교
- 자세한 트레이싱: 전체 입력/출력 트레이스를 통한 모델 동작 디버깅
- 비용 추적: 평가 전반에 걸친 API 비용 및 토큰 사용량 모니터링
시작하기: W&B Registry의 모델 평가하기
Weave 평가를 W&B Models와 통합하기
- Registry에서 모델 로드: W&B Models Registry에 저장된 파인 튜닝된 모델을 다운로드합니다
- 평가 파이프라인 생성: 사용자 정의 채점기를 사용해 종합적인 평가를 구성합니다
- 결과를 다시 W&B에 로깅: 평가 지표를 모델 실행과 연결합니다
- 평가된 모델 버전 관리: 향상된 모델을 Registry에 다시 저장합니다
Weave 고급 기능
사용자 정의 스코어러와 저지
배치 평가
다음 단계
Tables로 모델 평가하기
- 모델 예측 비교: 서로 다른 모델이 동일한 테스트 세트에서 어떤 성능을 내는지 나란히 비교해 확인합니다
- 예측 변화 추적: 학습 에폭 또는 모델 버전별로 예측이 어떻게 변하는지 모니터링합니다
- 오류 분석: 자주 오분류되는 예시와 오류 패턴을 찾기 위해 필터링하고 쿼리합니다
- 리치 미디어 시각화: 예측값과 메트릭과 함께 이미지, 오디오, 텍스트 및 기타 미디어 타입을 나란히 표시합니다

기본 예시: 평가 결과를 로그로 기록하기
고급 테이블 워크플로
여러 모델 비교

시간에 따른 예측 추적
W&B UI에서의 대화형 분석
- 결과 필터링: 열 헤더를 클릭해 예측 정확도, 신뢰도 임계값, 특정 클래스 등으로 필터링합니다.
- 테이블 비교: 여러 테이블 버전을 선택해 나란히 비교합니다.
- 데이터 쿼리: 쿼리 바를 사용해 특정 패턴을 찾습니다(예:
"correct" = false AND "confidence" > 0.8). - 그룹 및 집계: 예측 클래스로 그룹화하여 클래스별 정확도 지표를 확인합니다.
