Weave의 주요 핵심 축
- 애플리케이션 내 모든 LLM 호출, 입력, 출력에 대한 가시성 제공
- 선별된 테스트 케이스를 기반으로 성능을 측정하기 위한 체계적인 평가
- 변경 사항을 파악할 수 있도록 프롬프트, 모델, 데이터에 대한 버전 추적
- 서로 다른 프롬프트와 모델을 비교하기 위한 실험
- 사람의 판단과 주석을 수집하기 위한 피드백 수집
- LLM의 안전성과 품질을 위해 가드레일과 스코어러를 사용하는 프로덕션 환경 모니터링
Traces
- 각 애플리케이션 호출의 입력과 출력을 확인합니다.
- LLM 응답을 생성하는 데 사용된 소스 문서를 확인합니다.
- LLM 호출의 비용, 토큰 수, 지연 시간을 확인합니다.
- 특정 프롬프트를 자세히 살펴보고 답변이 어떻게 생성되었는지 확인합니다.
- 사용자로부터 응답에 대한 피드백을 수집합니다.
- 코드에서 Weave ops and calls를 사용해 함수가 무엇을 수행하는지 추적할 수 있습니다.
평가
- 어떤 모델/프롬프트 버전이 어떤 성능을 냈는지 쉽게 추적합니다.
- 하나 이상의 스코어링 함수를 사용해 응답을 평가할 지표를 정의합니다.
- 여러 지표에 대해 둘 이상의 평가 결과를 비교합니다. 특정 샘플을 골라 성능을 나란히 비교합니다.
모든 것을 버전 관리하기
프롬프트와 모델 실험하기
피드백 수집
프로덕션 환경 모니터링
Weave 사용 시작하기
- https://wandb.ai/site에서 Weights & Biases 계정을 생성하고, https://wandb.ai/authorize에서 API key를 확인합니다.
- Weave를 설치합니다:
- 스크립트에서 Weave를 import한 뒤 프로젝트를 초기화합니다:
- 지원되는 통합에만 의존하지 않고, 호출 함수에 한 줄의 코드를 추가하는 것만으로도 사용자 정의 함수에 대한 트레이스를 Weave로 기록할 수 있습니다.
@weave.op() 데코레이터를 적용하거나 TypeScript에서 weave.op()으로 감싸면, Weave가 해당 함수의 코드, 입력, 출력, 실행 메타데이터를 자동으로 캡처합니다.