메인 콘텐츠로 건너뛰기

로컬 모델

많은 개발자들이 LLaMA-3, Mixtral, Gemma, Phi 등의 오픈 소스 모델을 다운로드해 로컬에서 직접 실행합니다. 이러한 모델을 로컬에서 실행하는 방법은 여러 가지가 있으며, OpenAI SDK와 호환되기만 하면 그중 일부 방식은 Weave에서 기본적으로 지원합니다.

로컬 모델 함수를 @weave.op()으로 감싸기

weave.init('<your-project-name>')로 Weave를 초기화한 다음, LLM 호출을 weave.op()으로 감싸기만 하면 어떤 LLM이든 직접 Weave와 쉽게 통합할 수 있습니다. 자세한 내용은 tracing 가이드를 참조하세요.

로컬 모델을 사용하도록 OpenAI SDK 코드를 업데이트하기

OpenAI SDK 호환성을 지원하는 모든 프레임워크 또는 서비스에서는 몇 가지 작은 수정만 필요합니다. 가장 먼저, 그리고 가장 중요한 변경 사항은 openai.OpenAI()를 초기화할 때 base_url을 변경하는 것입니다.
client = openai.OpenAI(
    base_url="http://localhost:1234",
)
로컬 모델의 경우 api_key는 임의의 문자열을 사용할 수 있지만, 반드시 직접 값을 지정해 덮어써야 합니다. 그렇지 않으면 OpenAI가 환경 변수에서 해당 값을 사용하려 시도하면서 오류를 발생시킵니다.

OpenAI SDK를 지원하는 로컬 모델 실행 도구

다음은 Hugging Face에서 모델을 다운로드해 내 컴퓨터에서 실행할 수 있으며 OpenAI SDK 호환성을 지원하는 앱 목록입니다.
  1. Nomic GPT4All - 설정의 Local Server를 통해 지원 (FAQ)
  2. LMStudio - Local Server OpenAI SDK 지원 문서
  3. Ollama - OpenAI SDK에 대한 실험적 지원
  4. llama.cpp - llama-cpp-python Python 패키지를 통해 지원
  5. llamafile - http://localhost:8080/v1는 Llamafile 실행 시 자동으로 OpenAI SDK를 지원합니다