메인 콘텐츠로 건너뛰기

Documentation Index

Fetch the complete documentation index at: https://translations.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

Hugging Face AutoTrain는 자연어 처리(NLP) 작업, 컴퓨터 비전(CV) 작업, 음성 작업, 그리고 테이블(Tabular) 작업까지 최첨단 모델을 학습하기 위한 노코드(no-code) 도구입니다. W&B는 Hugging Face AutoTrain에 직접 통합되어 실험 추적 및 구성(config) 관리를 제공합니다. 실험을 실행할 때 CLI 명령에 파라미터 하나만 추가하면 될 정도로 간단합니다.
실험 지표 로깅

필수 구성 요소 설치

autotrain-advancedwandb를 설치합니다.
pip install --upgrade autotrain-advanced wandb
이러한 변경 사항을 보여주기 위해, 이 페이지에서는 수학 데이터셋을 사용해 LLM을 파인튜닝하여 GSM8k Benchmarkspass@1 지표에서 SoTA 수준의 성능을 달성합니다.

데이터셋 준비

Hugging Face AutoTrain에서는 CSV 형식의 커스텀 데이터셋이 제대로 동작하려면 특정 형식을 따라야 합니다.
  • 학습 파일에는 반드시 학습에 사용되는 text 열이 포함되어 있어야 합니다. 최상의 결과를 얻으려면 text 열의 데이터가 ### Human: Question?### Assistant: Answer. 형식을 따라야 합니다. timdettmers/openassistant-guanaco에서 좋은 예시를 확인할 수 있습니다. 그러나 MetaMathQA 데이터셋에는 query, response, type 열이 포함되어 있습니다. 먼저 이 데이터셋을 전처리합니다. type 열을 제거하고, queryresponse 열의 내용을 결합해 ### Human: Query?### Assistant: Response. 형식의 새로운 text 열을 만듭니다. 이렇게 생성한 데이터셋 rishiraj/guanaco-style-metamath을 사용해 학습을 수행합니다.

autotrain을 사용하여 학습하기

명령줄 또는 노트북에서 고급 autotrain 기능을 사용해 학습을 시작할 수 있습니다. --log 인자를 사용하거나, 결과를 W&B 실행에 로깅하려면 --log wandb를 사용하세요.
autotrain llm \
    --train \
    --model HuggingFaceH4/zephyr-7b-alpha \
    --project-name zephyr-math \
    --log wandb \
    --data-path data/ \
    --text-column text \
    --lr 2e-5 \
    --batch-size 4 \
    --epochs 3 \
    --block-size 1024 \
    --warmup-ratio 0.03 \
    --lora-r 16 \
    --lora-alpha 32 \
    --lora-dropout 0.05 \
    --weight-decay 0.0 \
    --gradient-accumulation 4 \
    --logging_steps 10 \
    --fp16 \
    --use-peft \
    --use-int4 \
    --merge-adapter \
    --push-to-hub \
    --token <huggingface-token> \
    --repo-id <huggingface-repository-address>
실험 구성 저장

추가 리소스