메인 콘텐츠로 건너뛰기
Hugging Face AutoTrain는 자연어 처리(NLP) 작업, 컴퓨터 비전(CV) 작업, 음성 작업, 그리고 테이블(Tabular) 작업까지 최첨단 모델을 학습하기 위한 노코드(no-code) 도구입니다. W&B는 Hugging Face AutoTrain에 직접 통합되어 실험 추적 및 구성(config) 관리를 제공합니다. 실험을 실행할 때 CLI 명령에 파라미터 하나만 추가하면 될 정도로 간단합니다.
실험 지표 로깅

필수 구성 요소 설치

autotrain-advancedwandb를 설치합니다.
pip install --upgrade autotrain-advanced wandb
이러한 변경 사항을 보여주기 위해, 이 페이지에서는 수학 데이터셋을 사용해 LLM을 파인튜닝하여 GSM8k Benchmarkspass@1 지표에서 SoTA 수준의 성능을 달성합니다.

데이터셋 준비

Hugging Face AutoTrain에서는 CSV 형식의 커스텀 데이터셋이 제대로 동작하려면 특정 형식을 따라야 합니다.
  • 학습 파일에는 반드시 학습에 사용되는 text 열이 포함되어 있어야 합니다. 최상의 결과를 얻으려면 text 열의 데이터가 ### Human: Question?### Assistant: Answer. 형식을 따라야 합니다. timdettmers/openassistant-guanaco에서 좋은 예시를 확인할 수 있습니다. 그러나 MetaMathQA 데이터셋에는 query, response, type 열이 포함되어 있습니다. 먼저 이 데이터셋을 전처리합니다. type 열을 제거하고, queryresponse 열의 내용을 결합해 ### Human: Query?### Assistant: Response. 형식의 새로운 text 열을 만듭니다. 이렇게 생성한 데이터셋 rishiraj/guanaco-style-metamath을 사용해 학습을 수행합니다.

autotrain을 사용하여 학습하기

명령줄 또는 노트북에서 고급 autotrain 기능을 사용해 학습을 시작할 수 있습니다. --log 인자를 사용하거나, 결과를 W&B 실행에 로깅하려면 --log wandb를 사용하세요.
autotrain llm \
    --train \
    --model HuggingFaceH4/zephyr-7b-alpha \
    --project-name zephyr-math \
    --log wandb \
    --data-path data/ \
    --text-column text \
    --lr 2e-5 \
    --batch-size 4 \
    --epochs 3 \
    --block-size 1024 \
    --warmup-ratio 0.03 \
    --lora-r 16 \
    --lora-alpha 32 \
    --lora-dropout 0.05 \
    --weight-decay 0.0 \
    --gradient-accumulation 4 \
    --logging_steps 10 \
    --fp16 \
    --use-peft \
    --use-int4 \
    --merge-adapter \
    --push-to-hub \
    --token <huggingface-token> \
    --repo-id <huggingface-repository-address>
실험 구성 저장

추가 리소스