메인 콘텐츠로 건너뛰기
LLM Evaluation Jobs는 W&B 멀티 테넌트 클라우드에서 현재 미리보기(Preview) 단계입니다. 미리보기 기간 동안에는 컴퓨트 리소스를 무료로 사용할 수 있습니다. 자세히 알아보기
이 페이지에는 LLM Evaluation Jobs가 제공하는 평가 벤치마크가 범주별로 나열되어 있습니다. 특정 벤치마크를 실행하려면 팀 관리자(team admin)가 필요한 API key를 team-scoped secrets로 추가해야 합니다. 모든 팀 구성원은 평가 작업을 구성할 때 해당 secret을 지정할 수 있습니다.
  • OpenAI Model Scorer 열에 true가 표시된 벤치마크는 점수 계산에 OpenAI 모델을 사용합니다. 조직 또는 팀 관리자는 OpenAI API key를 팀 secret으로 추가해야 합니다. 이 요구 사항이 있는 벤치마크로 평가 작업을 구성할 때 Scorer API key 필드에 해당 secret을 설정하세요.
    • Gated Hugging Face Dataset 열에 링크가 있는 벤치마크는 gated Hugging Face 데이터셋에 대한 액세스가 필요합니다. 조직 또는 팀 관리자는 Hugging Face에서 해당 데이터셋에 대한 액세스를 요청하고, Hugging Face 사용자 액세스 토큰을 생성한 다음, 해당 액세스 키로 팀 secret을 구성해야 합니다. 이 요구 사항이 있는 벤치마크를 구성할 때 Hugging Face Token 필드에 해당 secret을 설정하세요.

지식

과학, 언어, 일반 추론 등 다양한 분야에서 사실 기반 지식을 평가합니다.
평가Task ID
OpenAI 채점기
Gated Hugging Face 데이터셋설명
BoolQboolq자연어 질의에 기반한 예/아니오 형식의 불리언 질문
GPQA Diamondgpqa_diamond대학원 수준의 과학 질문 (최고 품질 하위 집합)
HLEhleYes인간 수준의 평가 벤치마크
LingolylingolyYes언어학 올림피아드 문제
Lingoly Toolingoly_tooYes확장된 언어학 도전 과제
MMIUmmiu대규모 멀티태스크 언어 이해 벤치마크
MMLU (0-shot)mmlu_0_shot예시 없이 수행하는 대규모 멀티태스크 언어 이해
MMLU (5-shot)mmlu_5_shot5개의 예시와 함께 수행하는 대규모 멀티태스크 언어 이해
MMLU-Prommlu_proMMLU의 더 어려운 버전
ONET M6onet_m6직업 지식 벤치마크
PAWSpaws패러프레이즈를 위한 적대적 단어 치환
SevenLLM MCQ (English)sevenllm_mcq_en영어 객관식 질문
SevenLLM MCQ (Chinese)sevenllm_mcq_zh중국어 객관식 질문
SevenLLM QA (English)sevenllm_qa_en영어 질의응답
SevenLLM QA (Chinese)sevenllm_qa_zh중국어 질의응답
SimpleQAsimpleqaYes단순한 사실 기반 질의응답
SimpleQA Verifiedsimpleqa_verified검증된 답변이 포함된 SimpleQA의 검증 하위 집합
WorldSenseworldsense세계에 대한 지식과 상식 이해를 평가

추론

논리적 사고, 문제 해결, 상식 추론 능력을 평가합니다.
평가Task IDOpenAI Scorer제한된 HF 데이터셋설명
AGIE AQUA-RATagie_aqua_rat풀이 근거를 포함한 대수 문제 질문 응답
AGIE LogiQA (English)agie_logiqa_en영어로 된 논리적 추론 질문
AGIE LSAT Analytical Reasoningagie_lsat_arLSAT 분석적 추론(논리 게임) 문제
AGIE LSAT Logical Reasoningagie_lsat_lrLSAT 논리적 추론 문제
ARC Challengearc_challenge추론이 요구되는 도전적인 과학 질문(AI2 Reasoning Challenge)
ARC Easyarc_easyARC 데이터셋의 더 쉬운 과학 질문 모음
BBHbbhBIG-Bench Hard: BIG-Bench에서 선별한 도전적인 태스크
CoCoNotcoconot반사실적 상식 추론 벤치마크
CommonsenseQAcommonsense_qa상식 추론 질문
HellaSwaghellaswag상식 기반 자연어 추론
MUSRmusr다단계 추론 벤치마크
PIQApiqa물리적 상식 추론
WinoGrandewinogrande대명사 해석을 통한 상식 추론

수학

초등 수준부터 경시대회 수준까지, 다양한 난이도의 수학 문제 해결 능력을 평가합니다.
평가Task IDOpenAI ScorerGated HF Dataset설명
AGIE Mathagie_mathAGIE 벤치마크 모음의 고급 수학적 추론 문제
AGIE SAT Mathagie_sat_mathSAT 수학 문항
AIME 2024aime20242024년 American Invitational Mathematics Examination 문제
AIME 2025aime20252025년 American Invitational Mathematics Examination 문제
GSM8Kgsm8kGrade School Math 8K: 여러 단계를 거치는 서술형 수학 문제
InfiniteBench Math Calcinfinite_bench_math_calc긴 문맥에서의 수학 계산 문제
InfiniteBench Math Findinfinite_bench_math_find긴 문맥에서 수학적 패턴을 찾는 문제
MATHmath수학 경시대회 수준의 문제
MGSMmgsm다국어 초등 수학 문제

코드

디버깅, 코드 실행 예측, 함수 호출 등 프로그래밍 및 소프트웨어 개발 역량을 평가합니다.
EvaluationTask IDOpenAI ScorerGated HF DatasetDescription
BFCLbfclBerkeley Function Calling Leaderboard: 함수 호출 및 도구 사용 역량을 평가합니다
InfiniteBench Code Debuginfinite_bench_code_debug긴 컨텍스트(long-context)를 갖는 코드 디버깅 작업
InfiniteBench Code Runinfinite_bench_code_run긴 컨텍스트(long-context)를 갖는 코드 실행 예측 작업

독해

복잡한 텍스트에서의 독해력과 정보 추출 능력을 평가합니다.
평가Task IDOpenAI ScorerGated HF Dataset설명
AGIE LSAT Reading Comprehensionagie_lsat_rcLSAT 독해 지문 및 문항
AGIE SAT Englishagie_sat_en지문이 포함된 SAT Reading & Writing 문항
AGIE SAT English (No Passage)agie_sat_en_without_passage지문 없이 출제된 SAT English 문항
DROPdrop문단 기반 이산 추론: 수치 추론이 필요한 독해 과제
RACE-Hrace_h영어 시험 독해 문항(상급 난이도)
SQuADsquadStanford Question Answering Dataset: 위키백과 문서 기반 추출형 질의응답 데이터셋

긴 컨텍스트

검색 및 패턴 인식을 포함해, 긴 컨텍스트를 처리하고 추론하는 능력을 평가합니다.
EvaluationTask IDOpenAI ScorerGated HF DatasetDescription
InfiniteBench KV Retrievalinfinite_bench_kv_retrieval긴 컨텍스트에서의 키-값 검색
InfiniteBench LongBook (English)infinite_bench_longbook_choice_eng장편 도서 내용을 대상으로 한 객관식 질문
InfiniteBench LongDialogue QA (English)infinite_bench_longdialogue_qa_eng긴 대화를 대상으로 한 질의응답
InfiniteBench Number Stringinfinite_bench_number_string긴 시퀀스에서의 숫자 패턴 인식
InfiniteBench Passkeyinfinite_bench_passkey긴 컨텍스트에서의 정보 검색
NIAHniahNeedle in a Haystack: 긴 컨텍스트 검색 테스트

안전성

모델 정렬, 편향 탐지, 유해 콘텐츠에 대한 저항성, 진실성을 평가합니다.
EvaluationTask IDOpenAI ScorerGated HF DatasetDescription
AgentHarmagentharmYes에이전트의 유해한 행동과 오용 시나리오에 대한 모델의 저항성을 테스트
AgentHarm Benignagentharm_benignYes위양성 비율을 측정하기 위한 AgentHarm의 비유해(benign) 기준선(baseline) 버전
Agentic Misalignmentagentic_misalignment에이전트형 행동의 잠재적 미정렬을 평가
AHBahbAgent Harmful Behavior: 유해한 에이전트형 행동에 대한 저항성을 테스트
AIRBenchair_bench적대적 지시(adversarial instruction)에 대한 저항성을 테스트
BBEHbbeh유해한 행동을 평가하기 위한 편향 벤치마크
BBEH Minibbeh_miniBBEH 벤치마크의 축소 버전
BBQbbq질문 응답에서의 편향 벤치마크
BOLDbold자유 형식 언어 생성에서의 편향을 다룬 데이터셋
CYSE3 Visual Prompt Injectioncyse3_visual_prompt_injection시각적 프롬프트 인젝션 공격에 대한 저항성을 테스트
Make Me Paymake_me_pay금융 사기 및 사기 행위 시나리오에 대한 저항성을 테스트
MASKmaskYesYes민감한 정보 처리 방식에 대한 모델의 동작을 테스트
Personality BFIpersonality_BFIBig Five 성격 특성 평가
Personality TRAITpersonality_TRAITYes포괄적인 성격 특성 평가
SOSBenchsosbenchYes안전성과 감독(oversight)에 대한 스트레스 테스트
StereoSetstereoset언어 모델에서의 고정관념적 편향을 측정
StrongREJECTstrong_reject유해한 요청을 거부하는 모델의 능력을 테스트
Sycophancysycophancy아첨 성향을 평가
TruthfulQAtruthfulqa모델의 진실성과 거짓 정보에 대한 저항성을 테스트
UCCBuccb안전하지 않은 콘텐츠 분류 벤치마크
WMDP Biowmdp_bio생물학 분야의 위험한 지식에 대한 모델의 능력을 테스트
WMDP Chemwmdp_chem화학 분야의 위험한 지식에 대한 모델의 능력을 테스트
WMDP Cyberwmdp_cyber사이버보안 분야의 위험한 지식에 대한 모델의 능력을 테스트
XSTestxstestYes과도한 거부(over-refusal) 탐지를 위한 강화된 안전성 테스트

도메인 특화

의학, 화학, 법학, 생물학 및 기타 전문 분야에서의 전문 지식을 평가합니다.
EvaluationTask IDOpenAI ScorerGated HF DatasetDescription
ChemBenchchembench화학 지식 및 문제 해결 벤치마크
HealthBenchhealthbenchYes헬스케어 및 의학 지식 평가
HealthBench Consensushealthbench_consensusYes전문가 합의가 반영된 헬스케어 질문
HealthBench Hardhealthbench_hardYes난이도가 높은 헬스케어 시나리오
LabBench Cloning Scenarioslab_bench_cloning_scenarios실험실 실험 계획 수립 및 클로닝
LabBench DBQAlab_bench_dbqa실험실 시나리오에 대한 데이터베이스 질의응답
LabBench FigQAlab_bench_figqa과학적 맥락에서의 그림 해석
LabBench LitQAlab_bench_litqa연구 논문 기반 질의응답
LabBench ProtocolQAlab_bench_protocolqa실험실 프로토콜 이해
LabBench SeqQAlab_bench_seqqa생물학적 서열 분석 관련 질문
LabBench SuppQAlab_bench_suppqa보충 자료 해석
LabBench TableQAlab_bench_tableqa과학 논문 내 표 해석
MedQAmedqa의사 면허 시험 문제
PubMedQApubmedqa연구 초록 기반 생의학 질의응답
SEC-QA v1sec_qa_v1SEC 공시 문서 질의응답
SEC-QA v1 (5-shot)sec_qa_v1_5_shot5개 예제를 사용하는 SEC-QA
SEC-QA v2sec_qa_v2업데이트된 SEC 공시 벤치마크
SEC-QA v2 (5-shot)sec_qa_v2_5_shot5개 예제를 사용하는 SEC-QA v2

멀티모달

시각 및 텍스트 입력을 결합해 비전·언어 이해 능력을 평가합니다.
EvaluationTask IDOpenAI ScorerGated HF DatasetDescription
DocVQAdocvqa문서 시각 질의응답: 문서 이미지에 관한 질문에 답변
MathVistamathvista비전과 수학을 결합한 시각적 문맥에서의 수학적 추론
MMMU Multiple Choicemmmu_multiple_choice객관식 형식의 멀티모달 이해
MMMU Openmmmu_open개방형 응답 형식의 멀티모달 이해
V*Star Bench Attribute Recognitionvstar_bench_attribute_recognition시각적 속성 인식 작업
V*Star Bench Spatial Relationshipvstar_bench_spatial_relationship_reasoning시각 입력을 이용한 공간 관계 추론

지시 준수

특정 지시 및 형식 요구 사항에 대한 준수 여부를 평가합니다.
평가Task IDOpenAI ScorerGated HF Dataset설명
IFEvalifeval정확한 지시 준수 능력을 테스트합니다

시스템

기본 시스템 유효성 검사 및 사전 점검.
EvaluationTask IDOpenAI ScorerGated HF DatasetDescription
Pre-Flightpre_flight기본 시스템 점검 및 검증 테스트

다음 단계