평가 벤치마크 카탈로그

LLM Evaluation Jobs는 W&B 멀티 테넌트 클라우드에서 현재 미리보기(Preview) 단계입니다. 미리보기 기간 동안에는 컴퓨트 리소스를 무료로 사용할 수 있습니다. 자세히 알아보기

이 페이지에는 LLM Evaluation Jobs가 제공하는 평가 벤치마크가 범주별로 나열되어 있습니다. 특정 벤치마크를 실행하려면 팀 관리자(team admin)가 필요한 API key를 team-scoped secrets로 추가해야 합니다. 모든 팀 구성원은 평가 작업을 구성할 때 해당 secret을 지정할 수 있습니다.

OpenAI Model Scorer 열에 true가 표시된 벤치마크는 점수 계산에 OpenAI 모델을 사용합니다. 조직 또는 팀 관리자는 OpenAI API key를 팀 secret으로 추가해야 합니다. 이 요구 사항이 있는 벤치마크로 평가 작업을 구성할 때 Scorer API key 필드에 해당 secret을 설정하세요.
- Gated Hugging Face Dataset 열에 링크가 있는 벤치마크는 gated Hugging Face 데이터셋에 대한 액세스가 필요합니다. 조직 또는 팀 관리자는 Hugging Face에서 해당 데이터셋에 대한 액세스를 요청하고, Hugging Face 사용자 액세스 토큰을 생성한 다음, 해당 액세스 키로 팀 secret을 구성해야 합니다. 이 요구 사항이 있는 벤치마크를 구성할 때 Hugging Face Token 필드에 해당 secret을 설정하세요.

지식

과학, 언어, 일반 추론 등 다양한 분야에서 사실 기반 지식을 평가합니다.

평가	Task ID	OpenAI 채점기	Gated Hugging Face 데이터셋	설명
BoolQ	`boolq`			자연어 질의에 기반한 예/아니오 형식의 불리언 질문
GPQA Diamond	`gpqa_diamond`			대학원 수준의 과학 질문 (최고 품질 하위 집합)
HLE	`hle`		Yes	인간 수준의 평가 벤치마크
Lingoly	`lingoly`		Yes	언어학 올림피아드 문제
Lingoly Too	`lingoly_too`		Yes	확장된 언어학 도전 과제
MMIU	`mmiu`			대규모 멀티태스크 언어 이해 벤치마크
MMLU (0-shot)	`mmlu_0_shot`			예시 없이 수행하는 대규모 멀티태스크 언어 이해
MMLU (5-shot)	`mmlu_5_shot`			5개의 예시와 함께 수행하는 대규모 멀티태스크 언어 이해
MMLU-Pro	`mmlu_pro`			MMLU의 더 어려운 버전
ONET M6	`onet_m6`			직업 지식 벤치마크
PAWS	`paws`			패러프레이즈를 위한 적대적 단어 치환
SevenLLM MCQ (English)	`sevenllm_mcq_en`			영어 객관식 질문
SevenLLM MCQ (Chinese)	`sevenllm_mcq_zh`			중국어 객관식 질문
SevenLLM QA (English)	`sevenllm_qa_en`			영어 질의응답
SevenLLM QA (Chinese)	`sevenllm_qa_zh`			중국어 질의응답
SimpleQA	`simpleqa`	Yes		단순한 사실 기반 질의응답
SimpleQA Verified	`simpleqa_verified`			검증된 답변이 포함된 SimpleQA의 검증 하위 집합
WorldSense	`worldsense`			세계에 대한 지식과 상식 이해를 평가

추론

논리적 사고, 문제 해결, 상식 추론 능력을 평가합니다.

평가	Task ID	설명
AGIE AQUA-RAT	`agie_aqua_rat`	풀이 근거를 포함한 대수 문제 질문 응답
AGIE LogiQA (English)	`agie_logiqa_en`	영어로 된 논리적 추론 질문
AGIE LSAT Analytical Reasoning	`agie_lsat_ar`	LSAT 분석적 추론(논리 게임) 문제
AGIE LSAT Logical Reasoning	`agie_lsat_lr`	LSAT 논리적 추론 문제
ARC Challenge	`arc_challenge`	추론이 요구되는 도전적인 과학 질문(AI2 Reasoning Challenge)
ARC Easy	`arc_easy`	ARC 데이터셋의 더 쉬운 과학 질문 모음
BBH	`bbh`	BIG-Bench Hard: BIG-Bench에서 선별한 도전적인 태스크
CoCoNot	`coconot`	반사실적 상식 추론 벤치마크
CommonsenseQA	`commonsense_qa`	상식 추론 질문
HellaSwag	`hellaswag`	상식 기반 자연어 추론
MUSR	`musr`	다단계 추론 벤치마크
PIQA	`piqa`	물리적 상식 추론
WinoGrande	`winogrande`	대명사 해석을 통한 상식 추론

수학

초등 수준부터 경시대회 수준까지, 다양한 난이도의 수학 문제 해결 능력을 평가합니다.

평가	Task ID	설명
AGIE Math	`agie_math`	AGIE 벤치마크 모음의 고급 수학적 추론 문제
AGIE SAT Math	`agie_sat_math`	SAT 수학 문항
AIME 2024	`aime2024`	2024년 American Invitational Mathematics Examination 문제
AIME 2025	`aime2025`	2025년 American Invitational Mathematics Examination 문제
GSM8K	`gsm8k`	Grade School Math 8K: 여러 단계를 거치는 서술형 수학 문제
InfiniteBench Math Calc	`infinite_bench_math_calc`	긴 문맥에서의 수학 계산 문제
InfiniteBench Math Find	`infinite_bench_math_find`	긴 문맥에서 수학적 패턴을 찾는 문제
MATH	`math`	수학 경시대회 수준의 문제
MGSM	`mgsm`	다국어 초등 수학 문제

코드

디버깅, 코드 실행 예측, 함수 호출 등 프로그래밍 및 소프트웨어 개발 역량을 평가합니다.

Evaluation	Task ID	Description
BFCL	`bfcl`	Berkeley Function Calling Leaderboard: 함수 호출 및 도구 사용 역량을 평가합니다
InfiniteBench Code Debug	`infinite_bench_code_debug`	긴 컨텍스트(long-context)를 갖는 코드 디버깅 작업
InfiniteBench Code Run	`infinite_bench_code_run`	긴 컨텍스트(long-context)를 갖는 코드 실행 예측 작업

독해

복잡한 텍스트에서의 독해력과 정보 추출 능력을 평가합니다.

평가	Task ID	설명
AGIE LSAT Reading Comprehension	`agie_lsat_rc`	LSAT 독해 지문 및 문항
AGIE SAT English	`agie_sat_en`	지문이 포함된 SAT Reading & Writing 문항
AGIE SAT English (No Passage)	`agie_sat_en_without_passage`	지문 없이 출제된 SAT English 문항
DROP	`drop`	문단 기반 이산 추론: 수치 추론이 필요한 독해 과제
RACE-H	`race_h`	영어 시험 독해 문항(상급 난이도)
SQuAD	`squad`	Stanford Question Answering Dataset: 위키백과 문서 기반 추출형 질의응답 데이터셋

긴 컨텍스트

검색 및 패턴 인식을 포함해, 긴 컨텍스트를 처리하고 추론하는 능력을 평가합니다.

Evaluation	Task ID	Description
InfiniteBench KV Retrieval	`infinite_bench_kv_retrieval`	긴 컨텍스트에서의 키-값 검색
InfiniteBench LongBook (English)	`infinite_bench_longbook_choice_eng`	장편 도서 내용을 대상으로 한 객관식 질문
InfiniteBench LongDialogue QA (English)	`infinite_bench_longdialogue_qa_eng`	긴 대화를 대상으로 한 질의응답
InfiniteBench Number String	`infinite_bench_number_string`	긴 시퀀스에서의 숫자 패턴 인식
InfiniteBench Passkey	`infinite_bench_passkey`	긴 컨텍스트에서의 정보 검색
NIAH	`niah`	Needle in a Haystack: 긴 컨텍스트 검색 테스트

안전성

모델 정렬, 편향 탐지, 유해 콘텐츠에 대한 저항성, 진실성을 평가합니다.

Evaluation	Task ID	OpenAI Scorer	Gated HF Dataset	Description
AgentHarm	`agentharm`	Yes		에이전트의 유해한 행동과 오용 시나리오에 대한 모델의 저항성을 테스트
AgentHarm Benign	`agentharm_benign`	Yes		위양성 비율을 측정하기 위한 AgentHarm의 비유해(benign) 기준선(baseline) 버전
Agentic Misalignment	`agentic_misalignment`			에이전트형 행동의 잠재적 미정렬을 평가
AHB	`ahb`			Agent Harmful Behavior: 유해한 에이전트형 행동에 대한 저항성을 테스트
AIRBench	`air_bench`			적대적 지시(adversarial instruction)에 대한 저항성을 테스트
BBEH	`bbeh`			유해한 행동을 평가하기 위한 편향 벤치마크
BBEH Mini	`bbeh_mini`			BBEH 벤치마크의 축소 버전
BBQ	`bbq`			질문 응답에서의 편향 벤치마크
BOLD	`bold`			자유 형식 언어 생성에서의 편향을 다룬 데이터셋
CYSE3 Visual Prompt Injection	`cyse3_visual_prompt_injection`			시각적 프롬프트 인젝션 공격에 대한 저항성을 테스트
Make Me Pay	`make_me_pay`			금융 사기 및 사기 행위 시나리오에 대한 저항성을 테스트
MASK	`mask`	Yes	Yes	민감한 정보 처리 방식에 대한 모델의 동작을 테스트
Personality BFI	`personality_BFI`			Big Five 성격 특성 평가
Personality TRAIT	`personality_TRAIT`		Yes	포괄적인 성격 특성 평가
SOSBench	`sosbench`	Yes		안전성과 감독(oversight)에 대한 스트레스 테스트
StereoSet	`stereoset`			언어 모델에서의 고정관념적 편향을 측정
StrongREJECT	`strong_reject`			유해한 요청을 거부하는 모델의 능력을 테스트
Sycophancy	`sycophancy`			아첨 성향을 평가
TruthfulQA	`truthfulqa`			모델의 진실성과 거짓 정보에 대한 저항성을 테스트
UCCB	`uccb`			안전하지 않은 콘텐츠 분류 벤치마크
WMDP Bio	`wmdp_bio`			생물학 분야의 위험한 지식에 대한 모델의 능력을 테스트
WMDP Chem	`wmdp_chem`			화학 분야의 위험한 지식에 대한 모델의 능력을 테스트
WMDP Cyber	`wmdp_cyber`			사이버보안 분야의 위험한 지식에 대한 모델의 능력을 테스트
XSTest	`xstest`	Yes		과도한 거부(over-refusal) 탐지를 위한 강화된 안전성 테스트

도메인 특화

의학, 화학, 법학, 생물학 및 기타 전문 분야에서의 전문 지식을 평가합니다.

Evaluation	Task ID	OpenAI Scorer	Description
ChemBench	`chembench`		화학 지식 및 문제 해결 벤치마크
HealthBench	`healthbench`	Yes	헬스케어 및 의학 지식 평가
HealthBench Consensus	`healthbench_consensus`	Yes	전문가 합의가 반영된 헬스케어 질문
HealthBench Hard	`healthbench_hard`	Yes	난이도가 높은 헬스케어 시나리오
LabBench Cloning Scenarios	`lab_bench_cloning_scenarios`		실험실 실험 계획 수립 및 클로닝
LabBench DBQA	`lab_bench_dbqa`		실험실 시나리오에 대한 데이터베이스 질의응답
LabBench FigQA	`lab_bench_figqa`		과학적 맥락에서의 그림 해석
LabBench LitQA	`lab_bench_litqa`		연구 논문 기반 질의응답
LabBench ProtocolQA	`lab_bench_protocolqa`		실험실 프로토콜 이해
LabBench SeqQA	`lab_bench_seqqa`		생물학적 서열 분석 관련 질문
LabBench SuppQA	`lab_bench_suppqa`		보충 자료 해석
LabBench TableQA	`lab_bench_tableqa`		과학 논문 내 표 해석
MedQA	`medqa`		의사 면허 시험 문제
PubMedQA	`pubmedqa`		연구 초록 기반 생의학 질의응답
SEC-QA v1	`sec_qa_v1`		SEC 공시 문서 질의응답
SEC-QA v1 (5-shot)	`sec_qa_v1_5_shot`		5개 예제를 사용하는 SEC-QA
SEC-QA v2	`sec_qa_v2`		업데이트된 SEC 공시 벤치마크
SEC-QA v2 (5-shot)	`sec_qa_v2_5_shot`		5개 예제를 사용하는 SEC-QA v2

멀티모달

시각 및 텍스트 입력을 결합해 비전·언어 이해 능력을 평가합니다.

Evaluation	Task ID	Description
DocVQA	`docvqa`	문서 시각 질의응답: 문서 이미지에 관한 질문에 답변
MathVista	`mathvista`	비전과 수학을 결합한 시각적 문맥에서의 수학적 추론
MMMU Multiple Choice	`mmmu_multiple_choice`	객관식 형식의 멀티모달 이해
MMMU Open	`mmmu_open`	개방형 응답 형식의 멀티모달 이해
V*Star Bench Attribute Recognition	`vstar_bench_attribute_recognition`	시각적 속성 인식 작업
V*Star Bench Spatial Relationship	`vstar_bench_spatial_relationship_reasoning`	시각 입력을 이용한 공간 관계 추론

지시 준수

특정 지시 및 형식 요구 사항에 대한 준수 여부를 평가합니다.

평가	Task ID	OpenAI Scorer	Gated HF Dataset	설명
IFEval	`ifeval`			정확한 지시 준수 능력을 테스트합니다

시스템

기본 시스템 유효성 검사 및 사전 점검.

Evaluation	Task ID	OpenAI Scorer	Gated HF Dataset	Description
Pre-Flight	`pre_flight`			기본 시스템 점검 및 검증 테스트

다음 단계

모델 체크포인트 평가
호스팅된 API 모델 평가
AISI Inspect Evals에서 특정 벤치마크의 세부 정보 확인

가이드

통합

튜토리얼

레퍼런스

지식

추론

수학

코드

독해

긴 컨텍스트

안전성

도메인 특화

멀티모달

지시 준수

시스템

다음 단계

가이드

통합

튜토리얼

레퍼런스

Documentation Index

​지식

​추론

​수학

​코드

​독해

​긴 컨텍스트

​안전성

​도메인 특화

​멀티모달

​지시 준수

​시스템

​다음 단계

지식

추론

수학

코드

독해

긴 컨텍스트

안전성

도메인 특화

멀티모달

지시 준수

시스템

다음 단계