Documentation Index
Fetch the complete documentation index at: https://translations.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
이 페이지에는 LLM Evaluation Jobs가 제공하는 평가 벤치마크가 범주별로 나열되어 있습니다.
특정 벤치마크를 실행하려면 팀 관리자(team admin)가 필요한 API key를 team-scoped secrets로 추가해야 합니다. 모든 팀 구성원은 평가 작업을 구성할 때 해당 secret을 지정할 수 있습니다.
- OpenAI Model Scorer 열에
true가 표시된 벤치마크는 점수 계산에 OpenAI 모델을 사용합니다. 조직 또는 팀 관리자는 OpenAI API key를 팀 secret으로 추가해야 합니다. 이 요구 사항이 있는 벤치마크로 평가 작업을 구성할 때 Scorer API key 필드에 해당 secret을 설정하세요.
- Gated Hugging Face Dataset 열에 링크가 있는 벤치마크는 gated Hugging Face 데이터셋에 대한 액세스가 필요합니다. 조직 또는 팀 관리자는 Hugging Face에서 해당 데이터셋에 대한 액세스를 요청하고, Hugging Face 사용자 액세스 토큰을 생성한 다음, 해당 액세스 키로 팀 secret을 구성해야 합니다. 이 요구 사항이 있는 벤치마크를 구성할 때 Hugging Face Token 필드에 해당 secret을 설정하세요.
과학, 언어, 일반 추론 등 다양한 분야에서 사실 기반 지식을 평가합니다.
| 평가 | Task ID | OpenAI 채점기 | Gated Hugging Face 데이터셋 | 설명 |
|---|
| BoolQ | boolq | | | 자연어 질의에 기반한 예/아니오 형식의 불리언 질문 |
| GPQA Diamond | gpqa_diamond | | | 대학원 수준의 과학 질문 (최고 품질 하위 집합) |
| HLE | hle | | Yes | 인간 수준의 평가 벤치마크 |
| Lingoly | lingoly | | Yes | 언어학 올림피아드 문제 |
| Lingoly Too | lingoly_too | | Yes | 확장된 언어학 도전 과제 |
| MMIU | mmiu | | | 대규모 멀티태스크 언어 이해 벤치마크 |
| MMLU (0-shot) | mmlu_0_shot | | | 예시 없이 수행하는 대규모 멀티태스크 언어 이해 |
| MMLU (5-shot) | mmlu_5_shot | | | 5개의 예시와 함께 수행하는 대규모 멀티태스크 언어 이해 |
| MMLU-Pro | mmlu_pro | | | MMLU의 더 어려운 버전 |
| ONET M6 | onet_m6 | | | 직업 지식 벤치마크 |
| PAWS | paws | | | 패러프레이즈를 위한 적대적 단어 치환 |
| SevenLLM MCQ (English) | sevenllm_mcq_en | | | 영어 객관식 질문 |
| SevenLLM MCQ (Chinese) | sevenllm_mcq_zh | | | 중국어 객관식 질문 |
| SevenLLM QA (English) | sevenllm_qa_en | | | 영어 질의응답 |
| SevenLLM QA (Chinese) | sevenllm_qa_zh | | | 중국어 질의응답 |
| SimpleQA | simpleqa | Yes | | 단순한 사실 기반 질의응답 |
| SimpleQA Verified | simpleqa_verified | | | 검증된 답변이 포함된 SimpleQA의 검증 하위 집합 |
| WorldSense | worldsense | | | 세계에 대한 지식과 상식 이해를 평가 |
논리적 사고, 문제 해결, 상식 추론 능력을 평가합니다.
| 평가 | Task ID | OpenAI Scorer | 제한된 HF 데이터셋 | 설명 |
|---|
| AGIE AQUA-RAT | agie_aqua_rat | | | 풀이 근거를 포함한 대수 문제 질문 응답 |
| AGIE LogiQA (English) | agie_logiqa_en | | | 영어로 된 논리적 추론 질문 |
| AGIE LSAT Analytical Reasoning | agie_lsat_ar | | | LSAT 분석적 추론(논리 게임) 문제 |
| AGIE LSAT Logical Reasoning | agie_lsat_lr | | | LSAT 논리적 추론 문제 |
| ARC Challenge | arc_challenge | | | 추론이 요구되는 도전적인 과학 질문(AI2 Reasoning Challenge) |
| ARC Easy | arc_easy | | | ARC 데이터셋의 더 쉬운 과학 질문 모음 |
| BBH | bbh | | | BIG-Bench Hard: BIG-Bench에서 선별한 도전적인 태스크 |
| CoCoNot | coconot | | | 반사실적 상식 추론 벤치마크 |
| CommonsenseQA | commonsense_qa | | | 상식 추론 질문 |
| HellaSwag | hellaswag | | | 상식 기반 자연어 추론 |
| MUSR | musr | | | 다단계 추론 벤치마크 |
| PIQA | piqa | | | 물리적 상식 추론 |
| WinoGrande | winogrande | | | 대명사 해석을 통한 상식 추론 |
초등 수준부터 경시대회 수준까지, 다양한 난이도의 수학 문제 해결 능력을 평가합니다.
| 평가 | Task ID | OpenAI Scorer | Gated HF Dataset | 설명 |
|---|
| AGIE Math | agie_math | | | AGIE 벤치마크 모음의 고급 수학적 추론 문제 |
| AGIE SAT Math | agie_sat_math | | | SAT 수학 문항 |
| AIME 2024 | aime2024 | | | 2024년 American Invitational Mathematics Examination 문제 |
| AIME 2025 | aime2025 | | | 2025년 American Invitational Mathematics Examination 문제 |
| GSM8K | gsm8k | | | Grade School Math 8K: 여러 단계를 거치는 서술형 수학 문제 |
| InfiniteBench Math Calc | infinite_bench_math_calc | | | 긴 문맥에서의 수학 계산 문제 |
| InfiniteBench Math Find | infinite_bench_math_find | | | 긴 문맥에서 수학적 패턴을 찾는 문제 |
| MATH | math | | | 수학 경시대회 수준의 문제 |
| MGSM | mgsm | | | 다국어 초등 수학 문제 |
디버깅, 코드 실행 예측, 함수 호출 등 프로그래밍 및 소프트웨어 개발 역량을 평가합니다.
| Evaluation | Task ID | OpenAI Scorer | Gated HF Dataset | Description |
|---|
| BFCL | bfcl | | | Berkeley Function Calling Leaderboard: 함수 호출 및 도구 사용 역량을 평가합니다 |
| InfiniteBench Code Debug | infinite_bench_code_debug | | | 긴 컨텍스트(long-context)를 갖는 코드 디버깅 작업 |
| InfiniteBench Code Run | infinite_bench_code_run | | | 긴 컨텍스트(long-context)를 갖는 코드 실행 예측 작업 |
복잡한 텍스트에서의 독해력과 정보 추출 능력을 평가합니다.
| 평가 | Task ID | OpenAI Scorer | Gated HF Dataset | 설명 |
|---|
| AGIE LSAT Reading Comprehension | agie_lsat_rc | | | LSAT 독해 지문 및 문항 |
| AGIE SAT English | agie_sat_en | | | 지문이 포함된 SAT Reading & Writing 문항 |
| AGIE SAT English (No Passage) | agie_sat_en_without_passage | | | 지문 없이 출제된 SAT English 문항 |
| DROP | drop | | | 문단 기반 이산 추론: 수치 추론이 필요한 독해 과제 |
| RACE-H | race_h | | | 영어 시험 독해 문항(상급 난이도) |
| SQuAD | squad | | | Stanford Question Answering Dataset: 위키백과 문서 기반 추출형 질의응답 데이터셋 |
검색 및 패턴 인식을 포함해, 긴 컨텍스트를 처리하고 추론하는 능력을 평가합니다.
| Evaluation | Task ID | OpenAI Scorer | Gated HF Dataset | Description |
|---|
| InfiniteBench KV Retrieval | infinite_bench_kv_retrieval | | | 긴 컨텍스트에서의 키-값 검색 |
| InfiniteBench LongBook (English) | infinite_bench_longbook_choice_eng | | | 장편 도서 내용을 대상으로 한 객관식 질문 |
| InfiniteBench LongDialogue QA (English) | infinite_bench_longdialogue_qa_eng | | | 긴 대화를 대상으로 한 질의응답 |
| InfiniteBench Number String | infinite_bench_number_string | | | 긴 시퀀스에서의 숫자 패턴 인식 |
| InfiniteBench Passkey | infinite_bench_passkey | | | 긴 컨텍스트에서의 정보 검색 |
| NIAH | niah | | | Needle in a Haystack: 긴 컨텍스트 검색 테스트 |
모델 정렬, 편향 탐지, 유해 콘텐츠에 대한 저항성, 진실성을 평가합니다.
| Evaluation | Task ID | OpenAI Scorer | Gated HF Dataset | Description |
|---|
| AgentHarm | agentharm | Yes | | 에이전트의 유해한 행동과 오용 시나리오에 대한 모델의 저항성을 테스트 |
| AgentHarm Benign | agentharm_benign | Yes | | 위양성 비율을 측정하기 위한 AgentHarm의 비유해(benign) 기준선(baseline) 버전 |
| Agentic Misalignment | agentic_misalignment | | | 에이전트형 행동의 잠재적 미정렬을 평가 |
| AHB | ahb | | | Agent Harmful Behavior: 유해한 에이전트형 행동에 대한 저항성을 테스트 |
| AIRBench | air_bench | | | 적대적 지시(adversarial instruction)에 대한 저항성을 테스트 |
| BBEH | bbeh | | | 유해한 행동을 평가하기 위한 편향 벤치마크 |
| BBEH Mini | bbeh_mini | | | BBEH 벤치마크의 축소 버전 |
| BBQ | bbq | | | 질문 응답에서의 편향 벤치마크 |
| BOLD | bold | | | 자유 형식 언어 생성에서의 편향을 다룬 데이터셋 |
| CYSE3 Visual Prompt Injection | cyse3_visual_prompt_injection | | | 시각적 프롬프트 인젝션 공격에 대한 저항성을 테스트 |
| Make Me Pay | make_me_pay | | | 금융 사기 및 사기 행위 시나리오에 대한 저항성을 테스트 |
| MASK | mask | Yes | Yes | 민감한 정보 처리 방식에 대한 모델의 동작을 테스트 |
| Personality BFI | personality_BFI | | | Big Five 성격 특성 평가 |
| Personality TRAIT | personality_TRAIT | | Yes | 포괄적인 성격 특성 평가 |
| SOSBench | sosbench | Yes | | 안전성과 감독(oversight)에 대한 스트레스 테스트 |
| StereoSet | stereoset | | | 언어 모델에서의 고정관념적 편향을 측정 |
| StrongREJECT | strong_reject | | | 유해한 요청을 거부하는 모델의 능력을 테스트 |
| Sycophancy | sycophancy | | | 아첨 성향을 평가 |
| TruthfulQA | truthfulqa | | | 모델의 진실성과 거짓 정보에 대한 저항성을 테스트 |
| UCCB | uccb | | | 안전하지 않은 콘텐츠 분류 벤치마크 |
| WMDP Bio | wmdp_bio | | | 생물학 분야의 위험한 지식에 대한 모델의 능력을 테스트 |
| WMDP Chem | wmdp_chem | | | 화학 분야의 위험한 지식에 대한 모델의 능력을 테스트 |
| WMDP Cyber | wmdp_cyber | | | 사이버보안 분야의 위험한 지식에 대한 모델의 능력을 테스트 |
| XSTest | xstest | Yes | | 과도한 거부(over-refusal) 탐지를 위한 강화된 안전성 테스트 |
의학, 화학, 법학, 생물학 및 기타 전문 분야에서의 전문 지식을 평가합니다.
| Evaluation | Task ID | OpenAI Scorer | Gated HF Dataset | Description |
|---|
| ChemBench | chembench | | | 화학 지식 및 문제 해결 벤치마크 |
| HealthBench | healthbench | Yes | | 헬스케어 및 의학 지식 평가 |
| HealthBench Consensus | healthbench_consensus | Yes | | 전문가 합의가 반영된 헬스케어 질문 |
| HealthBench Hard | healthbench_hard | Yes | | 난이도가 높은 헬스케어 시나리오 |
| LabBench Cloning Scenarios | lab_bench_cloning_scenarios | | | 실험실 실험 계획 수립 및 클로닝 |
| LabBench DBQA | lab_bench_dbqa | | | 실험실 시나리오에 대한 데이터베이스 질의응답 |
| LabBench FigQA | lab_bench_figqa | | | 과학적 맥락에서의 그림 해석 |
| LabBench LitQA | lab_bench_litqa | | | 연구 논문 기반 질의응답 |
| LabBench ProtocolQA | lab_bench_protocolqa | | | 실험실 프로토콜 이해 |
| LabBench SeqQA | lab_bench_seqqa | | | 생물학적 서열 분석 관련 질문 |
| LabBench SuppQA | lab_bench_suppqa | | | 보충 자료 해석 |
| LabBench TableQA | lab_bench_tableqa | | | 과학 논문 내 표 해석 |
| MedQA | medqa | | | 의사 면허 시험 문제 |
| PubMedQA | pubmedqa | | | 연구 초록 기반 생의학 질의응답 |
| SEC-QA v1 | sec_qa_v1 | | | SEC 공시 문서 질의응답 |
| SEC-QA v1 (5-shot) | sec_qa_v1_5_shot | | | 5개 예제를 사용하는 SEC-QA |
| SEC-QA v2 | sec_qa_v2 | | | 업데이트된 SEC 공시 벤치마크 |
| SEC-QA v2 (5-shot) | sec_qa_v2_5_shot | | | 5개 예제를 사용하는 SEC-QA v2 |
시각 및 텍스트 입력을 결합해 비전·언어 이해 능력을 평가합니다.
| Evaluation | Task ID | OpenAI Scorer | Gated HF Dataset | Description |
|---|
| DocVQA | docvqa | | | 문서 시각 질의응답: 문서 이미지에 관한 질문에 답변 |
| MathVista | mathvista | | | 비전과 수학을 결합한 시각적 문맥에서의 수학적 추론 |
| MMMU Multiple Choice | mmmu_multiple_choice | | | 객관식 형식의 멀티모달 이해 |
| MMMU Open | mmmu_open | | | 개방형 응답 형식의 멀티모달 이해 |
| V*Star Bench Attribute Recognition | vstar_bench_attribute_recognition | | | 시각적 속성 인식 작업 |
| V*Star Bench Spatial Relationship | vstar_bench_spatial_relationship_reasoning | | | 시각 입력을 이용한 공간 관계 추론 |
특정 지시 및 형식 요구 사항에 대한 준수 여부를 평가합니다.
| 평가 | Task ID | OpenAI Scorer | Gated HF Dataset | 설명 |
|---|
| IFEval | ifeval | | | 정확한 지시 준수 능력을 테스트합니다 |
기본 시스템 유효성 검사 및 사전 점검.
| Evaluation | Task ID | OpenAI Scorer | Gated HF Dataset | Description |
|---|
| Pre-Flight | pre_flight | | | 기본 시스템 점검 및 검증 테스트 |