AI Hub에서 제공되는 질의응답 쌍으로 구성된 20만개 이상의 데이터셋을 통해 학습된 모델에 대한 평가가 이루어집니다. LeaderBoard에 평가 항목에 맞춰 순위가 매겨집니다.
학습 데이터 / 검증 데이터
학습 데이터(Train set) 201,983개, 검증 데이터(Validation set) 20,652개의 질의응답쌍으로 구분하였습니다.
실행 스크립트 / Sample Prediction
학습 모델을 평가하기 위한 Evaluation script 와 Sample prediction 파일입니다.
평가를 실행하려면
python evaluate.py [path_to_validation] [path_to_predictions]
를 입력하세요. 테스트 파일이기 때문에 점수가 매우 낮을 수 있습니다.
평가 제출 안내
AI Hub LeaderBoard에 등재하시기 위해서는 별도의 평가 데이터를 통해 점수를 측정합니다. 평가데이터(Test set)는 테스트 결과의 무결성을 위해 공개되지 않기 때문에 모델을 제출하셔야 합니다.
아래의 제출 안내를 통해 모델을 제출하시면 약 1-2 주의 시간이 소요된 뒤 해당 모델이 평가되어 LeaderBoard에 등재 됩니다.
Rank | Date | Model | F1 | EM |
---|---|---|---|---|
1 | 2019-12-23 | bert-base | 81.22 | 58.5 |