KLUE: Korean Language Understanding Evaluation(2)

2021. 7. 12. 16:33논문

 

2 Source Corpora

 벤치마크 설정 시 흔히 사용되는 기존 데이터셋을 함께 구성하지 않고 KLUE를 처음부터 구축한다. 우리는 사용 가능한 텍스트 리소스를 조사하고 과정을 문서화하여 일부 corpora만 선택하는 방법과 이유를 더 잘 이해할 수 있도록 한다. 우리는 최근에 제안된 문서 프레임워크, 데이터시트 및 데이터 설명을 채택한다. 이러한 프레임워크를 기반으로 protocol을 자세히 설명하는 데 필요한 추가 정보를 문서화 및 제공한다.

 

2.1 Corpora Selection Criteria

 우리는 작업별 corpora가 파생되고 주석이 달린 corpus 자료를 구축하기 위해 corpora를 소싱할 때 두 가지 기준을 고려한다. 첫 번째 기준은 접근성이다. KLUE의 주요 목적은 향후 NLP 연구 개발을 촉진하는 것이므로, KLUE는 최대한 자유롭게 사용하고 공유할 수 있는 데이터와 함께 제공될 수 있도록 보장한다. 두 번째 기준은 품질과 다양성이다. 우리는 낮은 품질의 텍스트를 제거하여 corpora의 각 예제가 특정 품질을 가지도록 보장하며 또한 corpora의 공식 텍스트와 구어 텍스트 간의 균형을 맞출 수 있도록 보장한다.

 

Accessibility

Wang, Hu, Kakwani 외 연구진과는 달리, KLUE는 이용 목적뿐만 아니라 사용자의 소속에 대한 제약이 없어 최대한 광범위하고 다양한 연구자에게 접근할 수 있도록 설계하고 있다. 또한 현장의 빠른 발전 속도를 인정하고 사용자가 KLUE를 재현하고 재배포하여 NLU의 표준 벤치마크로서의 사용성을 연장할 수 있도록 한다. 이를 위해 CC BY-SA를 통해 corpus 자료를 구축 및 출시한다.

 

4 https://creativecommons.org/licenses/by-sa/4.0/

5 https://creativecommons.org/publicdomain/zero/1.0/

6 https://creativecommons.org/licenses/by/4.0/

7 https://creativecommons.org/licenses/by-sa/4.0/

8 https://www.kogl.or.kr/info/license.do#05-tab

9 See https://www.law.go.kr/%EB%B2%95%EB%A0%B9/%EC%A0%80%EC%9E%91%EA%B6%8C%EB%B2%95 for the copyright act which went effective as of Dec 8 2020.

 

corpus의 자료 또는 corpora 자료 세트는 다음 조건을 충족한다.

  • 사용 제한 없음 :  업계 연구소의 최근 기초 연구 추세를 수용하기 위해 KLUE의 비상업적 및 상업적 사용을 모두 허용한다. 
  • 파생상품 : 사용자는 KLUE의 모든 부분을 자유롭게 refurbish하여 예기치 않은 인공 산물, 윤리적 문제 및 주석 오류와 같은 단점을 먼저 해결하고, 두 번째로 미래에 대한 보다 까다로운 벤치마크를 도출할 수 있다. 이는 SQuAD 1.1 을 포함하도록 만들어진 SQuAD 2.0과 유사하다.
  • 재배포가능 : KLUE의 최초 작성자에게 적절한 속성을 부여하기만 하면 모든 채널을 통해 KLUE 벤치마크 데이터셋을 배포할 수 있다. 우리는 제한된 엄선된 연구자 그룹만이 자원을 독점하여 궁극적으로 전체 진행을 방해하는 상황을 피하기 위해 의도적으로 이러한 결정을 내린다. 이는 국내 연구진이 국내 공공기관인 corpus  출판사의 허가를 받아야만 접근할 수 있는, 파생상품과 재배포를 막는 제한적인 정책들이 결합된 기존 한국 corpora에 대한 반발이다. KLUE는 한국 NLP의 진전을 극대화하기 위해 그러한 예방 정책을 회피한다.

기존 데이터셋의 대부분이 이러한 조건을 충족하지 못하기 때문에 CC0, CCBY, CCBY-SA 중 한 가지 라이센스와 함께 제공되는 리소스만 고려하여 corpus 자료를 처음부터 큐레이션한다. 기타 유사한 라이센스(예: KOGL Type 1)는 한국의 최신 저작권법에 따라 저작권법의 보호를 받지 않는다. 그것이 아니면 계약에 따라 저작권 소유자에 의해 당사에 명시적으로 제공되었다. 우리는 결국 총 20개의 후보 corpora를 갖게 되고, 그 중 일부는 KLUE의 corpus 자료 세트를 형성하기 위해 선택된다. 이는 표 2에 열거되어 있다.

 

Quality and Diversity

이 20개의 corpora 자료 중에서 corpus 자료를 구성하고 KLUE 벤치마크를 구축하기 위해 10개의 corpora중 일부를 선택한다. 그렇게 함으로써, 우리는 다음과 같은 기준을 고려한다.

1) corpus 는 좁은 영역에 특정해서는 안 된다.(다양성)

2) corpus 는 현대 한국어로 작성되어야 한다.(품질)

3) 사생활이나 유독성에 대한 우려가 있는 콘텐츠에 의해 지배되어서는 안 된다.(품질)

4) corpus 는 8가지 기준 과제 중 적어도 하나에 주석을 달 수 있어야 한다. 

뿐만 아니라, 공식 사용과 구어 사용을 모두 다룰 corpora의 부분 집합을 선택한다. 

 

표 2: 수집된 corpora 자료. 첫 번째 섹션에 있는 corpora는 저작권법의 보호를 받지 않는다. 구체적으로, News Headlines은 창의성이 부족하기 때문에 작품으로 분류되지 않으며, Judgements는 제7조 제3항에 따라 보호되지 않는다. National Assembly Minutes(국회 의사록)Patents(특허권)는 제24조 제2항에 따라 저작권법을 적용하지 않는다. 두 번째 섹션은 허용 라이센스에 따른 corpora 모음이다. 마지막 섹션인 KED와 Acrofan은 원래 파생 작품을 만드는 것이 금지되어 있지만, 당사는 독점 계약에 의해 이러한 조건을 출시한다. Volume열의 경우 1k 미만이면 소형 corpus, 1k ~ 50k은 중형, 50k 이상은 대형을 나타낸다. 굵은 글씨는 KLUE 기준을 구축할 최종 corpora 자료를 나타낸다.

 

Final Source Corpora

이러한 기준과 결정을 바탕으로, 우리는 (상대적인)공식 문서로 News Headlines, Wikipedia, Wikinews, Policy News, The Korea Economics Daily News, and Acrofan News를 선택한다. 구어적인 문소는 ParaKQC, Airbnb Reviews, and NAVER Sentiment Movie Corpus를 사용한다. 이는 표 2에서 볼드체로 표시되어 있다. 

 

2.2 Selected Corpora

여기서는 각 corpus 자료의 일반적인 특성과 잠재적 관심사를 더 자세히 설명한다. 각 corpusd의 수집 메커니즘, 기간, 도메인, 스타일, 라이센스 및 배경도 문서화한다.

 

News Headlines from Yonhap News Agency (YNA).

YNA는 한국의 대표적인 통신사 중 하나인 연합뉴스의 헤드라인 데이터 세트이다. 뉴스 헤드라인을 이용하는 것은 뉴스 기사의 실제 내용과 달리 저작권을 침해하지 않는다. 우리는 단일 문장 분류 작업에 사용하기 위해  2016년부터 2020년까지의 YNA를 포함시켰다.

 

Wikipedia (WIKIPEDIA) 

위키피디아는 형식적인 스타일로 쓰여진 공개 백과사전이고, 질 좋고 잘 짜여진 텍스트 때문에 많은 언어에서 언어 모델링과 데이터 세트 제작에 널리 사용되어 왔다. 한국어 위키백과 기사는 CC BY-SA에 의해 발표된다. 우리는 2020년 12월 1일에 출시된 한국어 위키피디아를 사용한다.

 

Wikinews (WIKINEWS)

위키뉴스는 집단 저널리즘을 구현하고 CCBY에서 무료로 뉴스 기사를 제공한다. 두 기사 모두 뉴스 기사로서는 드문 일이다. 이러한 특성으로 인해 제한된 수의 제품(그 중 약 500개)에도 불구하고 corpora자료 에 포함되어 있다.

 

 Wikitree (WIKITREE) 

위키트리는 2010년 시작된 한국 최초의 소셜미디어 기반 뉴스 플랫폼인 위키트리(Wikitree)에서 파생된 뉴스 기사 데이터 세트다. Wikitree에 대한 기사가 많은 경우 광고로 가장하거나 클릭 미끼용 헤드라인을 통해 바람직하지 않은 성향을 표현한다는 우려가 있지만, 우리는 Wikitree가 CC BY-SA에 따라 자유롭게 배포되는 유일한 대규모 뉴스 기사 자료이기 때문에 Wikitree를 포함시킨다. 또한 정치, 경제, 문화 및 삶을 포함한 광범위한 주제를 다룬다. 2016년에서 2020년 사이에 발행된 기사를 사용한다. WIKITREE에 대한 보다 철저한 수동 검사를 실시하고 있다. 자세한 내용은 섹션 2.2.1을 참조하면 된다.

 

Policy News (POLICY) 

POLICY는 대한민국 부처, 국가청, 국가위원회가 배포하는 다양한 문서 데이터 세트이다. 이 문서에는 정부 기관에서 보고한 진술, 공지 또는 언론 참고 사항이 포함된다. POLICY는 KOGL(Korea Open Government License) Type 1에 따라 보호되며, 사용자는 KOGL에 귀속되어 있는 경우 상업적 목적으로도 공유 및 리믹스를 할 수 있다. 우리는 2020년 말까지 발표된 기사들을 포함한다.

 

ParAKQC(PARAKQC)

PARAKQC는 스마트홈 기기를 겨냥한 10,000개의 발화 데이터셋으로, 10개의 유사한 의문에 대해 1,000개의 의도로 구성되어 있다. 스마트 홈 스피커와 교류할 때 가능한 다양한 주제(예: 약속을 잡고 날씨에 대해 물어보는 것)를 다룬다. PARAKQC는 CC BY-SA에서 사용할 수 있다.

 

Airbnb Reviews (AIRBNB)

AIRBNB는 AIRBNB 홈페이지에서 공개적으로 접속할 수 있는 리뷰 데이터 세트다. 좀 더 구체적으로, 우리는 AIRBNB에의해 수집되고 사전 처리된 기존의 다국어 AIRBNB 리뷰에서 시작한다. 우리는 이 다국어 AIRBNB corpus에서 한국어로 작성된 리뷰의 일부를 정규 표현으로 식별한다. 투숙을 완료한 호스트 및 게스트의 리뷰가 제공된다. 에어비앤비는 CC0으로 이용 가능하다.

 

NAVER Sentiment Movie Corpus (NSMC) 

NSMC는 NAVER Movies에서 스크랩한 영화 리뷰 데이터 세트다. 온라인 사용자가 작성한 리뷰다. 각 리뷰에는 텍스트 내용과 두 부분으로 이루어진 감정 라벨이 함께 제공된다. 총 20만 개의 리뷰가 있다. 긍정적인 검토자와 부정적인 검토자의 수가 균형을 이룬다. NSMC는 CC0에서 사용할 수 있다. 

 

Acrofan News (ACROFAN)

ACROFAN은 ACROFAN에서 발표한 뉴스 기사로 구성된 corpus이다. 대부분의 기사는 종종 기업의 신제품이나 이벤트를 소개한다는 점에서 보도 자료와 비슷하다. 비록 기사들이 자동차, IT, 스타트업, 대기업, 에너지, 미용, 패션을 포함한 광범위한 범주들을 다루지만, 형식과 스타일은 꽤 템플릿이 되어 있다. 우리는 KLUE용 ACROFAN으로부터 기사의 허가와 사용을 받는다. 우리는 2020년 12월과 2021년 1월 사이에 출판된 뉴스 기사들을 포함한다.

 

The Korea Economics Daily News (The Korea Economy Daily) 

한국경제신문은 한경 회사의 한국 경제 신문 기사로 구성된 기사집이다. 경제 문제를 주로 다루면서도 정치, 문화, IT 등 다양한 주제를 싣는 신문이다. 한국경제신문과 우리는 2013년 1월부터 2015년 12월 사이에 발행한 기사를 KLUE의 일부로 사용하기로 계약을 체결하였다. 이를 통해 고품질의 잘 큐레이트된 뉴스 기사가 KLUE에 포함되도록 보장할 수 있다. 우리는 머신러닝 연구를 목적으로 이 기사를 사용한다는 조건으로 CC BY-SA 속에 한국경제신문을 발행한다.

 

2.2.1 Potential Concerns

위에서 선정한 10개의 corpora를 기반으로, 여기서는 몇 가지 우려 사항을 나열하고 논의한다. 일부 우려 사항은 데이터의 품질에 초점이 맞춰져 있는 반면, 다른 우려 사항은 보다 사회적이고 윤리적이다.

 

Toxic Content 

YNA, WIKINEWS, WIKITREE, PARICY, ACROFAN, 한국경제신문 등의 뉴스 기사가 온라인 리뷰와 같은 사용자 생성 콘텐츠보다 잘 작성되고 큐레이트되지만, 그럼에도 불구하고 이 기사들은 저널리스트와 편집자들이 가지고 있는 편견을 반영할 수 있다. 특히, 소셜 미디어에서 더 널리 공유되고 더 많이 클릭되는 기사를 장려하는 인센티브 구조 때문에 WIKITree는 다른 뉴스 자료보다 잠재적으로 문제가 될 수 있는 패턴을 더 많이 포함하고 있는 것으로 나타났다. 이는 특히 이러한 기사의 헤드라인에 해당되므로 TC를 구성할 때 WIKITREE의 헤드라인을 사용하지 않는다. 또한 WIKITREE의 기사 내용을 MRC에 사용하지 않는다. 기사 전체가 이야기의 선정적인 측면을 과장하고 강조하는 경우가 많기 때문이다. 그러나 WIKITREE에서 샘플링된 문장은 종종 완전하고 형식이 좋기 때문에 다른 작업별 corpora를 구축할 때 사용한다. 우리는 주석을 통해 어떤 문제 있는 문장도 폐기한다. 뉴스 기사와 달리, 온라인 리뷰는 유해한 내용을 포함할 가능성이 높지만, 그러한 경향은 corpus마다 다르다. 에어비앤비는 안전 점검 시스템 때문에 유해성이 있다고 판단되는 리뷰를 거의 포함하지 않는다. 반면 NSMC에는 영화, 배역, 감독에 대한 모욕적인 발언들이 포함되어 있다. 리뷰 도메인에 한국어 혐오 발언 데이터 세트가 있으므로, 먼저 데이터 세트에 대해 교육된 검출기로 유해 콘텐츠를 필터링한다. 그런 다음 주석 절차를 통해 문제가 있는 문장을 폐기한다. PARAKQC의 모든 발문은 사전 정의된 주석 지침에 따라 신중하게 작성된다. 이것은 주로 유해성 내용이 corpus로 들어가는 것을 막는다.

 

Personally Identifiable Information (PII) 

개인정보는 공인으로 간주되지 않는 개인을 식별하는 데 사용할 수 있는 모든 정보이다. 여기에는 이름, 사회보장번호, 전화번호, 은행계좌번호 등이 포함된다. 뉴스 기사의 경우, 사회적 사건을 설명하는 특성으로 인해 종종 이름과 주소와 같은 PII를 포함한다. NSMC에서 볼 수 있듯이 배우, 여배우, 감독과 같은 유명인사들에 관한 온라인 리뷰에서는 그렇지 않다. 하지만 Airbnb의 리뷰에는 호스트 및/또는 게스트의 이름과 주소가 포함되어 있으므로 주의해서 다루어야 한다. PARAKQC에서 인위적으로 생성된 일부 발화문에는 이름이 포함되어 있다. 그러나 이러한 내용이 대부분 허구라는 것은 우리가 알고 있는 사실이며, 이는 이러한 내용이 진정으로 사적인 정보일 가능성은 낮다는 것을 의미한다.

 

2.3 Preprocessing

이러한 corpora 자료는 품질 및 큐레이션 수준이 다양한 다양한 자료로부터 제공되기 때문에 각 후속 작업에 대한 하위 집합을 도출하기도 전에 조심스럽게 사전 처리한다. 본 섹션에서는 이러한 corpora 내의 각 문서를 Korean Sentence Splitter(KSS) v2.2.0.2.14를 사용하여 문장으로 분할한 후 적용되는 사전 처리 루틴에 대해 설명한다. 아래의 전처리 규칙은 각 KLUE 과제의 주석 단계에서 수동 검사 및 필터링에 추가된다.

 

Noise Filtering 

선택된 corpora 자료에서 noisy 텍스트 또는 한국어 이외의 텍스트를 제거한다. 먼저 해시태그(예: #JMT), HTML 태그(예: <br>), 잘못된 문자(예: U+200B(zero-폭 공간), U+FEFF(바이트 순서 표시), 빈 괄호(예: ( )) 및 연속 공백을 제거한다. 그런 다음 한자 또는 일본어 10자 이상의 문장을 필터링한다. 뉴스 기사에서 파생된 corpora의 경우, 리포터와 언론, 이미지, 소스 태그 및 저작권 태그(예: ©의 저작권)에 대한 정보를 제거한다.

 

Toxic Content Removal

우리는 corpora 자료에서 원치 않는 내용과 성향을 KLUE에 도입하는 것을 피하고, 다양한 바람직하지 않은 문장을 제거하기 위해 다수의 자동 도구를 사용한다. 한국어 혐오 언어 데이터 세트를 사용하여 성별 성향과 혐오 음성 감지기를 훈련한다. 최소 0.5의 예측 점수로 성별 성향을 보일 것으로 예측된 문장을 폐기한다. 우리는 또한 그것이 혐오 발언으로 간주될 경우 0.9점 이상의 예측 점수를 가진 문장을 폐기한다. 임계값은 각 corpus에 대해 수동으로 결정된다. 한국어 혐오 발언 데이터 세트는 온라인 리뷰를 사용하여 구성되었기 때문에 이러한 접근 방식은 리뷰와 같은 온라인 텍스트에 적합하다. 그러나 뉴스 기사와 같은 보다 공식적인 텍스트에는 적합하지 않기 때문에, 한국경제신문, ACROFAN, YNA에서 이 방법을 사용하지 않기로 결정했다.

 

PII Removal

잠재적인 개인 정보 문제를 완화하기 위해 개인 정보가 포함된 문장을 제거한다. 이메일 주소, URL, 사용자 언급 키워드(예: '@gildong')와 일치하는 정규식을 사용하여 이러한 문장을 감지한다.

 

2.4 Task Assignment

DST를 제외한 7가지 KLUE 작업에 대한 데이터셋을 구축하기 위해 이러한 corpora 자료를 사용한다. DST는 크라우드워커들의 가장된 대화로 구축되며 오프라인 텍스트에 접근할 필요가 없다. 아래 설명된 바와 같이 각 후속 작업에 대해 corpora 자료의 subset을 사용한다.

  • 주제 분류(TC): 단일 문장 주제 분류 작업에 대해 광범위하게 연구된 YNA를 사용한다.
  • 문장 유사도 비교(STS): Airbnb, PARICY, PARAKQC를 이용하여 다양한 의미적 문맥을 포함하고 있다. 의도 의문과 PARAKQC의 주제 정보는 의미론적으로 관련된 문장 쌍을 생성할 때 유용하다.
  • 자연어 추론(NLI): MNLI에 따라 다양한의 자료를 사용하여 NLI를 구성한다. 우리는 WIKITree, Policy, WIKINEWS, WIKEDIA, NSMC 및 Airbnb를 사용한다.
  • 개체명 인식(NER): NER의 특성상, 우리는 (이름 지정된) 실체가 자주 나타나는 corpus를 만들어야 한다. 따라서 WIKITREE와 NSMC를 사용하여 공식 및 비공식 쓰기 스타일을 모두 포함할 수 있다.
  • 관계 추출(RE): Wikipedia, Wikitree 및 Policy를 사용한다. 이들 corpora는 공인의 이름과 다양한 조직과의 관계가 적힌 문장을 완성하는 경향이 있다.
  • 의존성 구문 분석(DP): 공식 및 구어체 작문 스타일의 균형을 유지하는 동시에 선택된 corpora에서 대부분의 문장을 완성한다. 결국 WIKITree와 Airbnb를 사용하게 된다. NSMC보다 Airbnb를 선택하는 이유는 Airbnb의 문장이 더 잘 형성되어 있기 때문이다.
  • 기계 독해 (MRC): 우리는 유용한 정보 구절을 제공하기 위해 위키피디아, 한국경제신문, ACROFAN을 사용한다.