GPT-2 (Metrics : PPL, BPB, BPC)

2021. 5. 28. 23:45논문

GPT-2 논문에서 dataset 평가기준으로 PPL, BPB, BPC가 있다.

 

PPL(Perpelxity)

'perplexed'는 '헷갈리는'과 비슷한 의미를 가진다.

특정 확률 모델이 실제로 관측되는 값을 얼마나 잘 예측하는지를 뜻한다. 

 

* PPL은 낮을수록 모델의 성능이 좋다.

* 확률 모델이 다른 모델에 비해 얼마나 개선되었는지 평가할 때 쓴다.

* 동일 모델 내 파라미터에 따른 성능 평가할 때 주로 사용한다.

* 토픽 모델링 기법이 얼마나 빠르게 수렴하는지 확인할 때 사용한다.

https://wikidocs.net/21697

 

BPC(bits-per-character)

문자를 인코딩하는 데 필요한 평균 비트 수의 양을 정확히 측정한다.

압축 방법의 성능을 측정한 것이기 때문에 문자 당 비트 수가 적을수록 압축 방법이 더 효과적이다.

생성 언어 모델을 압축에 사용하고 높은 효율성의  결과가 나오면 정확성이 높다고 나타낸다. 

즉, 모델이 좋으면 문자를 정확하게 예측하여 bit squence가 짧아지기 때문에 문자당 총 비트 수가 낮다.

(= BPC가 낮을수록 모델의 성능이 좋다.)

https://datascience.stackexchange.com/questions/56145/what-is-bit-per-character

 

BPB(bits per byte)

word LM은 일반적으로 단어당 PPL을 기준으로 결과를 기록하지만, byte LM은 BPB로 결과를 기록한다. 

* BPB가 낮을수록 모델 성능이 좋다.

https://arxiv.org/pdf/1908.10322.pdf

 

 

 

 

 

참고한 링크 : 

https://stackoverflow.com/questions/17797922/how-to-calculate-bits-per-character-of-a-string-bpc

https://coredottoday.github.io/2018/09/17/%EB%AA%A8%EB%8D%B8-%ED%8C%8C%EB%9D%BC%EB%AF%B8%ED%84%B0-%ED%8A%9C%EB%8B%9D/