민공지능/논문
GPT-2 (Metrics : PPL, BPB, BPC)
m_log
2021. 5. 28. 23:45
GPT-2 논문에서 dataset 평가기준으로 PPL, BPB, BPC가 있다.
PPL(Perpelxity)
'perplexed'는 '헷갈리는'과 비슷한 의미를 가진다.
특정 확률 모델이 실제로 관측되는 값을 얼마나 잘 예측하는지를 뜻한다.
* PPL은 낮을수록 모델의 성능이 좋다.
* 확률 모델이 다른 모델에 비해 얼마나 개선되었는지 평가할 때 쓴다.
* 동일 모델 내 파라미터에 따른 성능 평가할 때 주로 사용한다.
* 토픽 모델링 기법이 얼마나 빠르게 수렴하는지 확인할 때 사용한다.
BPC(bits-per-character)
문자를 인코딩하는 데 필요한 평균 비트 수의 양을 정확히 측정한다.
압축 방법의 성능을 측정한 것이기 때문에 문자 당 비트 수가 적을수록 압축 방법이 더 효과적이다.
생성 언어 모델을 압축에 사용하고 높은 효율성의 결과가 나오면 정확성이 높다고 나타낸다.
즉, 모델이 좋으면 문자를 정확하게 예측하여 bit squence가 짧아지기 때문에 문자당 총 비트 수가 낮다.
(= BPC가 낮을수록 모델의 성능이 좋다.)
BPB(bits per byte)
word LM은 일반적으로 단어당 PPL을 기준으로 결과를 기록하지만, byte LM은 BPB로 결과를 기록한다.
* BPB가 낮을수록 모델 성능이 좋다.
참고한 링크 :
https://stackoverflow.com/questions/17797922/how-to-calculate-bits-per-character-of-a-string-bpc