Multi-Path and Group-Loss-Based Network for Speech Emotion Recognition in Multi-Domain Datasets

2021. 7. 2. 14:51논문

Multi-Path and Group-Loss-Based Network for Speech Emotion Recognition in Multi-Domain Datasets(2021),

Kyoung Ju Noh *, Chi Yoon Jeong , Jiyoun Lim, Seungeun Chung, Gague Kim, Jeong Mook Lim and Hyuntae Jeong

 

Abstract 

SER(Speech emotion recognition, 음성 감정 인식)은 일상 생활에서 개인의 감정을 자연스럽게 인식하는 방법이다. SER 모델을 실제 애플리케이션에 배포하려면, 감정 라벨로 태그가 지정된 데이터셋의 부족 및 보이지 않는 대상 도메인에 대한 SER 모델의 취약한 일반화와 같은 몇 가지 주요 과제를 극복해야 한다. 본 연구는 다중 도메인 적응을 지원하기 위해 SER를 위한 다중 경로 및 그룹 손실 기반 네트워크 (multi-path and group loss-based network, MPGLN)를 제안한다. 제안된 모델에는 BLSTM(bidirectional long short-term memory)기반인 시간적 특성 생성기와 사전 학습된 VGG와 같은 오디오 분류 모델(VGGish)에서 전달된 특성 추출기가 포함되며, 분리되고 차원 모델(Dimensional Mode)의 감정 라벨 연결에 따라 다중 손실을 기반으로 동시에 학습한다. 다문화 도메인 데이터셋에 적용되는 MPGLN SER 평가를 위해 KESDy18, KESDy19 등 한국어 감성 음성 데이터베이스 KESD( Korean Emotional Speech Database)를 구축하고, 영어 음성 데이터인 IEMOCAP(Interactive Emotional Dyadic Motion Capture)를 사용한다. 다중 도메인 적응 및 도메인 일반화의 평가는 MPGLN SER의 성능을 시간적 특성 생성기를 사용하는 기본 SER 모델과 비교하였을 때 F1 점수 중 각각 3.7%, 3.5% 향상되었다. MPGLN SER는 Multi-domain 적응을 효율적으로 지원하며 모델 일반화를 강화한다. 

 

1. Introduction

사람의 음성은 인간-컴퓨터 상호작용(HCI)과 인간-로봇 상호작용(HRI)에서 자연스러운 의사소통 방법이다. 자연스런 인간의 언어를 기반으로 하는 음성 감정 인식(SER)은 일상사에서 개인의 감정을 인식하는 데 사용되는 핵심 방법이다. SER은 세그먼트의 의미있는 정보를 가진 어휘적 특징이 아닌 음성 세그먼트의 음향 특징을 사용한다. 따라서, 그것은 피험자의 말의 내용보다는 그들이 말하는 방식에서 그들의 감정을 인식한다. 그런 다음, 대상 화자의 예측된 정서적 맥락을 지능형 HCI 및 HRI 서비스에서 의사결정을 위한 중요한 요소로 사용할 수 있다.

 실제 애플리케이션에 SER 모델을 배치하기 전에, 감정 라벨로 태그가 지정된 SER 데이터베이스의 부족을 해결해야 한다. 이는 SER 모델이 심층적인 SER 모델을 훈련시키기에 충분하지 않기 때문이다. 또 다른 과제는 감정적 음성 샘플의 음향 신호의 높은 가변성 때문에 제한된 일반성의 SER 모델입니다. 감정은 개인이나 문화에 따라 높은 주관성과 다양성의 특징을 가지고 있다. 따라서, 인간의 관찰을 통해 신뢰할 수 있는 gold-standard(합리적인 조건에서 가장 적합한) 감정 라벨로 주석을 단 대규모 감정 데이터베이스를 구축하는 데는 많은 시간과 비용이 든다. 골드 표준 라벨이 있는 대부분의 SER 데이터셋에는 특정 환경의 제한된 수의 스피커에서 수집한 수천 개의 음성 샘플이 포함되어 있다. 따라서 단일 도메인 샘플에 대해 교육된 SER 모델의 성능은 서로 다른 언어, 문화, 화자, 성별, 마이크 유형, 위치, 신호에서 잡음 비율을 반영하는 보이지 않는 도메인 샘플에 적용될 때 본질적으로 저하된다. 이 연구에서는 동일한 수집 장치를 사용하여 한 곳에서 하나의 수집 절차를 사용하여 수집된 단일 SER 도메인 데이터 세트를 정의한다.

 많은 연구가 제한된 감정 데이터베이스를 효과적으로 활용하여 SER 성능을 개선했다. 음성 샘플의 일반적인 확대 방법 외에도, 알려지지 않은 대상 도메인에 이미 확립된 음성 데이터 세트를 활용하는 도메인 적응 방법이 존재한다. 단일 도메인에서 데이터 증가 결과와 비교하여, 도메인에서 음성 샘플의 음향 특성의 높은 가변성 때문에 우수한 성능을 보장하기는 어렵다. 그러나 다중 도메인 데이터 세트를 기반으로 하는 도메인 적응을 사용하면 과적합 없이 이러한 일반성을 지원할 수 있는 더 나은 SER 모델을 구축할 수 있다.

 다중 환경에서 획득한 다중 도메인 데이터 세트에서 지도된 도메인 적응을 지원하는 MPGLN를 SER를 위해 제안한다. 제안된 MPGLN SER(MPGLN for SER)는 음성 세그먼트에 대한 멀티 레벨 임베딩 벡터 학습을 위한 앙상블 학습 구조를 기반으로 한다. 여기에는 시간의 임베딩 특성 생성, 특성 추출 전달, 생성 및 추출된 특성 벡터를 기준으로 감정 라벨을 분류하는 예측 함수 네트워크가 포함된다. BLSTM 기반 시간 특성 생성 네트워크는 음성 세그먼트의 수작업 LLD(Low-Level Description)의 74-D 입력으로 학습한다. 특성 추출 전달은 사전 훈련된 VGG 유사 오디오 분류 모델(VGGish)에서 특징 벡터를 생성하며, 제안된 MPGLN SER는 다중 도메인 샘플의 개별적이고 연속적인 차원의 감정 라벨 간의 연관성에 의한 다중 손실에 기초하여 훈련된다.

 제안된 MPGLN SER는 5개의 다중 도메인 SER 데이터셋, 즉 이전 연구에서 SER 모델 평가를 위해 널리 사용된 벤치마크 IEMOCAP(English Interactive Imposal Dynamic Motion Capture) 데이터셋과 이 연구를 위해 구축된 4개의 한국 감성 음성 데이터베이스(KESD) 데이터셋을 통해 평가된다.

 평가에서는 전달되는 특징을 제외한 BLSTM 기반의 시간 특성 생성기와 MPGLN 예측 네트워크로 구성된 SER 모델을 기준 모델로 사용합니다. 그런 다음 IEMOCAP 데이터 세트를 사용하여 기본 SER 모델의 안정성을 확인합니다. 이를 기준 SER 모델의 성능과 비교하여, 제안된 MPGLNSER가 감독된 다중 도메인 적응을 지원하고 다중 도메인 데이터셋에서 SER 모델의 일반화를 강화하는데 효과적이라는 것이 확인되었다. 본 문서는 다음과 같이 구성되어 있다. 섹션 2에서는 관련 SER 및 도메인 적응 작업에 대한 간략한 개요를 제공한다. 섹션 3에서는 다중 도메인 데이터셋에서 SER의 다중 도메인 적응을 지원하는 제안된 MPGLN에 대해 설명한다. 섹션 4는 MPGLN SER의 평가 결과를 상세히 설명하고, 섹션 5는 이 연구를 마무리하고 향후 작업을 제안한다.

 

2. Related Works

 최근 딥러닝 구조에 기반을 둔 최신 SER모델 메커니즘을 통해 최첨단 성능을 입증했다. 이전 연구에서 채택된 딥러닝 구조에는 RNN, CNN, CRNN이 포함되어 있다. Liu et al.은 딥러닝과 일반적인 분류 기법을 혼합하여 single hidden-layer feed-forward neural network를 가진 익스트림 학습 머신에 대한 decision tree의 SER모델을 제시했다. 

 딥러닝 기반 SER 모델의 input 특성은 일반적으로 음성 세그먼트 또는 프레임 단위로 시간 또는 스펙트럼 축에서 추출된다. LLD 싱글 특성에는 다양한 LLD와 높은 수준의 통계 기능이 있다. 음성 신호의 스펙트럼 LLD 특성에는 logMel filter-banks 및 MFCC가 포함된다. Zero-crossing rates와 신호 에너지는 대표적인 시간 영역 특성인 반면 spectral roll-off와 spectral centroid는  스펙트럼 파라미터로 분류된다. 확장된 GeMAPS(Geneva Minimalistic Acoustic Parameter Set) 및 IS10(INTERSPEECH 2010 Paralinguistic Challenge) 데이터 세트와 같은 음향 신호 처리를 위한 여러 가지 싱글 특성들은 이제 OpenSmile 과 같은 오픈 소스 프레임워크에서 이용할 수 있다. 일부 연구는 음성 감정 인식 또는 오디오 분류의 성능을 개선하기 위해 시간 음향 특성의 모델링 및 통합 메커니즘을 조사했다. Jing et al. 은 사전 교육된 음향 모델에서 생성된 특징을 결합한 다중 음향 특성 셋에 대한 평가를 제시했다.

 일반적인 딥러닝 모델에는 학습을 위해 대규모 샘플이 필요하다. 안타깝게도 감정 라벨로 주석을 단 SER 데이터셋은 드물다. 또한, SER 음성 샘플을 수집하고 감정 라벨에 태그를 붙이는 것은 시간이 많이 걸리고 비용이 많이 든다. 따라서 딥러닝 SER 모델에 대한 라벨 음성 샘플의 볼륨과 다양성의 한계를 극복하기 위해 연구는 데이터 확대, 수집된 데이터 세트를 기반으로 한 active-learning 및 기존 SER 데이터 세트를 대상 도메인에 적응시키는 도메인 적응을 사용하여 수행되었다.

 Park et al.은 시간 단계에 따라 주파수 채널에서 뒤틀림과 masking을 사용한 음성 샘플에 대한 데이터 증강 실험을 제시했다. Chatziagapi et al. 은 각 감정 클래스의 균형을 맞추기 위해 증강 데이터의 인공 스펙트럼 프로그램을 추출하기 위해 GAN를 사용하는 방법을 제안했다.

 Active-learning 방법은 제한된 샘플을 기반으로 대상 화자에 적합한 초기 SER 모델을 구축하기 위해 음성 샘플의 greedy 선택 방법을 제시하기 위해 사용되어 왔다. Abdelwahab et al. 은 DNN 기반 SER 모델의 성능을 개선하기 위해 가장 유용한 샘플을 선정하기 위해 greedy 샘플링의 적극적인 학습을 제안했다. Bang et al. 의  연구에서, 임베딩 공간에서 대상 화자의 샘플에 가까운 샘플이 선택되었으며, 소수 클래스의 샘플 수를 늘리기 위해 합성 소수 오버샘플링 기법을 적용했다.

 도메인 적응 기법은 시각 분류 분야에서 활발하게 연구되고 있다. Metric 기반 학습은 소스 도메인 및 대상 도메인 간의 도메인 불일치를 최소화하기 위해 도메인 간 및 클래스 샘플의 특징을 포함하는 거리를 학습하는 대표적인 방법이다. Gao et al.은 음향 장면 분류를 위해 ResNet에 기반한 음향 모델을 제안했다. 학습 과정은 표본이 속한 영역을 구별하기 어렵다. 다중 도메인 데이터 세트를 기반으로 하는 SER 모델의 도메인 적응은 특정 데이터 세트에 과적합되지 않고 알 수 없는 대상 도메인 음성 데이터에 대해 일반화된 SER 모델을 구축하는 목적이 있다. 그러나 다중 도메인 데이터 세트를 기반으로 하는 SER 모델은 단일 도메인 데이터 세트를 오버샘플링하여 데이터 확장을 적용하는 경우와 다른 적용성을 가진다. 수집 환경에 따라 달라지는 음성 신호에서 높은 도메인 불일치가 있기 때문에, 여러 개의 다중 도메인 음성 샘플이 SER 모델을 훈련시키기 위해 사용되더라도, SER 성능 향상을 보장하지는 않는다.

 Liang et al. 은 도메인 불일치를 줄이기 위한 내장형 기능을 생성하면서 적대적인 학습 프레임워크를 통해 오디오 및 비디오 데이터에 기반한 감정 표현 기능을 학습한 구조를 제안했다. Huang et al. 은 소스 도메인과 대상 도메인 사이의 중간 특성 공간의 분포 변화를 정렬시킨 네트워크 모델을 제시하였다. Neumann et al. 은 표적에서 추출한 소수의 샘플을 사용하여 소스 도메인에서 훈련받은 SER 신경 네트워크의 가중치를 미세 조정하는 적응 기술을 도입했다. Li et al. 은 사전 훈련 모델에서 전달된 특성을 사용함으로써, 오디오 세트의 사전 훈련 VGGish에서 추출한 추가 내장 벡터를 사용하여 SER 성능의 향상을 입증하였다. Lee et al.은 여러 종류의 다국어 데이터에 dropout 및 정규화 방법을 적용하여 감정 인식의 일반화 효과를 제시하였다.

 

3. Ensemble Learning Model for SER in Multi-Domain Datasets

우리는 다중 도메인 데이터셋에서 SER 일반화의 성능을 개선하기 위한 앙상블 학습 모델을 제안한다. 제안된 MPGLN SER의 감독된 다중 도메인 적응의 운영 흐름은 그림 1에 나와 있다. 

그림 1. 다중 경로 및 그룹 손실 기반 네트워크 (MPGLN) 음성 감정 인식 (SER)의 감독된 다중 도메인 적응. 모델은 음성 세그먼트에 대한 시간 임베딩 기능과 전달 임베딩 기능을 생성하고 다중 손실에 기반하여 학습합니다.

 음성 입력 샘플과 클래스 라벨 공간을 각각 X와 Y로 표시하며 도메인 데이터 세트는 D = {D1, D2, ..., Dk}이다. 본 연구는 각 도메인 샘플에 공통 감정 라벨이 있는 감독된 학습 환경을 가정한다.

 본 연구에서 각 도메인 데이터셋은 옆의 수식과 같이 구성되며,

여기서 Nk는 k번째 도메인 데이터셋의 음성 샘플의 수이며, 각 음성 샘플의 데이터셋에는 여러 Y 라벨이 있다. 별개의 감정 라벨은 y**k(i_d)이고(예: "행복한"과 "슬픈"), 연속 차원 감정 모델에서 valence 라벨은 y**k(i_v)이다. 

 모델 교육에 사용되는 source-domain 데이터셋은 도메인 D이며, 테스트 샘플이 속한 도메인은 대상 도메인 Dt이다. 기능 분포 d(X**S)와 d(X**T)에서 각각 다른 도메인 데이터셋 Ds와 Dt의 데이터 샘플이 변형된 이동과 도메인 불일치가 있습니다.

 SER 모델의 목표는 대상 도메인에서 분류기 함수 f : X → Y를 학습하는 것이다. f 함수는 f = h ˚g의 두 가지 함수로 구성됩니다. 여기서 g는 입력 데이터 공간 X에서 임베딩 특성 공간까지의 임베딩 특성 생성기로, 그리고 h 함수는 라벨-공간 Y에 대한 임베딩 특성을 예측하는 데 사용된다.

 그림 2는 MPGLN SER의 아키텍처를 보여준다. 이는 다중 경로 생성기에서 다중 레벨 임베딩 벡터를 생성한다. BLSTM 기반 특성 발생기 gBLSTM은 시간 임베딩 벡터를 생성하며, 전달 특성 추출기 gVGG는 사전 교육 받은 VGGish 모델에서 전송된 임베딩 벡터를 추출한다. 

 예측 함수에서, 제안된 앙상블 구조의 h, 별개의 감정 라벨은 gBLSTM과 gVGG의 다중 경로 임베딩 벡터의 융합에 기초해 분류된다. gBLSTM에 의해 생성된 시간 임베딩 기능에 기초한 valence 수준의 차원 분류 기능도 포함한다.

그림2. SER용 다중 경로 및 그룹 손실 기반 네트워크 아키텍처 MPGLN SER 모델은 BLSTM 기반 시간 임베딩 발생기와 VGG 유사 오디오 분류 모델(VGGish)의 전송 특성 추출기 및 예측 기능으로 구성된다.

3.1. Multi-Path Embedding Features

 본 연구에서는 발음 단위의 음성 세그먼트를 앙상블 구조의 시간적 특성 발생기인 gBLSTM과 전송 특성 추출기인 gVGG를 통해 특성 공간에 임베딩한다. 그림 2에서 BLSTM 구조의 시간적 특성 발생기 gBLSTM은 사전 및 사후 음성 기능의 시간적 관련성의 특성을 반영한다. 74-D LLD-per-frame 음성 세그먼트는 13-D MFCC 및 40-D Mel-spectrogram과 제로크로싱 속도, 에너지, 스펙트럼 중심 및 스펙트럼 롤오프와 같은 21-D 시간 및 주파수 영역 LLD로 구성된다. 74-D LLD는 200ms의 슬라이딩 윈도우를 적용하는 프레임에 의해 추출되며 음성 세그먼트가 50% 이동한다. 각 음성 세그먼트는 0 값으로 패딩되어 100 프레임의 고정 개수를 가지며 세그먼트당 100 × 74의 시퀀스가 gBLSTM에 입력됩니다. 패딩 처리된 입력 시퀀스는 각 방향의 128개 셀로 구성된 gBLSTM에 공급되며, gBLSTM은 256-D 피처 벡터를 생성한다.

 특성 발생기 gBLSTM은 attention mechanism을 채택하고 최종 감정 분류를 활성화하기 전에 BLSTM 출력 시퀀스의 차별적인 부분에 초점을 맞춘다. SER에 대한 attention mechanism은 음성 부분에서 감정을 잘 표현하는 특정한 단어와 두드러진 부분이 있다고 가정한다. 주의력 있는 방법을 사용하여, 그것은 감정을 인식할 수 있는 발성 수준의 세그먼트의 관련 음성 프레임에 더 무게를 둔다.

 attention layer는 서로 다른 가중치 점수를 부여하여 BLSTM 출력 시퀀스의 관련 부분에 초점을 맞추고 높은 수준의 특징(hf)을 생성한다. attention layer을 통해 소프트맥스 함수를 사용하여 무게 αt를 계산한다(수식 1 참조). 여기서 BLSTM 출력 벡터는 시간 t에서 ht = [ → ht, ← ht]이다. 이는 가중치 αt를 곱하여 얻은 가중치 합인 hf를 생성한다(수식 2 참조). 생성된 hf는 MPGLN에 있는 2개의 완전 연결(FC) 계층을 통해 R64의 내장 특성 벡터로 다시 전송된다.

 

수식 1 / 수식 2

시간 특성 생성기(gBLSTM: X → R**64)는 74-D LLD의 입력으로부터 64D 임베딩 벡터를 음성 세그먼트 프레임 단위로 생성한다. MPGLN SER의 특성 생성기 gBLSTM은 VGGish에서 전송된 특성을 사용하지 않고 예측 함수(옆의 수식)를 결합하여 단독으로 SER 모델로 작동할 수 있다. 이 연구는 MPGLN SER 평가를 위한 기준으로 BLSTM 기반 SER 모델을 사용한다. 전달 특성 추출기 gVGG : X → R**VGGish 는 VGGish 모델을 사용하여 데이터 샘플 X의 전송 특성 벡터를 추출한다. 입력 음성 세그먼트는 중복되지 않는 960ms의 시간 단위 프레임으로 나뉘며, 각 프레임에서 10ms마다 25ms의 window를 적용하는 64개의 멜 간격 스펙트로그램 기능은 VGGish 모델을 사용하여 추출된다. 전달 특성 추출기 VGG를 사용하여 96 × 64 단위로 프레임별 스펙트로그램을 입력하여 음성 세그먼트를 위한 VGGish 모델로부터 128-D 임베딩 특성 벡터를 생성한다. 추출된 128-D 임베딩 벡터는 fattening 및 FC 계층을 통과하여 64-D 임베딩 벡터로 전환된다.

 

3.2. Group Loss

수식 3

 수식 3은 분류자 f가 음성 샘플 X의 감정 라벨 Y의 분류 손실 Lc(f)에 대해 어떻게 훈련되는지를 보여준다. 여기서 ℓ은 다중 분류를 위한 cross-entropy와 유사한 적절한 손실 함수이다.

 제안된 MPGLN SER는 다차원 감정 라벨의 연결에 의해 유도되는 다중 손실을 동시에 최소화하도록 훈련되었다. 개별적인 감정표시는 감정을 표현하는데 직관적이지만 복잡한 감정을 표현하는데 어려움이 있다. 차원 감정 라벨은 복잡한 감정 표현을 정규화할 수 있다. 단, arousal-valence 축에서 유사한 위치(예: "두려움"과 "분노")에서 감정을 직관적으로 구별하기는 어렵다. 이 연구는 실제 SER 도메인 데이터 세트를 기반으로 discrete와 valence-level 차원 라벨 사이의 연관성을 도출하고 MPGLN 모델의 각 감정 라벨 분류에 대해 손실을 동시에 학습하는 방법을 적용한다.

 그림 2와 같이, MPGLN SER는 두 가지 손실, 즉 gBLSTM에서 생성된 R**64 특성 벡터를 사용한 valence-level label의 Lcv와 개별 감정 라벨의 예측에 대한 Lcd를 기반으로 동시에 학습한다.

최초 loss인 Lcd는 예측기능인 fd = hd ◦ (gBLSTM ⊕ gVGGish)에 사용된다. 여기서 오른쪽 수식은 두 임베딩 벡터의 조합을 통해 개별 감정 라벨을 예측한다. complementary loss인 Lcv는 valence-level 라벨을 분류하는 예측 함수  fv = hv ◦ gBLSTM이며, 

왼쪽과 같은 수식이다. 수식 4는 MPGLN SER가 예측 함수인 fd와 fv에 대한 그룹 loss Lg를 최소화하도록 훈련되었다는 것을 보여준다.

수식 4

 

 

섹션 4,5는 아래 링크에 정리되어 있다!

https://blog.naver.com/hannaurora/222420778037

 

[논문] Multi-Path and Group-Loss-Based Network for Speech Emotion Recognition in Multi-Domain Datasets

https://www.mdpi.com/1424-8220/21/5/1579 한국어 음성 감정 데이터인 KESDy18과 음성 감정 인식에 대...

blog.naver.com

 

 

 

 

 

 

 

 

참고 링크 :

attention mechanism

https://wikidocs.net/22893

 

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

 

arousal-valence

https://steemit.com/kr-science/@man-in-the-moon/5sboad

 

[인지과학] 사람의 감정을 어떻게 정의할 수 있을까? — Steemit

이번에는 조금 가볍게 읽을 수 있는 주제에 대해 이야기 해보려고 합니다. 저번 딥러닝에 대한 글에 감사하게도 많은 분들이 관심을 가져주셨지만, 사실 제가 주로 공부하는 분야는 사람과 관련

steemit.com