민공지능/음성(5)
-
[음성 기초 지식] 1. 한국어 음운론
음운론(Phonology) 언어 사용자의 머릿속에 있는 말소리에 대한 지식을 체계적으로 기술하고 설명하는 학문 음성 인식의 기본 단위인 음소와 음절 음성 / 말 소리(Phonetic Sound, Speech Sound) 인간의 발성가능주파수대역 내 소리 - (약 125 ~ 8000Hz) 특히, 인간 발음 기관을 통해, 만들어지는 언어학적 의미를 갖는 소리 말소리의 생성 과정 발성(Phonation) : 성대 진동에 의한 음성 산출 성대(Vocal Cord) : 후두 속의 질긴 막 성문(Glottis) : 성대가 열린 상태의 공기통로, 들숨 때는 열리고 날숨 때는 좁아지며 호흡을 돕는 역할과 기도로 이물질이 들어가지 못하도록 하는 역할도 하지만, 기류를 말소리로 바꾸는 발성 기관으로서의 역할도 수행 유성음..
2023.05.01 -
3. Understanding Audio Signals for Machine Learning
Audio signal - Analog signal 시간에 대한 연속적인 값 진폭에 대한 연속적인 값 - Digital signal 개별적인 값의 순서 data point는 가능한 모든 실수가 아니라 제한된 수의 값만 취할 수 있다. Analog to digital conversion 샘플링(sampling) 양자화(Quantization)
2021.07.07 -
2. Intensity, Loudness, and Timbre
sound power(소리 파워) 에너지가 전달되는 속도 음원에서 방출되는 단위 시간당 에너지 전력을 와트로 표시한다. (W) sound intensity(소리 강도) 단위 면적당 sound power W에 제곱미터를 나눈 값으로 측정할 수 있다. = W/㎡ Threshold of hearing Intensity level Logarithmic scale 강도의 척도 : dB(데시벨) 3dB씩 올라갈때마다 강도가 두 배가 된다. Loudness 소리 강도의 주관적 인식 소리의 주파수와 길이에 따라 달라진다. 예) 3dB은 100ms로 지속되지만 3dB보다 작은 강도의 소리는 600ms까지 지속된다. 듣는 사람 나이에 따라 영향을 받는다(강도는 같지만 음량은 다르다) 측정 방법 : phons Timbre ..
2021.07.07 -
1. sound & waveform
sound 물체의 진동으로 생긴다. 진동은 공기 분자를 진동하게 한다. 기압의 변화는 파동을 일으킨다. = 소리는 에너지를 전달하는 파동 mechanical wave 소리는 기계적 파동이며 에너지는 한 지점에서 다른 지점으로 이동한다. 기계적 파동은 파동이 팽창할 수 있는 매개체가 필요하다. waveform frequency : 주파수 intensity : 강도 timbre : 음색 주파수(frequency)가 높을수록 소리가 높아지며, 진폭(amplitude)이 클수록 소리가 커진다. picth 주파수에 대한 로그 인식과 비슷하다. (주파수는 선형(linear) 방식이 아니라 로그(log) 방식이다.) 두 개의 주파수가 2의 거듭제곱만큼 서로 다르면 유사하게 인식된다. Cents 옥타브는 1200 ce..
2021.07.01 -
[음성 기초 지식] 2. 음성 데이터 분석
Sound? 소리는 일반적으로 진동으로 인한 공기의 압축으로 생성 압축이 얼마나 됐느냐에 따라서 표현된 것이 바로 Wave(파동) → 파동은 진동하며 공간/매질을 전파해 나가는 현상 1. Amplitude(Intensity) : 진폭(강도) -소리의 크기와 관련 - 소리의 크기는 음압 변화의 비율로 표현 - bel : 소리 크기(음압)에 대한 단위, 실제 사용 시에는 bel값을 10배 한 decibel(dB=데시벨)을 사용 2. Frequency : 주파수(단위 : Hertz) = 소리의 높낮이 - 소리가 얼마나 압축되어 있는가? - 1초 동안의 진동 횟수 - 주파수가 높으면 높은 소리, 낮으면 낮은 소리 3. Tone Color, Timbre : 음색 - 기음/기본 주파수 : 소리의 높낮이를 구분할 수..
2021.04.01