'민공지능' 카테고리의 글 목록

[음성 기초 지식] 1. 한국어 음운론

음운론(Phonology) 언어 사용자의 머릿속에 있는 말소리에 대한 지식을 체계적으로 기술하고 설명하는 학문 음성 인식의 기본 단위인 음소와 음절 음성 / 말 소리(Phonetic Sound, Speech Sound) 인간의 발성가능주파수대역 내 소리 - (약 125 ~ 8000Hz) 특히, 인간 발음 기관을 통해, 만들어지는 언어학적 의미를 갖는 소리 말소리의 생성 과정 발성(Phonation) : 성대 진동에 의한 음성 산출 성대(Vocal Cord) : 후두 속의 질긴 막 성문(Glottis) : 성대가 열린 상태의 공기통로, 들숨 때는 열리고 날숨 때는 좁아지며 호흡을 돕는 역할과 기도로 이물질이 들어가지 못하도록 하는 역할도 하지만, 기류를 말소리로 바꾸는 발성 기관으로서의 역할도 수행 유성음..

2023.05.01

mecab 설치(Linux)

1. pip install konlpy 2. mecab-ko * mecab 홈페이지에서 최신 버전 확인 후 다운로드 wget https://bitbucket.org/eunjeon/mecab-ko/downloads/mecab-0.996-ko-0.9.2.tar.gz tar xvfz mecab-0.996-ko-0.9.2.tar.gz cd mecab-0.996-ko-0.9.2 ./configure make make check sudo make install 3. mecab-ko-dic (경로 옮기지 말고 위의 경로에서 그대로 진행) * mecab 홈페이지에서 최신 버전 확인 후 다운로드 wget https://bitbucket.org/eunjeon/mecab-ko-dic/downloads/mecab-ko-dic..

2022.02.22

random seed 고정 시키기

pytorch seed 고정 random_seed = 530 torch.manual_seed(random_seed) torch.cuda.manual_seed(random_seed) torch.cuda.manual_seed_all(random_seed) # if use multi-GPU torch.backends.cudnn.deterministic = True torch.backends.cudnn.benchmark = False np.random.seed(random_seed) random.seed(random_seed) tensorflow seed 고정 SEED = 50 os.environ['PYTHONHASHSEED'] = str(SEED) os.environ['TF_DETERMINISTIC_OPS']..

2021.07.22

kochat_config.py

PROC PROC = { 'logging_precision': 5, # 결과 저장시 반올림 소수점 n번째에서 반올림 'model_dir': BASE['root_dir'] + "saved{_}".format(_=_), # 모델 파일, 시각화 자료 저장 경로 'visualization_epoch': 50, # 시각화 빈도 (애폭마다 시각화 수행) 'save_epoch': 10 # 저장 빈도 (에폭마다 모델 저장) } proc은 Processor의 줄임말로, 다양한 모델들의 학습/테스트를 수행하는 함수인 fit()과 추론을 수행하는 함수인 predict() 등을 수행하는 클래스 집합입니다. 현재 지원하는 프로세서는 총 4가지로 아래에서 자세하게 설명합니다. from abc import abstractmetho..

2021.07.13

KLUE: Korean Language Understanding Evaluation(2)

2 Source Corpora 벤치마크 설정 시 흔히 사용되는 기존 데이터셋을 함께 구성하지 않고 KLUE를 처음부터 구축한다. 우리는 사용 가능한 텍스트 리소스를 조사하고 과정을 문서화하여 일부 corpora만 선택하는 방법과 이유를 더 잘 이해할 수 있도록 한다. 우리는 최근에 제안된 문서 프레임워크, 데이터시트 및 데이터 설명을 채택한다. 이러한 프레임워크를 기반으로 protocol을 자세히 설명하는 데 필요한 추가 정보를 문서화 및 제공한다. 2.1 Corpora Selection Criteria 우리는 작업별 corpora가 파생되고 주석이 달린 corpus 자료를 구축하기 위해 corpora를 소싱할 때 두 가지 기준을 고려한다. 첫 번째 기준은 접근성이다. KLUE의 주요 목적은 향후 NLP..

2021.07.12

3. Understanding Audio Signals for Machine Learning

Audio signal - Analog signal 시간에 대한 연속적인 값 진폭에 대한 연속적인 값 - Digital signal 개별적인 값의 순서 data point는 가능한 모든 실수가 아니라 제한된 수의 값만 취할 수 있다. Analog to digital conversion 샘플링(sampling) 양자화(Quantization)

2021.07.07

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

습관의 힘

습관의 힘

태그

최근글

댓글

공지사항

아카이브

민공지능(51)

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역