티스토리 뷰

라즈베리파이

컴퓨터의 음성인식

HAN_PY 2020. 7. 31. 01:42
반응형

내가 구현하려고 하는 음성인식....... 진짜 검색만 10시간 넘게 했다.

구글 assistant나 네이버로 처리하려고 하니 너무 할 수 있는게 적다. 결국은 바닦부터 코딩을 해야하는건데 그 전에 우선 IoT에 포함 되어 있는 음성 인식 과정에 대해 알아보자.

기본적으로 컴퓨터는 컴퓨터 언어만 인식을 한다. 그런데 사람이 사용하는 언어를 어떻게 인식 할 수 있을까?

 

1. 여러가지 소리 중에 음성임을 인식하는 과정이 우선적으로 필요하다.

녹음된 음성에서 사람의 목소리를 검출하는 주파수 대역을 뽑아 내야한다. 물론 해당 주파수 대역의 음성이 전부 음성이 아니기 때문에 잡음 제거 기술도 필요하다.

 

2. 얻은 음성에서 특징을 추출한다.

녹음된 음성을 초당 50회 정도로 쪼개어 음성이 변화하는 특징을 수치화 하여 분석하기 쉽게 전처리를 한다. 특징 벡터를 이용하여 어떤 단어(모음,자음)와 매칭 되는지 만든다.(음향 모델링)

 

3. 음향 모델링은 딥러닝이 한다.

딥러닝을 하기 위해서는 학습데이터가 필요하다. 그래서 학습을 통해 가장 높은 확률로 매칭되는 것을 찾는 것이다.

 

4. 추가로 언어 모델이 필요하다.

높은 확률로 매칭이 됐다 해도 다른 단어가 나올 수 있다. 그래서 자주 사용하는 문장을 학습하여, 문맥에 맞게 매칭할 수 있도록 통계적인 확률 값을 정한다.(영어로 따지면, 문맥상 형용사냐 명사냐를 판단한다.)

 

네이버나 카카오, 구글이나 아마존에서 API를 이용해서 사용이 가능하다.

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함