음성 합성은 어떻게 작동합니까?

텍스트 분석 및 언어 처리

Speaktor 2023-07-13

음성 합성기는 직장 문화를 변화시키고 있습니다. 음성 합성이 텍스트를 읽습니다. 텍스트 음성 변환은 컴퓨터가 단어를 큰 소리로 읽는 것입니다. 기계가 단순하게 말하고 나이와 성별이 다른 사람들처럼 들리게 하는 것입니다. 텍스트 음성 변환 엔진은 디지털 서비스와 음성 인식이 성장함에 따라 대중화되고 있습니다.

음성 합성이란 무엇입니까?

텍스트 음성 변환(TTS 시스템)이라고도 하는 음성 합성은 사람 목소리의 컴퓨터 생성 시뮬레이션입니다. 음성 합성기는 쓰여진 단어를 음성 언어로 변환합니다.

일상적으로 다양한 유형의 합성어를 접하게 될 것입니다. 앱, 스마트 스피커 및 무선 헤드폰의 지원을 받는 음성 합성 기술은 다음을 개선하여 삶을 더 쉽게 만듭니다.

접근성: 시각 장애가 있거나 장애가 있는 경우 텍스트 음성 변환 시스템을 사용하여 텍스트 내용을 읽거나 스크린 리더를 사용하여 단어를 소리내어 말할 수 있습니다. 예를 들어 TikTok의 Text-to-Speech 합성기는 누구나 시각적인 소셜 미디어 콘텐츠를 사용할 수 있는 인기 있는 접근성 기능입니다.
내비게이션: 운전 중에는 지도를 볼 수 없지만 안내를 들을 수 있습니다. 목적지가 무엇이든 대부분의 GPS 앱은 여행 중 일부는 여러 언어로 유용한 음성 알림을 제공할 수 있습니다.
음성 지원을 사용할 수 있습니다. Siri(iPhone) 및 Alexa(Android)와 같은 지능형 오디오 어시스턴트는 명료성 덕분에 피자를 주문하거나 일기 예보를 들으면서 다른 물리적 작업(예: 설거지)을 수행할 수 있어 멀티태스킹에 탁월합니다. 이 조수들은 때때로 실수를 하고 종종 복종하는 여성 캐릭터로 디자인되지만 꽤 생생하게 들립니다.

음성 합성의 역사는 무엇입니까?

발명가 볼프강 폰 켐펠렌(Wolfgang von Kempelen)은 18세기에 벨로우즈와 튜브를 가지고 거의 그곳에 도달했습니다.
1928년 Bell Laboratories/ Bell Labs의 미국 과학자인 Homer W. Dudley는 전자 음성 분석기인 Vocoder를 만들었습니다. Dudley는 Vocoder를 키보드를 통해 작동하는 전자 음성 합성기인 Voder로 개발합니다.
Bell Laboratories의 Homer Dudley는 1939년 뉴욕에서 열린 세계 박람회에서 세계 최초의 기능성 음성 합성기인 Voder를 시연했습니다. 거대한 오르간과 같은 장치의 키와 발 페달을 조작하려면 인간 조작자가 필요했습니다.
연구원들은 향후 수십 년 동안 Voder를 기반으로 구축했습니다. 최초의 컴퓨터 기반 음성 합성 시스템은 1950년대 후반에 개발되었으며, Bell Laboratories는 1961년 물리학자 John Larry Kelly Jr.가 IBM 704 강연을 하면서 다시 한 번 역사를 만들었습니다.
집적 회로는 1970년대와 1980년대에 통신 및 비디오 게임에서 상용 음성 합성 제품을 가능하게 했습니다. 아케이드 게임에 사용된 Vortex 칩은 최초의 음성 합성 집적 회로 중 하나였습니다.
Texas Instruments는 1980년 어린이를 위한 전자 읽기 보조 장치로 사용된 Speak N Spell 합성기로 이름을 알렸습니다.
1990년대 초부터 표준 컴퓨터 운영 체제에는 주로 받아쓰기 및 필사를 위한 음성 합성기가 포함되었습니다. 또한 TTS는 현재 다양한 용도로 사용되고 있으며, 인공지능과 머신러닝이 발달함에 따라 합성음이 놀라울 정도로 정확해졌습니다.

음성 합성은 어떻게 작동합니까?

음성 합성은 텍스트에서 단어로, 단어에서 음소로, 음소에서 소리로의 세 단계로 작동합니다.

1. 텍스트를 단어로

음성 합성은 구절을 읽는 가장 좋은 방법을 선택하여 모호성을 줄이는 전처리 또는 정규화로 시작됩니다. 전처리에는 텍스트를 읽고 정리하는 작업이 포함되므로 컴퓨터가 텍스트를 더 정확하게 읽습니다. 숫자, 날짜, 시간, 약어, 약어 및 특수 문자는 번역이 필요합니다. 가장 가능성이 높은 발음을 결정하기 위해 통계적 확률 또는 신경망을 사용합니다.

동음이의어 – 발음은 비슷하지만 의미가 다른 단어는 사전 처리를 통해 처리해야 합니다. 또한 “sell”이 “cell”로 발음될 수 있기 때문에 음성 합성기는 “I sell the car”를 이해할 수 없습니다. 철자를 인식하면(“I have a cell phone”) “I sell the car”가 맞다는 것을 추측할 수 있습니다. 복잡한 어휘도 사람의 목소리를 텍스트로 변환해주는 음성인식 솔루션입니다.

2. 단어를 음소로

단어를 결정한 후 음성 합성기는 해당 단어가 포함된 사운드를 생성합니다. 모든 컴퓨터에는 상당한 양의 알파벳순 단어 목록과 각 단어를 발음하는 방법에 대한 정보가 필요합니다. 각 단어의 소리를 구성하는 음소 목록이 필요합니다. 영어 알파벳은 26자이지만 40개가 넘는 음소가 있기 때문에 음소는 매우 중요합니다.

이론적으로 컴퓨터에 단어와 음소의 사전이 있으면 단어를 읽고 사전에서 찾은 다음 해당 음소를 읽는 것이 전부입니다. 그러나 실제로는 보기보다 훨씬 더 복잡합니다.

대안적인 방법은 쓰여진 단어를 자소로 분해하고 간단한 규칙을 사용하여 이에 해당하는 음소를 생성하는 것입니다.

3. 소리에 대한 음소

컴퓨터는 이제 텍스트를 음소 목록으로 변환했습니다. 하지만 컴퓨터가 다른 언어로 된 텍스트를 음성으로 변환할 때 소리내어 읽는 기본 음소를 어떻게 찾습니까? 여기에는 세 가지 접근 방식이 있습니다.

시작하려면 음소를 말하는 인간의 녹음이 사용됩니다.
두 번째 방법은 컴퓨터가 기본 사운드 주파수를 사용하여 음소를 생성하는 것입니다.
최종 접근 방식은 고품질 알고리즘으로 자연스러운 소리로 실시간으로 사람의 음성 기술을 모방하는 것입니다.

연결 합성

녹음된 사람의 목소리를 사용하는 음성 합성기는 조작할 수 있는 소량의 사람 소리가 사전 로드되어야 합니다. 또한 녹음된 인간의 음성을 기반으로 합니다.

포먼트 합성이란?

포만트는 음성 또는 노래 소리를 생성하기 위해 사람의 성대에서 생성되고 결합되는 소리의 3-5 키(공명) 주파수입니다. Formant 음성 합성기는 존재하지 않는 단어와 들어 본 적이 없는 외국어를 포함하여 무엇이든 말할 수 있습니다. 가산 합성 및 물리적 모델링 합성은 합성된 음성 출력을 생성하는 데 사용됩니다.

조음 합성이란 무엇입니까?

조음 합성 은 복잡한 인간의 성도를 시뮬레이션하고 그곳에서 발생하는 과정을 조음함으로써 컴퓨터가 말하도록 합니다. 복잡성 때문에 지금까지 최소한의 연구자가 가장 적게 연구한 방법입니다.

요컨대, 음성 합성 소프트웨어/텍스트 음성 합성을 통해 사용자는 서면 텍스트를 보고 듣고 동시에 큰 소리로 읽을 수 있습니다. 다른 소프트웨어는 컴퓨터 생성 음성과 사람이 녹음한 음성을 모두 사용합니다. 고객 참여 및 조직 프로세스 합리화에 대한 수요가 증가함에 따라 음성 합성이 점점 대중화되고 있습니다. 장기적인 수익성을 촉진합니다.