Bagaimana Cara Kerja Sintesis Ucapan?

Analisis teks dan pemrosesan linguistik

Speaktor 2023-07-13

Alat bantu bicara mengubah budaya tempat kerja. Sintesis ucapan membaca teks. Text-to-speech adalah ketika komputer membaca kata dengan keras. Ini adalah untuk membuat mesin berbicara secara sederhana dan terdengar seperti orang dari berbagai usia dan jenis kelamin. Mesin text-to-speech menjadi semakin populer seiring dengan pertumbuhan layanan digital dan pengenalan suara .

Apa itu sintesis ucapan?

Sintesis ucapan, juga dikenal sebagai text-to-speech (sistem TTS), adalah simulasi suara manusia yang dihasilkan komputer. Speech synthesizer mengubah kata-kata tertulis menjadi bahasa lisan.

Sepanjang hari biasa, Anda mungkin akan menjumpai berbagai jenis ucapan sintetis. Teknologi sintesis ucapan, dibantu oleh aplikasi, speaker cerdas, dan headphone nirkabel, membuat hidup lebih mudah dengan meningkatkan:

Aksesibilitas: Jika Anda memiliki gangguan penglihatan atau cacat, Anda dapat menggunakan sistem teks ke suara untuk membaca konten teks atau pembaca layar untuk mengucapkan kata-kata dengan lantang. Misalnya, synthesizer Text-to-Speech pada TikTok adalah fitur aksesibilitas populer yang memungkinkan siapa pun untuk mengonsumsi konten media sosial visual.
Navigasi: Sewaktu mengemudi, Anda tidak dapat melihat peta, tetapi Anda dapat mendengarkan instruksi. Apa pun tujuan Anda, sebagian besar aplikasi GPS dapat memberikan peringatan suara yang bermanfaat saat Anda bepergian, beberapa dalam berbagai bahasa.
Tersedia bantuan suara. Asisten audio cerdas seperti Siri (iPhone) dan Alexa (Android) sangat baik untuk multitasking, memungkinkan Anda memesan pizza atau mendengarkan laporan cuaca sambil melakukan tugas fisik lainnya (misalnya, mencuci piring) berkat kejelasannya. Meskipun para asisten ini kadang-kadang membuat kesalahan dan sering kali didesain sebagai karakter wanita yang patuh, namun suaranya terdengar sangat hidup.

Bagaimana sejarah sintesis ucapan?

Penemu Wolfgang von Kempelen hampir sampai di sana dengan bellow dan tabung pada abad ke-18.
Pada tahun 1928, Homer W. Dudley, seorang ilmuwan Amerika di Bell Laboratories/Bell Labs, menciptakan Vocoder, penganalisis ucapan elektronik. Dudley mengembangkan Vocoder menjadi Voder, synthesizer ucapan elektronik yang dioperasikan melalui keyboard.
Homer Dudley dari Bell Laboratories mendemonstrasikan synthesizer suara fungsional pertama di dunia, Voder, pada Pameran Dunia 1939 di New York City. Operator manusia diperlukan untuk mengoperasikan tuts dan pedal kaki alat yang mirip organ besar ini.
Para peneliti membangun Voder selama beberapa dekade berikutnya. Sistem sintesis ucapan berbasis komputer pertama dikembangkan pada akhir tahun 1950-an, dan Bell Laboratories kembali membuat sejarah pada tahun 1961 ketika fisikawan John Larry Kelly Jr. memberikan ceramah IBM 704.
Sirkuit terpadu memungkinkan produk sintesis ucapan komersial dalam telekomunikasi dan video game pada tahun 1970-an dan 1980-an. Chip Vortex, yang digunakan dalam game arcade, adalah salah satu sirkuit terpadu speech-synthesis pertama.
Texas Instruments membuat nama untuk dirinya sendiri pada tahun 1980 dengan synthesizer Speak N Spell, yang digunakan sebagai alat bantu membaca elektronik untuk anak-anak.
Sejak awal tahun 1990-an, sistem operasi komputer standar telah menyertakan speech synthesizer, terutama untuk dikte dan transkripsi. Selain itu, TTS sekarang digunakan untuk berbagai tujuan, dan suara sintetis telah menjadi sangat akurat karena kecerdasan buatan dan pembelajaran mesin telah maju.

Bagaimana Cara Kerja Sintesis Ucapan?

Sintesis ucapan bekerja dalam tiga tahap: teks ke kata, kata ke fonem, dan fonem ke suara.

1. Teks ke kata-kata

Sintesis ucapan dimulai dengan pra-pemrosesan atau normalisasi, yang mengurangi ambiguitas dengan memilih cara terbaik untuk membaca suatu bagian. Pra-pemrosesan melibatkan pembacaan dan pembersihan teks, sehingga komputer membacanya secara lebih akurat. Angka, tanggal, waktu, singkatan, akronim, dan karakter khusus perlu diterjemahkan. Untuk menentukan pengucapan yang paling mungkin, mereka menggunakan probabilitas statistik atau jaringan saraf.

Homograf-kata-kata yang memiliki pengucapan yang mirip tetapi maknanya berbeda memerlukan penanganan dengan pra-pemrosesan. Selain itu, speech synthesizer tidak dapat memahami “Saya menjual mobil” karena “sell” dapat diucapkan “cell”. Dengan mengenali ejaannya (“I have a cell phone”), orang bisa menebak bahwa “I sell the car” adalah benar. Solusi pengenalan suara untuk mengubah suara manusia menjadi teks, bahkan dengan kosakata yang kompleks.

2. Kata-kata menjadi fonem

Setelah menentukan kata-kata, speech synthesizer menghasilkan suara yang mengandung kata-kata tersebut. Setiap komputer memerlukan daftar abjad kata yang cukup besar dan informasi tentang cara mengucapkan setiap kata. Mereka memerlukan daftar fonem yang membentuk bunyi setiap kata. Fonem sangat penting, karena hanya ada 26 huruf dalam alfabet bahasa Inggris, tetapi lebih dari 40 fonem.

Secara teori, jika komputer memiliki kamus kata dan fonem, yang perlu dilakukannya hanyalah membaca sebuah kata, mencarinya dalam kamus, kemudian membacakan fonem yang sesuai. Namun demikian, dalam praktiknya, ini jauh lebih kompleks daripada yang terlihat.

Metode alternatif melibatkan penguraian kata-kata tertulis ke dalam grafem dan menghasilkan fonem yang sesuai dengan kata-kata tersebut dengan menggunakan aturan sederhana.

3. Fonem menjadi suara

Komputer sekarang telah mengubah teks menjadi daftar fonem. Tetapi, bagaimana Anda menemukan fonem dasar yang dibaca keras-keras oleh komputer ketika komputer mengubah teks menjadi ucapan dalam berbagai bahasa? Ada tiga pendekatan untuk ini.

Untuk memulai, rekaman manusia yang mengucapkan fonem akan digunakan.
Pendekatan kedua adalah komputer menghasilkan fonem dengan menggunakan frekuensi suara fundamental.
Pendekatan terakhir adalah meniru teknik suara manusia secara real-time dengan suara alami dengan algoritme berkualitas tinggi.

Sintesis Konkatenatif

Speech synthesizer yang menggunakan suara manusia yang direkam harus dimuat sebelumnya dengan sejumlah kecil suara manusia yang dapat dimanipulasi. Selain itu, ini berdasarkan ucapan manusia yang telah direkam.

Apa itu Sintesis Formant?

Formant adalah 3-5 frekuensi kunci (resonansi) suara yang dihasilkan dan digabungkan oleh pita suara manusia untuk menghasilkan suara ucapan atau nyanyian. Formant speech synthesizer dapat mengatakan apa saja, termasuk kata-kata yang tidak ada dan asing yang belum pernah mereka dengar. Sintesis aditif dan sintesis pemodelan fisik digunakan untuk menghasilkan output ucapan yang disintesis.

Apa yang dimaksud dengan Sintesis artikulatoris?

Sintesis artikulatoris adalah membuat komputer berbicara dengan mensimulasikan saluran vokal manusia yang rumit dan mengartikulasikan proses yang terjadi di sana. Karena kerumitannya, metode ini adalah metode yang paling sedikit dipelajari oleh para peneliti sampai sekarang.

Singkatnya, perangkat lunak sintesis suara/sintesis teks-ke-ucapan memungkinkan pengguna melihat teks tertulis, mendengarnya, dan membacanya dengan keras pada saat yang sama. Perangkat lunak yang berbeda memanfaatkan suara yang dihasilkan komputer dan suara yang direkam manusia. Sintesis ucapan menjadi lebih populer seiring dengan meningkatnya permintaan untuk keterlibatan pelanggan dan perampingan proses organisasi. Ini memfasilitasi profitabilitas jangka panjang.