Alat bantu bicara mengubah budaya tempat kerja. Sintesis ucapan membaca teks. Text-to-speech adalah ketika komputer membaca kata dengan keras. Ini adalah untuk membuat mesin berbicara secara sederhana dan terdengar seperti orang dari berbagai usia dan jenis kelamin. Mesin teks-ke-ucapan menjadi lebih populer seiring dengan berkembangnya layanan digital, dan pengenalan suara.

Apa itu sintesis ucapan?

Sintesis ucapan, juga dikenal sebagai text-to-speech (sistem TTS), adalah simulasi suara manusia yang dihasilkan komputer. Speech synthesizer mengubah kata-kata tertulis menjadi bahasa lisan.

Sepanjang hari biasa, Anda mungkin akan menjumpai berbagai jenis ucapan sintetis. Teknologi sintesis ucapan, dibantu oleh aplikasi, speaker cerdas, dan headphone nirkabel, membuat hidup lebih mudah dengan meningkatkan:

Bagaimana sejarah sintesis ucapan?

Bagaimana Cara Kerja Sintesis Ucapan?

Sintesis ucapan bekerja dalam tiga tahap: teks ke kata, kata ke fonem, dan fonem ke suara.

1. Teks ke kata-kata

Sintesis ucapan dimulai dengan pra-pemrosesan atau normalisasi, yang mengurangi ambiguitas dengan memilih cara terbaik untuk membaca suatu bagian. Pra-pemrosesan melibatkan pembacaan dan pembersihan teks, sehingga komputer membacanya secara lebih akurat. Angka, tanggal, waktu, singkatan, akronim, dan karakter khusus perlu diterjemahkan. Untuk menentukan pengucapan yang paling mungkin, mereka menggunakan probabilitas statistik atau jaringan saraf.

Homograf-kata-kata yang memiliki pengucapan yang mirip tetapi maknanya berbeda memerlukan penanganan dengan pra-pemrosesan. Selain itu, speech synthesizer tidak dapat memahami “Saya menjual mobil” karena “sell” dapat diucapkan “cell”. Dengan mengenali ejaannya (“I have a cell phone”), orang bisa menebak bahwa “I sell the car” adalah benar. Solusi pengenalan suara untuk mengubah suara manusia menjadi teks, bahkan dengan kosakata yang kompleks.

2. Kata-kata menjadi fonem

Setelah menentukan kata-kata, speech synthesizer menghasilkan suara yang mengandung kata-kata tersebut. Setiap komputer memerlukan daftar abjad kata yang cukup besar dan informasi tentang cara mengucapkan setiap kata. Mereka memerlukan daftar fonem yang membentuk bunyi setiap kata. Fonem sangat penting, karena hanya ada 26 huruf dalam alfabet bahasa Inggris, tetapi lebih dari 40 fonem.

Secara teori, jika komputer memiliki kamus kata dan fonem, yang perlu dilakukannya hanyalah membaca sebuah kata, mencarinya dalam kamus, kemudian membacakan fonem yang sesuai. Namun demikian, dalam praktiknya, ini jauh lebih kompleks daripada yang terlihat.

Metode alternatif melibatkan penguraian kata-kata tertulis ke dalam grafem dan menghasilkan fonem yang sesuai dengan kata-kata tersebut dengan menggunakan aturan sederhana.

3. Fonem menjadi suara

Komputer sekarang telah mengubah teks menjadi daftar fonem. Tetapi, bagaimana Anda menemukan fonem dasar yang dibaca keras-keras oleh komputer ketika komputer mengubah teks menjadi ucapan dalam berbagai bahasa? Ada tiga pendekatan untuk ini.

Sintesis Konkatenatif

Speech synthesizer yang menggunakan suara manusia yang direkam harus dimuat sebelumnya dengan sejumlah kecil suara manusia yang dapat dimanipulasi. Selain itu, ini berdasarkan ucapan manusia yang telah direkam.

Apa itu Sintesis Formant?

Formant adalah 3-5 frekuensi kunci (resonansi) suara yang dihasilkan dan digabungkan oleh pita suara manusia untuk menghasilkan suara ucapan atau nyanyian. Formant speech synthesizer dapat mengatakan apa saja, termasuk kata-kata yang tidak ada dan asing yang belum pernah mereka dengar. Sintesis aditif dan sintesis pemodelan fisik digunakan untuk menghasilkan output ucapan yang disintesis.

Apa yang dimaksud dengan Sintesis artikulatoris?

Sintesis artikulatoris adalah membuat komputer berbicara dengan mensimulasikan saluran vokal manusia yang rumit dan mengartikulasikan proses yang terjadi di sana. Karena kerumitannya, metode ini adalah metode yang paling sedikit dipelajari oleh para peneliti sampai sekarang.

Singkatnya, perangkat lunak sintesis suara/sintesis teks-ke-ucapan memungkinkan pengguna melihat teks tertulis, mendengarnya, dan membacanya dengan keras pada saat yang sama. Perangkat lunak yang berbeda memanfaatkan suara yang dihasilkan komputer dan suara yang direkam manusia. Sintesis ucapan menjadi lebih populer seiring dengan meningkatnya permintaan untuk keterlibatan pelanggan dan perampingan proses organisasi. Ini memfasilitasi profitabilitas jangka panjang.