Pensintesis pertuturan sedang mengubah budaya tempat kerja. Sintesis pertuturan membaca teks. Text-to-speech ialah apabila komputer membaca perkataan dengan kuat. Ia adalah untuk membuat mesin bercakap dengan ringkas dan berbunyi seperti orang yang berbeza umur dan jantina. Enjin teks ke pertuturan menjadi lebih popular apabila perkhidmatan digital dan pengecaman suara berkembang.

Apakah sintesis pertuturan?

Sintesis pertuturan, juga dikenali sebagai text-to-speech (sistem TTS), ialah simulasi suara manusia yang dijana oleh komputer. Pensintesis pertuturan menukar perkataan bertulis kepada bahasa pertuturan.

Sepanjang hari biasa, anda mungkin menghadapi pelbagai jenis pertuturan sintetik. Teknologi sintesis pertuturan, dibantu oleh apl, pembesar suara pintar dan fon kepala wayarles, menjadikan kehidupan lebih mudah dengan menambah baik:

Apakah sejarah sintesis pertuturan?

Bagaimanakah Sintesis Pertuturan Berfungsi?

Sintesis pertuturan berfungsi dalam tiga peringkat: teks kepada perkataan, perkataan kepada fonem, dan fonem kepada bunyi.

1. Teks kepada perkataan

Sintesis pertuturan bermula dengan pra-pemprosesan atau normalisasi, yang mengurangkan kekaburan dengan memilih cara terbaik untuk membaca petikan. Pra-pemprosesan melibatkan membaca dan membersihkan teks, jadi komputer membacanya dengan lebih tepat. Nombor, tarikh, masa, singkatan, akronim dan aksara khas memerlukan terjemahan. Untuk menentukan sebutan yang paling mungkin, mereka menggunakan kebarangkalian statistik atau rangkaian saraf.

Homograf—perkataan yang mempunyai sebutan yang serupa tetapi makna yang berbeza memerlukan pengendalian dengan pra-pemprosesan. Selain itu, pensintesis pertuturan tidak dapat memahami “Saya menjual kereta” kerana “menjual” boleh disebut “sel”. Dengan mengenali ejaan (“Saya mempunyai telefon bimbit”), seseorang boleh meneka bahawa “Saya menjual kereta” adalah betul. Penyelesaian pengecaman pertuturan untuk mengubah suara manusia menjadi teks walaupun dengan perbendaharaan kata yang kompleks.

2. Perkataan kepada fonem

Selepas menentukan perkataan, pensintesis pertuturan menghasilkan bunyi yang mengandungi perkataan tersebut. Setiap komputer memerlukan senarai abjad perkataan yang besar dan maklumat tentang cara menyebut setiap perkataan. Mereka memerlukan senarai fonem yang membentuk setiap bunyi perkataan. Fonem adalah penting kerana hanya terdapat 26 huruf dalam abjad Inggeris tetapi lebih daripada 40 fonem.

Secara teorinya, jika komputer mempunyai kamus perkataan dan fonem, apa yang perlu dilakukan ialah membaca perkataan, mencarinya dalam kamus, dan kemudian membaca fonem yang sepadan. Walau bagaimanapun, dalam amalan, ia jauh lebih kompleks daripada yang kelihatan.

Kaedah alternatif melibatkan memecahkan perkataan bertulis kepada grafem dan menghasilkan fonem yang sepadan dengannya menggunakan peraturan mudah.

3. Fonem untuk berbunyi

Komputer kini telah menukar teks menjadi senarai fonem. Tetapi bagaimana anda mencari fonem asas yang dibaca oleh komputer dengan kuat apabila ia menukar teks kepada pertuturan dalam bahasa yang berbeza? Terdapat tiga pendekatan untuk ini.

Sintesis Konkatenatif

Pensintesis pertuturan yang menggunakan suara manusia yang dirakam mesti dimuatkan dengan sedikit bunyi manusia yang boleh dimanipulasi. Juga, ia berdasarkan ucapan manusia yang telah dirakam.

Apakah Sintesis Forman?

Forman ialah 3-5 kekunci (bergema) frekuensi bunyi yang dihasilkan dan digabungkan oleh pita suara manusia untuk menghasilkan bunyi pertuturan atau nyanyian. Pensintesis pertuturan forman boleh mengatakan apa sahaja, termasuk perkataan yang tidak wujud dan asing yang tidak pernah mereka dengar. Sintesis aditif dan sintesis pemodelan fizikal digunakan untuk menjana output pertuturan yang disintesis.

Apakah sintesis artikulasi?

Sintesis artikulasi menjadikan komputer bercakap dengan mensimulasikan saluran vokal manusia yang rumit dan menyatakan proses yang berlaku di sana. Kerana kerumitannya, ia adalah kaedah yang paling kurang dikaji oleh penyelidik sehingga kini.

Ringkasnya, perisian sintesis suara/ sintesis teks ke pertuturan membolehkan pengguna melihat teks bertulis, mendengarnya dan membacanya dengan kuat pada masa yang sama. Perisian yang berbeza menggunakan kedua-dua suara yang dihasilkan oleh komputer dan suara yang dirakam oleh manusia. Sintesis pertuturan menjadi lebih popular apabila permintaan untuk penglibatan pelanggan dan penyelarasan proses organisasi semakin meningkat. Ia memudahkan keuntungan jangka panjang.