Bagaimana Sintesis Pertuturan Berfungsi?

Analisis teks dan pemprosesan linguistik

Speaktor 2023-07-13

Pensintesis pertuturan sedang mengubah budaya tempat kerja. Sintesis pertuturan membaca teks. Text-to-speech ialah apabila komputer membaca perkataan dengan kuat. Ia adalah untuk membuat mesin bercakap dengan ringkas dan berbunyi seperti orang yang berbeza umur dan jantina. Enjin teks ke pertuturan menjadi lebih popular apabila perkhidmatan digital dan pengecaman suara berkembang.

Apakah sintesis pertuturan?

Sintesis pertuturan, juga dikenali sebagai text-to-speech (sistem TTS), ialah simulasi suara manusia yang dijana oleh komputer. Pensintesis pertuturan menukar perkataan bertulis kepada bahasa pertuturan.

Sepanjang hari biasa, anda mungkin menghadapi pelbagai jenis pertuturan sintetik. Teknologi sintesis pertuturan, dibantu oleh apl, pembesar suara pintar dan fon kepala wayarles, menjadikan kehidupan lebih mudah dengan menambah baik:

Kebolehcapaian: Jika anda cacat penglihatan atau kurang upaya, anda boleh menggunakan sistem teks ke pertuturan untuk membaca kandungan teks atau pembaca skrin untuk menyebut perkataan dengan kuat. Sebagai contoh, pensintesis Text-to-Speech pada TikTok ialah ciri kebolehcapaian popular yang membolehkan sesiapa sahaja menggunakan kandungan media sosial visual.
Navigasi: Semasa memandu, anda tidak boleh melihat peta, tetapi anda boleh mendengar arahan. Walau apa pun destinasi anda, kebanyakan apl GPS boleh memberikan makluman suara yang berguna semasa anda mengembara, sesetengahnya dalam pelbagai bahasa.
Bantuan suara disediakan. Pembantu audio pintar seperti Siri (iPhone) dan Alexa (Android) sangat baik untuk berbilang tugas, membolehkan anda memesan piza atau mendengar laporan cuaca semasa melakukan tugas fizikal lain (cth, mencuci pinggan mangkuk) berkat kebolehfahaman mereka. Walaupun pembantu ini kadang-kadang melakukan kesilapan dan sering direka sebagai watak wanita yang tunduk, mereka terdengar sangat hidup.

Apakah sejarah sintesis pertuturan?

Pencipta Wolfgang von Kempelen hampir sampai ke sana dengan belos dan tiub pada abad ke-18.
Pada tahun 1928, Homer W. Dudley, seorang saintis Amerika di Bell Laboratories/ Bell Labs, mencipta Vocoder, penganalisis pertuturan elektronik. Dudley membangunkan Vocoder menjadi Voder, pensintesis pertuturan elektronik yang dikendalikan melalui papan kekunci.
Homer Dudley dari Bell Laboratories menunjukkan pensintesis suara berfungsi pertama di dunia, Voder, di Pameran Dunia 1939 di New York City. Seorang pengendali manusia dikehendaki mengendalikan kunci dan pedal kaki alat seperti organ besar itu.
Penyelidik membina Voder selama beberapa dekad akan datang. Sistem sintesis pertuturan berasaskan komputer pertama telah dibangunkan pada akhir 1950-an, dan Bell Laboratories mencipta sejarah sekali lagi pada tahun 1961 apabila ahli fizik John Larry Kelly Jr. memberikan ceramah IBM 704.
Litar bersepadu membolehkan produk sintesis pertuturan komersial dalam telekomunikasi dan permainan video pada tahun 1970-an dan 1980-an. Cip Vortex, yang digunakan dalam permainan arked, adalah salah satu litar bersepadu sintesis pertuturan yang pertama.
Texas Instruments mencipta nama pada tahun 1980 dengan pensintesis Speak N Spell, yang digunakan sebagai alat bantu membaca elektronik untuk kanak-kanak.
Sejak awal 1990-an, sistem pengendalian komputer standard telah memasukkan pensintesis pertuturan, terutamanya untuk imlak dan transkripsi. Selain itu, TTS kini menggunakan untuk pelbagai tujuan, dan suara sintetik telah menjadi sangat tepat apabila kecerdasan buatan dan pembelajaran mesin telah maju.

Bagaimanakah Sintesis Pertuturan Berfungsi?

Sintesis pertuturan berfungsi dalam tiga peringkat: teks kepada perkataan, perkataan kepada fonem, dan fonem kepada bunyi.

1. Teks kepada perkataan

Sintesis pertuturan bermula dengan pra-pemprosesan atau normalisasi, yang mengurangkan kekaburan dengan memilih cara terbaik untuk membaca petikan. Pra-pemprosesan melibatkan membaca dan membersihkan teks, jadi komputer membacanya dengan lebih tepat. Nombor, tarikh, masa, singkatan, akronim dan aksara khas memerlukan terjemahan. Untuk menentukan sebutan yang paling mungkin, mereka menggunakan kebarangkalian statistik atau rangkaian saraf.

Homograf—perkataan yang mempunyai sebutan yang serupa tetapi makna yang berbeza memerlukan pengendalian dengan pra-pemprosesan. Selain itu, pensintesis pertuturan tidak dapat memahami “Saya menjual kereta” kerana “menjual” boleh disebut “sel”. Dengan mengenali ejaan (“Saya mempunyai telefon bimbit”), seseorang boleh meneka bahawa “Saya menjual kereta” adalah betul. Penyelesaian pengecaman pertuturan untuk mengubah suara manusia menjadi teks walaupun dengan perbendaharaan kata yang kompleks.

2. Perkataan kepada fonem

Selepas menentukan perkataan, pensintesis pertuturan menghasilkan bunyi yang mengandungi perkataan tersebut. Setiap komputer memerlukan senarai abjad perkataan yang besar dan maklumat tentang cara menyebut setiap perkataan. Mereka memerlukan senarai fonem yang membentuk setiap bunyi perkataan. Fonem adalah penting kerana hanya terdapat 26 huruf dalam abjad Inggeris tetapi lebih daripada 40 fonem.

Secara teorinya, jika komputer mempunyai kamus perkataan dan fonem, apa yang perlu dilakukan ialah membaca perkataan, mencarinya dalam kamus, dan kemudian membaca fonem yang sepadan. Walau bagaimanapun, dalam amalan, ia jauh lebih kompleks daripada yang kelihatan.

Kaedah alternatif melibatkan memecahkan perkataan bertulis kepada grafem dan menghasilkan fonem yang sepadan dengannya menggunakan peraturan mudah.

3. Fonem untuk berbunyi

Komputer kini telah menukar teks menjadi senarai fonem. Tetapi bagaimana anda mencari fonem asas yang dibaca oleh komputer dengan kuat apabila ia menukar teks kepada pertuturan dalam bahasa yang berbeza? Terdapat tiga pendekatan untuk ini.

Untuk memulakan, rakaman manusia mengatakan fonem akan menggunakan.
Pendekatan kedua ialah komputer menjana fonem menggunakan frekuensi bunyi asas.
Pendekatan terakhir ialah meniru teknik suara manusia dalam masa nyata dengan bunyi semula jadi dengan algoritma berkualiti tinggi.

Sintesis Konkatenatif

Pensintesis pertuturan yang menggunakan suara manusia yang dirakam mesti dimuatkan dengan sedikit bunyi manusia yang boleh dimanipulasi. Juga, ia berdasarkan ucapan manusia yang telah dirakam.

Apakah Sintesis Forman?

Forman ialah 3-5 kekunci (bergema) frekuensi bunyi yang dihasilkan dan digabungkan oleh pita suara manusia untuk menghasilkan bunyi pertuturan atau nyanyian. Pensintesis pertuturan forman boleh mengatakan apa sahaja, termasuk perkataan yang tidak wujud dan asing yang tidak pernah mereka dengar. Sintesis aditif dan sintesis pemodelan fizikal digunakan untuk menjana output pertuturan yang disintesis.

Apakah sintesis artikulasi?

Sintesis artikulasi menjadikan komputer bercakap dengan mensimulasikan saluran vokal manusia yang rumit dan menyatakan proses yang berlaku di sana. Kerana kerumitannya, ia adalah kaedah yang paling kurang dikaji oleh penyelidik sehingga kini.

Ringkasnya, perisian sintesis suara/ sintesis teks ke pertuturan membolehkan pengguna melihat teks bertulis, mendengarnya dan membacanya dengan kuat pada masa yang sama. Perisian yang berbeza menggunakan kedua-dua suara yang dihasilkan oleh komputer dan suara yang dirakam oleh manusia. Sintesis pertuturan menjadi lebih popular apabila permintaan untuk penglibatan pelanggan dan penyelarasan proses organisasi semakin meningkat. Ia memudahkan keuntungan jangka panjang.