การสังเคราะห์เสียงพูดทำงานอย่างไร

Speaktor
ธันวาคม 23, 2022

เครื่องสังเคราะห์เสียงกำลังเปลี่ยนวัฒนธรรมในที่ทำงาน การสังเคราะห์เสียงอ่านข้อความ การอ่านออกเสียงข้อความคือการที่คอมพิวเตอร์อ่านออกเสียงคำศัพท์ มันคือการให้เครื่องจักรพูดอย่างเรียบง่ายและฟังดูเหมือนคนที่มีอายุและเพศต่างกัน เครื่องมือแปลงข้อความเป็นคำพูดกำลังเป็นที่นิยมมากขึ้นเนื่องจากบริการดิจิทัล และการจดจำ เสียง ก็เติบโตขึ้น

การสังเคราะห์เสียงคืออะไร?

การสังเคราะห์เสียงพูดหรือที่เรียกว่า text-to-speech (ระบบ TTS) เป็นการจำลองเสียงของมนุษย์ด้วยคอมพิวเตอร์ เครื่องสังเคราะห์เสียงแปลงคำที่เขียนเป็นภาษาพูด

ตลอดทั้งวัน คุณมักจะพบกับคำพูดสังเคราะห์ประเภทต่างๆ เทคโนโลยีการสังเคราะห์เสียงซึ่งได้รับความช่วยเหลือจากแอพ ลำโพงอัจฉริยะ และหูฟังไร้สาย ทำให้ชีวิตง่ายขึ้นด้วยการปรับปรุง:

การเข้าถึง: หากคุณพิการทางสายตาหรือพิการ คุณอาจใช้ระบบข้อความเป็นคำพูดเพื่ออ่านเนื้อหาที่เป็นข้อความหรือโปรแกรมอ่านหน้าจอเพื่อพูดออกเสียงคำต่างๆ ตัวอย่างเช่น ซินธิไซเซอร์ Text-to-Speech บน TikTok เป็นฟีเจอร์การช่วยสำหรับการเข้าถึงที่ได้รับความนิยม ซึ่งช่วยให้ทุกคนสามารถรับชมเนื้อหาโซเชียลมีเดียที่มองเห็นได้
การนำทาง: ขณะขับรถ คุณไม่สามารถดูแผนที่ได้ แต่คุณสามารถฟังคำแนะนำได้ ไม่ว่าจุดหมายปลายทางของคุณจะเป็นอย่างไร แอพ GPS ส่วนใหญ่สามารถแจ้งเตือนด้วยเสียงที่เป็นประโยชน์ในขณะที่คุณเดินทาง ซึ่งบางแอปในหลายภาษา
มีการช่วยเหลือด้วยเสียง ผู้ช่วยด้านเสียงอัจฉริยะ เช่น Siri (iPhone) และ Alexa (Android) นั้นยอดเยี่ยมสำหรับการทำงานหลายอย่างพร้อมกัน ช่วยให้คุณสั่งพิซซ่าหรือฟังรายงานสภาพอากาศได้ในขณะที่ทำงานทางกายภาพอื่นๆ (เช่น ล้างจาน) ด้วยความชาญฉลาด ในขณะที่ผู้ช่วยเหล่านี้ทำผิดพลาดในบางครั้งและมักถูกออกแบบให้เป็นตัวละครหญิงที่ยอมจำนน แต่พวกเขาก็ฟังดูสมจริง

ประวัติของการสังเคราะห์เสียงคืออะไร?

นักประดิษฐ์ Wolfgang von Kempelen เกือบจะไปถึงที่นั่นด้วยเครื่องสูบลมและท่อในศตวรรษที่ 18
ในปี 1928 โฮเมอร์ ดับบลิว ดัดลีย์ นักวิทยาศาสตร์ชาวอเมริกันจาก Bell Laboratories/ Bell Labs ได้สร้าง Vocoder ซึ่งเป็นเครื่องวิเคราะห์เสียงพูดแบบอิเล็กทรอนิกส์ ดัดลีย์พัฒนา Vocoder เป็น Voder ซึ่งเป็นเครื่องสังเคราะห์เสียงพูดแบบอิเล็กทรอนิกส์ที่ทำงานผ่านคีย์บอร์ด
Homer Dudley จาก Bell Laboratories ได้สาธิต Voder ซึ่งเป็นเครื่องสังเคราะห์เสียงที่ใช้งานได้เครื่องแรกของโลกในงาน World’s Fair ปี 1939 ที่นครนิวยอร์ก ผู้ปฏิบัติงานที่เป็นมนุษย์จำเป็นต้องควบคุมแป้นและแป้นเหยียบของอุปกรณ์ที่มีลักษณะคล้ายอวัยวะขนาดใหญ่
นักวิจัยสร้าง Voder ในอีกไม่กี่ทศวรรษข้างหน้า ระบบสังเคราะห์เสียงพูดที่ใช้คอมพิวเตอร์เครื่องแรกได้รับการพัฒนาขึ้นในช่วงปลายทศวรรษ 1950 และ Bell Laboratories สร้างประวัติศาสตร์อีกครั้งในปี 1961 เมื่อนักฟิสิกส์ John Larry Kelly Jr. บรรยายเกี่ยวกับ IBM 704
วงจรรวมทำให้ผลิตภัณฑ์สังเคราะห์เสียงเชิงพาณิชย์เป็นไปได้ในโทรคมนาคมและวิดีโอเกมในทศวรรษที่ 1970 และ 1980 ชิป Vortex ที่ใช้ในเกมอาร์เคดเป็นหนึ่งในวงจรรวมการสังเคราะห์เสียงพูดตัวแรก
Texas Instruments สร้างชื่อให้ตัวเองในปี 1980 ด้วยเครื่องสังเคราะห์เสียง Speak N Spell ซึ่งใช้เป็นเครื่องช่วยอ่านอิเล็กทรอนิกส์สำหรับเด็ก
ตั้งแต่ช่วงต้นทศวรรษ 1990 เป็นต้นมา ระบบปฏิบัติการมาตรฐานของคอมพิวเตอร์ได้รวมเอาตัวสังเคราะห์เสียงพูดไว้ใช้สำหรับการป้อนตามคำบอกและการถอดความเป็นหลัก นอกจากนี้ ตอนนี้ TTS ยังถูกใช้เพื่อวัตถุประสงค์ต่างๆ และเสียงสังเคราะห์มีความแม่นยำอย่างน่าทึ่งเนื่องจากปัญญาประดิษฐ์และการเรียนรู้ของเครื่องได้ก้าวหน้าไป

การสังเคราะห์เสียงพูดทำงานอย่างไร

การสังเคราะห์เสียงทำงานในสามขั้นตอน: ข้อความเป็นคำ คำจากหน่วยเสียง และหน่วยเสียงเป็นเสียง

1. ข้อความเป็นคำ

การสังเคราะห์เสียงเริ่มต้นด้วยการประมวลผลล่วงหน้าหรือการทำให้เป็นมาตรฐาน ซึ่งช่วยลดความกำกวมด้วยการเลือกวิธีที่ดีที่สุดในการอ่านข้อความ การประมวลผลล่วงหน้าเกี่ยวข้องกับการอ่านและทำความสะอาดข้อความ ดังนั้นคอมพิวเตอร์จึงอ่านได้แม่นยำยิ่งขึ้น ตัวเลข วันที่ เวลา ตัวย่อ คำย่อ และอักขระพิเศษจำเป็นต้องมีการแปล ในการพิจารณาการออกเสียงที่เป็นไปได้มากที่สุด พวกเขาใช้ความน่าจะเป็นทางสถิติหรือโครงข่ายประสาทเทียม

คำพ้องเสียง—คำที่มีการออกเสียงคล้ายกันแต่ความหมายต่างกัน จำเป็นต้องจัดการโดยการประมวลผลล่วงหน้า นอกจากนี้ เครื่องสังเคราะห์เสียงไม่สามารถเข้าใจ “ฉันขายรถ” เพราะ “ขาย” สามารถออกเสียงว่า “เซลล์” เมื่อจำการสะกด (“ฉันมีโทรศัพท์มือถือ”) เราสามารถเดาได้ว่า “ฉันขายรถ” ถูกต้อง โซลูชันการรู้จำเสียงเพื่อเปลี่ยนเสียงของมนุษย์เป็นข้อความแม้จะมีคำศัพท์ที่ซับซ้อน

2. คำในหน่วยเสียง

หลังจากกำหนดคำแล้ว โปรแกรมสังเคราะห์เสียงพูดจะสร้างเสียงที่มีคำเหล่านั้น คอมพิวเตอร์ทุกเครื่องต้องการรายการคำและข้อมูลเกี่ยวกับวิธีการออกเสียงแต่ละคำตามตัวอักษรจำนวนมาก พวกเขาต้องการรายชื่อหน่วยเสียงที่ประกอบกันเป็นเสียงของแต่ละคำ หน่วยเสียงมีความสำคัญเนื่องจากตัวอักษรภาษาอังกฤษมีเพียง 26 ตัว แต่มีหน่วยเสียงมากกว่า 40 หน่วยเสียง

ตามทฤษฎีแล้ว หากคอมพิวเตอร์มีพจนานุกรมของคำและหน่วยเสียง สิ่งที่ต้องทำคืออ่านคำหนึ่งคำ ค้นหาในพจนานุกรม จากนั้นอ่านหน่วยเสียงที่เกี่ยวข้อง อย่างไรก็ตามในทางปฏิบัตินั้นซับซ้อนกว่าที่ปรากฏมาก

วิธีการทางเลือกเกี่ยวข้องกับการแบ่งคำที่เขียนออกเป็นกราฟและสร้างหน่วยเสียงที่สอดคล้องกับคำเหล่านั้นโดยใช้กฎง่ายๆ

3. ฟอนิมเสียง

คอมพิวเตอร์ได้แปลงข้อความเป็นรายการหน่วยเสียงแล้ว แต่คุณจะพบหน่วยเสียงพื้นฐานที่คอมพิวเตอร์อ่านออกเสียงได้อย่างไรเมื่อแปลงข้อความเป็นคำพูดในภาษาต่างๆ มีสามวิธีในการนี้

ในการเริ่มต้น การบันทึกของมนุษย์ที่บอกว่าจะใช้หน่วยเสียง
วิธีที่สองคือให้คอมพิวเตอร์สร้างหน่วยเสียงโดยใช้ความถี่เสียงพื้นฐาน
แนวทางสุดท้ายคือการเลียนแบบเทคนิคเสียงของมนุษย์แบบเรียลไทม์โดยให้เสียงเป็นธรรมชาติด้วยอัลกอริธึมคุณภาพสูง

การสังเคราะห์แบบเชื่อมโยง

เครื่องสังเคราะห์เสียงพูดที่ใช้เสียงของมนุษย์ที่บันทึกไว้จะต้องโหลดไว้ล่วงหน้าด้วยเสียงมนุษย์จำนวนเล็กน้อยที่สามารถปรับเปลี่ยนได้ นอกจากนี้ยังขึ้นอยู่กับคำพูดของมนุษย์ที่ได้รับการบันทึกไว้

การสังเคราะห์รูปแบบคืออะไร?

ฟอร์แมนต์คือความถี่หลัก 3-5 คีย์ (เรโซแนนต์) ของเสียงที่สร้างขึ้นและรวมกันโดยสายเสียงของมนุษย์เพื่อผลิตเสียงพูดหรือร้องเพลง เครื่องสังเคราะห์เสียงพูดของฟอร์แมนต์สามารถพูดอะไรก็ได้ รวมถึงคำที่ไม่มีอยู่จริงและคำต่างประเทศที่พวกเขาไม่เคยได้ยิน การสังเคราะห์สารเติมแต่งและการสังเคราะห์แบบจำลองทางกายภาพใช้สำหรับสร้างเอาต์พุตเสียงสังเคราะห์

Articulatory synthesis คืออะไร?

Articulatory synthesis คือการทำให้คอมพิวเตอร์พูดได้โดยการจำลองระบบเสียงของมนุษย์ที่ซับซ้อนและแสดงกระบวนการที่เกิดขึ้นที่นั่น เนื่องจากความซับซ้อนเป็นวิธีที่นักวิจัยน้อยที่สุดได้ศึกษาน้อยที่สุดจนถึงปัจจุบัน

กล่าวโดยย่อ ซอฟต์แวร์สังเคราะห์เสียง/ การสังเคราะห์ข้อความเป็นคำพูดช่วยให้ผู้ใช้สามารถดูข้อความที่เขียน ได้ยิน และอ่านออกเสียงได้ในเวลาเดียวกัน ซอฟต์แวร์ต่างๆ ใช้ทั้งเสียงที่สร้างโดยคอมพิวเตอร์และเสียงที่มนุษย์บันทึกไว้ การสังเคราะห์เสียงกำลังเป็นที่นิยมมากขึ้น เนื่องจากความต้องการการมีส่วนร่วมของลูกค้าและการปรับปรุงกระบวนการขององค์กรมีมากขึ้น ช่วยให้สามารถทำกำไรได้ในระยะยาว

แบ่งปันโพสต์: