भाषण संश्लेषण कैसे काम करता है?

पाठ विश्लेषण और भाषाई प्रसंस्करण
पाठ विश्लेषण और भाषाई प्रसंस्करण

Speaktor 2023-07-13

स्पीच सिंथेसाइज़र कार्यस्थल की संस्कृति को बदल रहे हैं। एक भाषण संश्लेषण पाठ पढ़ता है। टेक्स्ट-टू-स्पीच तब होता है जब कंप्यूटर किसी शब्द को जोर से पढ़ता है। इसका मतलब है कि मशीनें सरलता से बात करें और अलग-अलग उम्र और लिंग के लोगों की तरह बोलें। टेक्स्ट-टू-स्पीच इंजन डिजिटल सेवाओं के रूप में अधिक लोकप्रिय हो रहे हैं, और आवाज की पहचान बढ़ रही है।

भाषण संश्लेषण क्या है?

स्पीच सिंथेसिस, जिसे टेक्स्ट-टू-स्पीच (टीटीएस सिस्टम) के रूप में भी जाना जाता है, मानव आवाज का कंप्यूटर जनित अनुकरण है। स्पीच सिंथेसाइज़र लिखित शब्दों को बोली जाने वाली भाषा में परिवर्तित करते हैं।

एक विशिष्ट दिन के दौरान, आपको विभिन्न प्रकार के सिंथेटिक भाषणों का सामना करना पड़ सकता है। स्पीच सिंथेसिस तकनीक, ऐप्स, स्मार्ट स्पीकर और वायरलेस हेडफ़ोन द्वारा सहायता प्राप्त, सुधार करके जीवन को आसान बनाती है:

  • अभिगम्यता: यदि आप दृष्टिबाधित या अक्षम हैं, तो आप टेक्स्ट सामग्री को पढ़ने के लिए टेक्स्ट टू स्पीच सिस्टम या शब्दों को ज़ोर से बोलने के लिए स्क्रीन रीडर का उपयोग कर सकते हैं। उदाहरण के लिए, टिकटोक पर टेक्स्ट-टू-स्पीच सिंथेसाइज़र एक लोकप्रिय एक्सेसिबिलिटी फीचर है जो किसी को भी विज़ुअल सोशल मीडिया सामग्री का उपभोग करने की अनुमति देता है।
  • नेविगेशन: गाड़ी चलाते समय आप मानचित्र नहीं देख सकते, लेकिन आप निर्देशों को सुन सकते हैं। आपकी मंज़िल चाहे जो भी हो, अधिकांश GPS ऐप आपकी यात्रा के दौरान सहायक ध्वनि अलर्ट प्रदान कर सकते हैं, कुछ कई भाषाओं में।
  • आवाज सहायता उपलब्ध है। Siri (iPhone) और Alexa (Android) जैसे बुद्धिमान ऑडियो सहायक मल्टीटास्किंग के लिए उत्कृष्ट हैं, जिससे आप पिज्जा ऑर्डर कर सकते हैं या अन्य शारीरिक कार्य (जैसे, बर्तन धोना) करते समय मौसम की रिपोर्ट सुन सकते हैं, उनकी समझदारी के लिए धन्यवाद। जबकि ये सहायक कभी-कभार गलतियाँ करते हैं और अक्सर अधीनस्थ महिला पात्रों के रूप में डिज़ाइन किए जाते हैं, वे बहुत सजीव लगते हैं।

भाषण संश्लेषण का इतिहास क्या है?

  • आविष्कारक वोल्फगैंग वॉन केम्पेलन 18वीं शताब्दी में लगभग धौंकनी और ट्यूब के साथ वहां पहुंचे थे।
  • 1928 में, बेल लेबोरेटरीज/बेल लैब्स के एक अमेरिकी वैज्ञानिक होमर डब्ल्यू डडली ने एक इलेक्ट्रॉनिक भाषण विश्लेषक वोकोडर बनाया। डुडले ने वोकोडर को वोडर में विकसित किया, जो एक कीबोर्ड के माध्यम से संचालित एक इलेक्ट्रॉनिक भाषण सिंथेसाइज़र है।
  • बेल लेबोरेटरीज के होमर डुडले ने न्यूयॉर्क शहर में 1939 के विश्व मेले में दुनिया के पहले कार्यात्मक आवाज सिंथेसाइज़र, वोडर का प्रदर्शन किया। बड़े पैमाने पर अंग जैसे उपकरण की चाबियों और फुट पेडल को संचालित करने के लिए एक मानव ऑपरेटर की आवश्यकता थी।
  • शोधकर्ताओं ने अगले कुछ दशकों में वोडर पर निर्माण किया। पहली कंप्यूटर-आधारित वाक् संश्लेषण प्रणाली 1950 के दशक के अंत में विकसित की गई थी, और Bell Laboratories ने 1961 में फिर से इतिहास रचा जब भौतिक विज्ञानी जॉन लैरी केली जूनियर ने IBM 704 टॉक दिया।
  • एकीकृत परिपथों ने 1970 और 1980 के दशक में दूरसंचार और वीडियो गेम में वाणिज्यिक भाषण संश्लेषण उत्पादों को संभव बनाया। आर्केड गेम में उपयोग की जाने वाली भंवर चिप, पहले भाषण-संश्लेषण एकीकृत परिपथों में से एक थी।
  • टेक्सास इंस्ट्रूमेंट्स ने 1980 में स्पीक एन स्पेल सिंथेसाइज़र के साथ अपना नाम बनाया, जिसका उपयोग बच्चों के लिए इलेक्ट्रॉनिक रीडिंग एड के रूप में किया गया था।
  • 1990 के दशक की शुरुआत से, मानक कंप्यूटर ऑपरेटिंग सिस्टम में मुख्य रूप से डिक्टेशन और ट्रांसक्रिप्शन के लिए स्पीच सिंथेसाइज़र शामिल हैं। इसके अलावा, टीटीएस अब विभिन्न उद्देश्यों के लिए उपयोग कर रहा है, और सिंथेटिक आवाजें उल्लेखनीय रूप से सटीक हो गई हैं क्योंकि कृत्रिम बुद्धि और मशीन सीखने में प्रगति हुई है।

भाषण संश्लेषण कैसे काम करता है?

भाषण संश्लेषण तीन चरणों में काम करता है: शब्दों के लिए पाठ, स्वरों के लिए शब्द और ध्वनि के लिए स्वर।

1. शब्दों को पाठ

भाषण संश्लेषण पूर्व-प्रसंस्करण या सामान्यीकरण से शुरू होता है, जो मार्ग को पढ़ने का सबसे अच्छा तरीका चुनकर अस्पष्टता को कम करता है। प्री-प्रोसेसिंग में टेक्स्ट को पढ़ना और साफ करना शामिल है, इसलिए कंप्यूटर इसे अधिक सटीकता से पढ़ता है। संख्याओं, दिनांकों, समयों, संक्षिप्ताक्षरों, परिवर्णी शब्दों और विशेष वर्णों के अनुवाद की आवश्यकता है। सबसे संभावित उच्चारण निर्धारित करने के लिए, वे सांख्यिकीय संभाव्यता या तंत्रिका नेटवर्क का उपयोग करते हैं।

होमोग्राफ – ऐसे शब्द जिनका उच्चारण समान है लेकिन अलग-अलग अर्थों को प्री-प्रोसेसिंग द्वारा संभालने की आवश्यकता होती है। इसके अलावा, एक भाषण सिंथेसाइज़र “मैं कार बेचता हूं” नहीं समझ सकता क्योंकि “सेल” का उच्चारण “सेल” किया जा सकता है। वर्तनी की पहचान करके (“मेरे पास एक सेल फोन है”), कोई अनुमान लगा सकता है कि “मैं कार बेचता हूं” सही है। जटिल शब्दावली के साथ भी मानव आवाज को पाठ में बदलने के लिए वाक् पहचान समाधान।

2. स्वरों के लिए शब्द

शब्दों का निर्धारण करने के बाद, स्पीच सिंथेसाइज़र उन शब्दों से युक्त ध्वनि उत्पन्न करता है। प्रत्येक कंप्यूटर को शब्दों की एक बड़ी वर्णानुक्रमिक सूची और प्रत्येक शब्द का उच्चारण कैसे करना है, इसकी जानकारी की आवश्यकता होती है। उन्हें उन स्वरों की सूची की आवश्यकता होगी जो प्रत्येक शब्द की ध्वनि बनाते हैं। फोनीम्स महत्वपूर्ण हैं क्योंकि अंग्रेजी वर्णमाला में केवल 26 अक्षर हैं लेकिन 40 से अधिक फोनीम्स हैं।

सिद्धांत रूप में, यदि किसी कंप्यूटर में शब्दों और स्वरों का शब्दकोश है, तो उसे केवल एक शब्द पढ़ना है, उसे शब्दकोश में देखना है, और फिर संबंधित स्वरों को पढ़ना है। हालाँकि, व्यवहार में, यह जितना दिखता है उससे कहीं अधिक जटिल है।

वैकल्पिक पद्धति में लिखित शब्दों को ग्रफेम में तोड़ना और सरल नियमों का उपयोग करके उनके अनुरूप स्वर उत्पन्न करना शामिल है।

3. ध्वनि के लिए स्वर

कंप्यूटर ने अब पाठ को स्वरों की सूची में बदल दिया है। लेकिन जब कंप्यूटर अलग-अलग भाषाओं में टेक्स्ट को स्पीच में परिवर्तित करता है, तो आप उन मूल स्वरों को कैसे ढूंढते हैं जिन्हें कंप्यूटर जोर से पढ़ता है? इसके तीन उपाय हैं।

  • शुरू करने के लिए, मनुष्यों की रिकॉर्डिंग फोनीम्स का उपयोग करेगी।
  • दूसरा दृष्टिकोण कंप्यूटर के लिए मौलिक ध्वनि आवृत्तियों का उपयोग करके स्वरों को उत्पन्न करने के लिए है।
  • अंतिम दृष्टिकोण उच्च गुणवत्ता वाले एल्गोरिदम के साथ प्राकृतिक ध्वनि द्वारा वास्तविक समय में मानव आवाज तकनीक की नकल करना है।

संश्लिष्ट संश्लेषण

स्पीच सिंथेसाइज़र जो रिकॉर्ड की गई मानव आवाज़ों का उपयोग करते हैं, उन्हें मानव ध्वनि की एक छोटी मात्रा के साथ पहले से लोड किया जाना चाहिए जिसे हेरफेर किया जा सकता है। साथ ही, यह मानव भाषण पर आधारित है जिसे रिकॉर्ड किया गया है।

फॉर्मेंट सिंथेसिस क्या है?

फ़ॉर्मेंट ध्वनि की 3-5 कुंजी (गुंजयमान) आवृत्तियाँ हैं जो भाषण या गायन की ध्वनि उत्पन्न करने के लिए मानव वोकल कॉर्ड द्वारा उत्पन्न और संयोजित होती हैं। फॉर्मेंट स्पीच सिंथेसाइज़र कुछ भी कह सकते हैं, जिसमें गैर-मौजूद और विदेशी शब्द शामिल हैं, जिनके बारे में उन्होंने कभी नहीं सुना है। सिंथेसाइज्ड स्पीच आउटपुट उत्पन्न करने के लिए एडिटिव सिंथेसिस और फिजिकल मॉडलिंग सिंथेसिस का उपयोग किया जाता है।

कलात्मक संश्लेषण क्या है?

आर्टिकुलेटरी सिंथेसिस कंप्यूटर को जटिल मानव वोकल ट्रैक्ट का अनुकरण करके और वहां होने वाली प्रक्रिया को स्पष्ट करके बोल रहा है। इसकी जटिलता के कारण, यह वह विधि है जिसका कम से कम शोधकर्ताओं ने अब तक सबसे कम अध्ययन किया है।

संक्षेप में, वॉयस सिंथेसिस सॉफ्टवेयर / टेक्स्ट-टू-स्पीच सिंथेसिस उपयोगकर्ताओं को एक ही समय में लिखित पाठ देखने, सुनने और इसे जोर से पढ़ने की अनुमति देता है। अलग-अलग सॉफ़्टवेयर कंप्यूटर जनित और मानव-रिकॉर्डेड दोनों तरह की आवाज़ों का उपयोग करते हैं। भाषण संश्लेषण अधिक लोकप्रिय हो रहा है क्योंकि ग्राहक जुड़ाव और संगठनात्मक प्रक्रिया को सुव्यवस्थित करने की मांग बढ़ रही है। यह दीर्घकालिक लाभप्रदता की सुविधा देता है।

पोस्ट साझा करें

टेक्स्ट टू स्पीच

img

Speaktor

अपने टेक्स्ट को आवाज में बदलें और जोर से पढ़ें