स्पीच सिंथेसाइज़र कार्यस्थल की संस्कृति को बदल रहे हैं। एक भाषण संश्लेषण पाठ पढ़ता है। टेक्स्ट-टू-स्पीच तब होता है जब कंप्यूटर किसी शब्द को जोर से पढ़ता है। इसका मतलब है कि मशीनें सरलता से बात करें और अलग-अलग उम्र और लिंग के लोगों की तरह बोलें। टेक्स्ट-टू-स्पीच इंजन डिजिटल सेवाओं के रूप में अधिक लोकप्रिय हो रहे हैं, और आवाज की पहचान बढ़ रही है।
भाषण संश्लेषण क्या है?
स्पीच सिंथेसिस, जिसे टेक्स्ट-टू-स्पीच (टीटीएस सिस्टम) के रूप में भी जाना जाता है, मानव आवाज का कंप्यूटर जनित अनुकरण है। स्पीच सिंथेसाइज़र लिखित शब्दों को बोली जाने वाली भाषा में परिवर्तित करते हैं।
एक विशिष्ट दिन के दौरान, आपको विभिन्न प्रकार के सिंथेटिक भाषणों का सामना करना पड़ सकता है। स्पीच सिंथेसिस तकनीक, ऐप्स, स्मार्ट स्पीकर और वायरलेस हेडफ़ोन द्वारा सहायता प्राप्त, सुधार करके जीवन को आसान बनाती है:
- अभिगम्यता: यदि आप दृष्टिबाधित या अक्षम हैं, तो आप टेक्स्ट सामग्री को पढ़ने के लिए टेक्स्ट टू स्पीच सिस्टम या शब्दों को ज़ोर से बोलने के लिए स्क्रीन रीडर का उपयोग कर सकते हैं। उदाहरण के लिए, टिकटोक पर टेक्स्ट-टू-स्पीच सिंथेसाइज़र एक लोकप्रिय एक्सेसिबिलिटी फीचर है जो किसी को भी विज़ुअल सोशल मीडिया सामग्री का उपभोग करने की अनुमति देता है।
- नेविगेशन: गाड़ी चलाते समय आप मानचित्र नहीं देख सकते, लेकिन आप निर्देशों को सुन सकते हैं। आपकी मंज़िल चाहे जो भी हो, अधिकांश GPS ऐप आपकी यात्रा के दौरान सहायक ध्वनि अलर्ट प्रदान कर सकते हैं, कुछ कई भाषाओं में।
- आवाज सहायता उपलब्ध है। Siri (iPhone) और Alexa (Android) जैसे बुद्धिमान ऑडियो सहायक मल्टीटास्किंग के लिए उत्कृष्ट हैं, जिससे आप पिज्जा ऑर्डर कर सकते हैं या अन्य शारीरिक कार्य (जैसे, बर्तन धोना) करते समय मौसम की रिपोर्ट सुन सकते हैं, उनकी समझदारी के लिए धन्यवाद। जबकि ये सहायक कभी-कभार गलतियाँ करते हैं और अक्सर अधीनस्थ महिला पात्रों के रूप में डिज़ाइन किए जाते हैं, वे बहुत सजीव लगते हैं।
भाषण संश्लेषण का इतिहास क्या है?
- आविष्कारक वोल्फगैंग वॉन केम्पेलन 18वीं शताब्दी में लगभग धौंकनी और ट्यूब के साथ वहां पहुंचे थे।
- 1928 में, बेल लेबोरेटरीज/बेल लैब्स के एक अमेरिकी वैज्ञानिक होमर डब्ल्यू डडली ने एक इलेक्ट्रॉनिक भाषण विश्लेषक वोकोडर बनाया। डुडले ने वोकोडर को वोडर में विकसित किया, जो एक कीबोर्ड के माध्यम से संचालित एक इलेक्ट्रॉनिक भाषण सिंथेसाइज़र है।
- बेल लेबोरेटरीज के होमर डुडले ने न्यूयॉर्क शहर में 1939 के विश्व मेले में दुनिया के पहले कार्यात्मक आवाज सिंथेसाइज़र, वोडर का प्रदर्शन किया। बड़े पैमाने पर अंग जैसे उपकरण की चाबियों और फुट पेडल को संचालित करने के लिए एक मानव ऑपरेटर की आवश्यकता थी।
- शोधकर्ताओं ने अगले कुछ दशकों में वोडर पर निर्माण किया। पहली कंप्यूटर-आधारित वाक् संश्लेषण प्रणाली 1950 के दशक के अंत में विकसित की गई थी, और Bell Laboratories ने 1961 में फिर से इतिहास रचा जब भौतिक विज्ञानी जॉन लैरी केली जूनियर ने IBM 704 टॉक दिया।
- एकीकृत परिपथों ने 1970 और 1980 के दशक में दूरसंचार और वीडियो गेम में वाणिज्यिक भाषण संश्लेषण उत्पादों को संभव बनाया। आर्केड गेम में उपयोग की जाने वाली भंवर चिप, पहले भाषण-संश्लेषण एकीकृत परिपथों में से एक थी।
- टेक्सास इंस्ट्रूमेंट्स ने 1980 में स्पीक एन स्पेल सिंथेसाइज़र के साथ अपना नाम बनाया, जिसका उपयोग बच्चों के लिए इलेक्ट्रॉनिक रीडिंग एड के रूप में किया गया था।
- 1990 के दशक की शुरुआत से, मानक कंप्यूटर ऑपरेटिंग सिस्टम में मुख्य रूप से डिक्टेशन और ट्रांसक्रिप्शन के लिए स्पीच सिंथेसाइज़र शामिल हैं। इसके अलावा, टीटीएस अब विभिन्न उद्देश्यों के लिए उपयोग कर रहा है, और सिंथेटिक आवाजें उल्लेखनीय रूप से सटीक हो गई हैं क्योंकि कृत्रिम बुद्धि और मशीन सीखने में प्रगति हुई है।
भाषण संश्लेषण कैसे काम करता है?
भाषण संश्लेषण तीन चरणों में काम करता है: शब्दों के लिए पाठ, स्वरों के लिए शब्द और ध्वनि के लिए स्वर।
1. शब्दों को पाठ
भाषण संश्लेषण पूर्व-प्रसंस्करण या सामान्यीकरण से शुरू होता है, जो मार्ग को पढ़ने का सबसे अच्छा तरीका चुनकर अस्पष्टता को कम करता है। प्री-प्रोसेसिंग में टेक्स्ट को पढ़ना और साफ करना शामिल है, इसलिए कंप्यूटर इसे अधिक सटीकता से पढ़ता है। संख्याओं, दिनांकों, समयों, संक्षिप्ताक्षरों, परिवर्णी शब्दों और विशेष वर्णों के अनुवाद की आवश्यकता है। सबसे संभावित उच्चारण निर्धारित करने के लिए, वे सांख्यिकीय संभाव्यता या तंत्रिका नेटवर्क का उपयोग करते हैं।
होमोग्राफ – ऐसे शब्द जिनका उच्चारण समान है लेकिन अलग-अलग अर्थों को प्री-प्रोसेसिंग द्वारा संभालने की आवश्यकता होती है। इसके अलावा, एक भाषण सिंथेसाइज़र “मैं कार बेचता हूं” नहीं समझ सकता क्योंकि “सेल” का उच्चारण “सेल” किया जा सकता है। वर्तनी की पहचान करके (“मेरे पास एक सेल फोन है”), कोई अनुमान लगा सकता है कि “मैं कार बेचता हूं” सही है। जटिल शब्दावली के साथ भी मानव आवाज को पाठ में बदलने के लिए वाक् पहचान समाधान।
2. स्वरों के लिए शब्द
शब्दों का निर्धारण करने के बाद, स्पीच सिंथेसाइज़र उन शब्दों से युक्त ध्वनि उत्पन्न करता है। प्रत्येक कंप्यूटर को शब्दों की एक बड़ी वर्णानुक्रमिक सूची और प्रत्येक शब्द का उच्चारण कैसे करना है, इसकी जानकारी की आवश्यकता होती है। उन्हें उन स्वरों की सूची की आवश्यकता होगी जो प्रत्येक शब्द की ध्वनि बनाते हैं। फोनीम्स महत्वपूर्ण हैं क्योंकि अंग्रेजी वर्णमाला में केवल 26 अक्षर हैं लेकिन 40 से अधिक फोनीम्स हैं।
सिद्धांत रूप में, यदि किसी कंप्यूटर में शब्दों और स्वरों का शब्दकोश है, तो उसे केवल एक शब्द पढ़ना है, उसे शब्दकोश में देखना है, और फिर संबंधित स्वरों को पढ़ना है। हालाँकि, व्यवहार में, यह जितना दिखता है उससे कहीं अधिक जटिल है।
वैकल्पिक पद्धति में लिखित शब्दों को ग्रफेम में तोड़ना और सरल नियमों का उपयोग करके उनके अनुरूप स्वर उत्पन्न करना शामिल है।
3. ध्वनि के लिए स्वर
कंप्यूटर ने अब पाठ को स्वरों की सूची में बदल दिया है। लेकिन जब कंप्यूटर अलग-अलग भाषाओं में टेक्स्ट को स्पीच में परिवर्तित करता है, तो आप उन मूल स्वरों को कैसे ढूंढते हैं जिन्हें कंप्यूटर जोर से पढ़ता है? इसके तीन उपाय हैं।
- शुरू करने के लिए, मनुष्यों की रिकॉर्डिंग फोनीम्स का उपयोग करेगी।
- दूसरा दृष्टिकोण कंप्यूटर के लिए मौलिक ध्वनि आवृत्तियों का उपयोग करके स्वरों को उत्पन्न करने के लिए है।
- अंतिम दृष्टिकोण उच्च गुणवत्ता वाले एल्गोरिदम के साथ प्राकृतिक ध्वनि द्वारा वास्तविक समय में मानव आवाज तकनीक की नकल करना है।
संश्लिष्ट संश्लेषण
स्पीच सिंथेसाइज़र जो रिकॉर्ड की गई मानव आवाज़ों का उपयोग करते हैं, उन्हें मानव ध्वनि की एक छोटी मात्रा के साथ पहले से लोड किया जाना चाहिए जिसे हेरफेर किया जा सकता है। साथ ही, यह मानव भाषण पर आधारित है जिसे रिकॉर्ड किया गया है।
फॉर्मेंट सिंथेसिस क्या है?
फ़ॉर्मेंट ध्वनि की 3-5 कुंजी (गुंजयमान) आवृत्तियाँ हैं जो भाषण या गायन की ध्वनि उत्पन्न करने के लिए मानव वोकल कॉर्ड द्वारा उत्पन्न और संयोजित होती हैं। फॉर्मेंट स्पीच सिंथेसाइज़र कुछ भी कह सकते हैं, जिसमें गैर-मौजूद और विदेशी शब्द शामिल हैं, जिनके बारे में उन्होंने कभी नहीं सुना है। सिंथेसाइज्ड स्पीच आउटपुट उत्पन्न करने के लिए एडिटिव सिंथेसिस और फिजिकल मॉडलिंग सिंथेसिस का उपयोग किया जाता है।
कलात्मक संश्लेषण क्या है?
आर्टिकुलेटरी सिंथेसिस कंप्यूटर को जटिल मानव वोकल ट्रैक्ट का अनुकरण करके और वहां होने वाली प्रक्रिया को स्पष्ट करके बोल रहा है। इसकी जटिलता के कारण, यह वह विधि है जिसका कम से कम शोधकर्ताओं ने अब तक सबसे कम अध्ययन किया है।
संक्षेप में, वॉयस सिंथेसिस सॉफ्टवेयर / टेक्स्ट-टू-स्पीच सिंथेसिस उपयोगकर्ताओं को एक ही समय में लिखित पाठ देखने, सुनने और इसे जोर से पढ़ने की अनुमति देता है। अलग-अलग सॉफ़्टवेयर कंप्यूटर जनित और मानव-रिकॉर्डेड दोनों तरह की आवाज़ों का उपयोग करते हैं। भाषण संश्लेषण अधिक लोकप्रिय हो रहा है क्योंकि ग्राहक जुड़ाव और संगठनात्मक प्रक्रिया को सुव्यवस्थित करने की मांग बढ़ रही है। यह दीर्घकालिक लाभप्रदता की सुविधा देता है।