বক্তৃতা সংশ্লেষকরা কর্মক্ষেত্রের সংস্কৃতিকে রূপান্তরিত করছে। একটি বক্তৃতা সংশ্লেষণ পাঠ্যটি পড়ে। টেক্সট-টু-স্পিচ হল যখন একটি কম্পিউটার উচ্চস্বরে একটি শব্দ পড়ে। এটি হল মেশিনগুলিকে বিভিন্ন বয়স এবং লিঙ্গের লোকের মতো সহজভাবে কথা বলতে হবে। টেক্সট-টু-স্পিচ ইঞ্জিনগুলি ডিজিটাল পরিষেবাগুলির হিসাবে আরও জনপ্রিয় হয়ে উঠছে এবং ভয়েস স্বীকৃতি বৃদ্ধি পাচ্ছে।
বক্তৃতা সংশ্লেষণ কি?
বক্তৃতা সংশ্লেষণ, যা টেক্সট-টু-স্পীচ (টিটিএস সিস্টেম) নামেও পরিচিত, এটি মানুষের ভয়েসের একটি কম্পিউটার-উত্পাদিত সিমুলেশন। স্পিচ সিন্থেসাইজার লিখিত শব্দকে কথ্য ভাষায় রূপান্তর করে।
একটি সাধারণ দিন জুড়ে, আপনি বিভিন্ন ধরণের সিন্থেটিক বক্তৃতা সম্মুখীন হতে পারেন। অ্যাপস, স্মার্ট স্পিকার এবং ওয়্যারলেস হেডফোনগুলির সাহায্যে স্পিচ সংশ্লেষণ প্রযুক্তি, উন্নতির মাধ্যমে জীবনকে সহজ করে তোলে:
- অ্যাক্সেসযোগ্যতা: আপনি যদি দৃষ্টি প্রতিবন্ধী বা অক্ষম হন, তাহলে আপনি পাঠ্য বিষয়বস্তু পড়ার জন্য টেক্সট টু স্পিচ সিস্টেম বা উচ্চস্বরে শব্দ বলার জন্য স্ক্রিন রিডার ব্যবহার করতে পারেন। উদাহরণস্বরূপ, TikTok-এ টেক্সট-টু-স্পিচ সিন্থেসাইজার হল একটি জনপ্রিয় অ্যাক্সেসিবিলিটি বৈশিষ্ট্য যা যে কেউ ভিজ্যুয়াল সোশ্যাল মিডিয়া সামগ্রী ব্যবহার করতে দেয়।
- ন্যাভিগেশন: গাড়ি চালানোর সময়, আপনি একটি মানচিত্রের দিকে তাকাতে পারবেন না, তবে আপনি নির্দেশাবলী শুনতে পারেন। আপনার গন্তব্য যাই হোক না কেন, বেশিরভাগ GPS অ্যাপ আপনার ভ্রমণের সময় সহায়ক ভয়েস সতর্কতা প্রদান করতে পারে, কিছু একাধিক ভাষায়।
- ভয়েস সহায়তা পাওয়া যায়। বুদ্ধিমান অডিও সহকারী যেমন Siri (iPhone) এবং Alexa (Android) মাল্টিটাস্কিংয়ের জন্য চমৎকার, আপনাকে তাদের বোধগম্যতার জন্য ধন্যবাদ অন্যান্য শারীরিক কাজ (যেমন, থালাবাসন ধোয়া) করার সময় পিজা অর্ডার করতে বা আবহাওয়ার প্রতিবেদন শোনার অনুমতি দেয়। যদিও এই সহকারীরা মাঝে মাঝে ভুল করে এবং প্রায়শই অধীনস্থ মহিলা চরিত্র হিসাবে ডিজাইন করা হয়, তারা বেশ প্রাণবন্ত শোনায়।
বক্তৃতা সংশ্লেষণের ইতিহাস কী?
- উদ্ভাবক উলফগ্যাং ভন কেম্পেলেন প্রায় 18 শতকে বেলো এবং টিউব নিয়ে সেখানে পৌঁছেছিলেন।
- 1928 সালে, বেল ল্যাবরেটরিজ/বেল ল্যাবসের একজন আমেরিকান বিজ্ঞানী হোমার ডব্লিউ ডুডলি একটি ইলেকট্রনিক স্পিচ অ্যানালাইজার ভোকোডার তৈরি করেন। ডুডলি ভোকোডারকে ভোডারে বিকশিত করে, একটি কীবোর্ডের মাধ্যমে চালিত একটি ইলেকট্রনিক স্পিচ সিন্থেসাইজার।
- বেল ল্যাবরেটরিজের হোমার ডুডলি নিউ ইয়র্ক সিটিতে 1939 সালের বিশ্ব মেলায় বিশ্বের প্রথম কার্যকরী ভয়েস সিন্থেসাইজার, ভোডার প্রদর্শন করেছিলেন। বিশাল অঙ্গ-সদৃশ যন্ত্রপাতির চাবি এবং পায়ের প্যাডেল চালানোর জন্য একজন মানব অপারেটরের প্রয়োজন ছিল।
- গবেষকরা পরবর্তী কয়েক দশক ধরে ভোডার তৈরি করেছেন। প্রথম কম্পিউটার-ভিত্তিক বক্তৃতা সংশ্লেষণ সিস্টেমগুলি 1950 এর দশকের শেষের দিকে বিকশিত হয়েছিল, এবং বেল ল্যাবরেটরিজ 1961 সালে আবার ইতিহাস তৈরি করেছিল যখন পদার্থবিদ জন ল্যারি কেলি জুনিয়র একটি IBM 704 বক্তৃতা দিয়েছিলেন।
- ইন্টিগ্রেটেড সার্কিটগুলি 1970 এবং 1980 এর দশকে টেলিযোগাযোগ এবং ভিডিও গেমগুলিতে বাণিজ্যিক বক্তৃতা সংশ্লেষণ পণ্যগুলিকে সম্ভব করে তুলেছিল। ভোর্টেক্স চিপ, আর্কেড গেমগুলিতে ব্যবহৃত হয়, এটি ছিল প্রথম বক্তৃতা-সংশ্লেষণ সমন্বিত সার্কিটগুলির মধ্যে একটি।
- টেক্সাস ইন্সট্রুমেন্টস 1980 সালে স্পিক এন স্পেল সিন্থেসাইজারের মাধ্যমে নিজের জন্য একটি নাম তৈরি করেছিল, যা শিশুদের জন্য ইলেকট্রনিক রিডিং সহায়ক হিসাবে ব্যবহৃত হয়েছিল।
- 1990 এর দশকের গোড়ার দিক থেকে, স্ট্যান্ডার্ড কম্পিউটার অপারেটিং সিস্টেমে স্পিচ সিন্থেসাইজার অন্তর্ভুক্ত করা হয়েছে, প্রাথমিকভাবে শ্রুতিলিপি এবং প্রতিলিপির জন্য। উপরন্তু, TTS এখন বিভিন্ন উদ্দেশ্যে ব্যবহার করা হয়, এবং কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং উন্নত হওয়ায় সিন্থেটিক ভয়েসগুলি উল্লেখযোগ্যভাবে নির্ভুল হয়ে উঠেছে।
বক্তৃতা সংশ্লেষণ কিভাবে কাজ করে?
বক্তৃতা সংশ্লেষণ তিনটি পর্যায়ে কাজ করে: টেক্সট থেকে শব্দ, শব্দ থেকে ধ্বনি এবং শব্দ থেকে ধ্বনি।
1. টেক্সট টু শব্দ
বক্তৃতা সংশ্লেষণ প্রাক-প্রক্রিয়াকরণ বা স্বাভাবিককরণের মাধ্যমে শুরু হয়, যা একটি অনুচ্ছেদ পড়ার সর্বোত্তম উপায় বেছে নিয়ে অস্পষ্টতা হ্রাস করে। প্রাক-প্রক্রিয়াকরণের মধ্যে পাঠ্য পড়া এবং পরিষ্কার করা জড়িত, তাই কম্পিউটার এটি আরও নিখুঁতভাবে পড়তে পারে। সংখ্যা, তারিখ, সময়, সংক্ষিপ্ত রূপ, সংক্ষিপ্ত শব্দ এবং বিশেষ অক্ষরগুলির একটি অনুবাদ প্রয়োজন। সর্বাধিক সম্ভাব্য উচ্চারণ নির্ধারণ করতে, তারা পরিসংখ্যানগত সম্ভাবনা বা নিউরাল নেটওয়ার্ক ব্যবহার করে।
হোমোগ্রাফ—যেসব শব্দের উচ্চারণ একই রকম কিন্তু ভিন্ন অর্থের প্রাক-প্রক্রিয়াকরণের মাধ্যমে পরিচালনার প্রয়োজন হয়। এছাড়াও, একটি স্পিচ সিন্থেসাইজার বুঝতে পারে না “আমি গাড়ি বিক্রি করি” কারণ “সেল” উচ্চারণ করা যেতে পারে, “সেল।” বানানটি স্বীকৃতি দিয়ে (“আমার কাছে একটি সেল ফোন আছে”), কেউ অনুমান করতে পারে যে “আমি গাড়ি বিক্রি করি” সঠিক। জটিল শব্দভান্ডার সহ মানুষের ভয়েসকে পাঠ্যে রূপান্তর করার জন্য একটি বক্তৃতা স্বীকৃতি সমাধান।
2. ধ্বনিতে শব্দ
শব্দগুলি নির্ধারণ করার পরে, স্পিচ সিন্থেসাইজার সেই শব্দগুলি সম্বলিত শব্দ তৈরি করে। প্রতিটি কম্পিউটারে শব্দের একটি বড় বর্ণানুক্রমিক তালিকা এবং প্রতিটি শব্দকে কীভাবে উচ্চারণ করতে হয় সে সম্পর্কে তথ্য প্রয়োজন। তাদের প্রতিটি শব্দের শব্দ তৈরি করে এমন ধ্বনিগুলির একটি তালিকা প্রয়োজন। Phonemes গুরুত্বপূর্ণ কারণ ইংরেজি বর্ণমালায় মাত্র 26টি অক্ষর আছে কিন্তু 40টিরও বেশি ধ্বনি।
তাত্ত্বিকভাবে, যদি একটি কম্পিউটারে শব্দ এবং ধ্বনিগুলির একটি অভিধান থাকে, তবে এটি যা করতে হবে তা হল একটি শব্দ পড়া, অভিধানে এটি সন্ধান করা এবং তারপরে সংশ্লিষ্ট ধ্বনিগুলি পড়া। যাইহোক, অনুশীলনে, এটি প্রদর্শিত হওয়ার চেয়ে অনেক বেশি জটিল।
বিকল্প পদ্ধতিতে লিখিত শব্দগুলিকে গ্রাফিমগুলিতে ভেঙে ফেলা এবং সাধারণ নিয়মগুলি ব্যবহার করে তাদের সাথে সামঞ্জস্যপূর্ণ ধ্বনি তৈরি করা জড়িত।
3. শব্দের জন্য Phonemes
কম্পিউটার এখন টেক্সটকে ফোনমেসের তালিকায় রূপান্তর করেছে। কিন্তু বিভিন্ন ভাষায় পাঠ্যকে বক্তৃতায় রূপান্তর করার সময় কম্পিউটার উচ্চস্বরে পড়ার মৌলিক ধ্বনিগুলি কীভাবে খুঁজে পাবে? এই তিনটি পন্থা আছে.
- শুরু করার জন্য, মানুষের রেকর্ডিং বলছে ফোনেম ব্যবহার করবে।
- দ্বিতীয় পদ্ধতি হল কম্পিউটারের জন্য মৌলিক শব্দ ফ্রিকোয়েন্সি ব্যবহার করে ধ্বনি তৈরি করা।
- চূড়ান্ত পন্থা হল উচ্চ-মানের অ্যালগরিদম সহ প্রাকৃতিক-শব্দের মাধ্যমে রিয়েল-টাইমে মানুষের ভয়েস কৌশল অনুকরণ করা।
সংঘবদ্ধ সংশ্লেষণ
রেকর্ড করা মানুষের কণ্ঠস্বর ব্যবহার করে এমন স্পিচ সিন্থেসাইজারগুলিকে অবশ্যই অল্প পরিমাণে মানব শব্দের সাথে প্রিলোড করা উচিত যা ম্যানিপুলেট করা যেতে পারে। এছাড়াও, এটি একটি মানুষের বক্তৃতার উপর ভিত্তি করে যা রেকর্ড করা হয়েছে।
ফরম্যান্ট সিন্থেসিস কি?
ফরম্যান্ট হল শব্দের 3-5 কী (অনুনাদিত) ফ্রিকোয়েন্সি যা মানুষের ভোকাল কর্ড দ্বারা উত্পন্ন এবং একত্রিত হয়ে কথা বা গানের শব্দ তৈরি করে। ফরম্যান্ট স্পিচ সিন্থেসাইজাররা যেকোন কিছু বলতে পারে, যার মধ্যে অস্তিত্বহীন এবং বিদেশী শব্দ যা তারা কখনও শোনেনি। সংশ্লেষিত বক্তৃতা আউটপুট তৈরির জন্য সংযোজন সংশ্লেষণ এবং শারীরিক মডেলিং সংশ্লেষণ ব্যবহার করা হয়।
Articulatory সংশ্লেষণ কি?
আর্টিকুলেটরি সংশ্লেষণ হল জটিল মানব ভোকাল ট্র্যাক্টের অনুকরণ করে এবং সেখানে ঘটে যাওয়া প্রক্রিয়াটিকে উচ্চারণ করে কম্পিউটারকে কথা বলা। এর জটিলতার কারণে, এটি এমন একটি পদ্ধতি যা এখন পর্যন্ত সবচেয়ে কম গবেষকরা অধ্যয়ন করেছেন।
সংক্ষেপে, ভয়েস সংশ্লেষণ সফ্টওয়্যার/ টেক্সট-টু-স্পীচ সংশ্লেষণ ব্যবহারকারীদের লিখিত পাঠ্য দেখতে, শুনতে এবং একই সময়ে উচ্চস্বরে পড়তে দেয়। বিভিন্ন সফ্টওয়্যার কম্পিউটার-উত্পাদিত এবং মানব-রেকর্ড করা উভয় ভয়েস ব্যবহার করে। বক্তৃতা সংশ্লেষণ আরও জনপ্রিয় হয়ে উঠছে যেহেতু গ্রাহকের সম্পৃক্ততা এবং সাংগঠনিক প্রক্রিয়া স্ট্রিমলাইনের চাহিদা বাড়ছে। এটি দীর্ঘমেয়াদী লাভের সুবিধা দেয়।