বক্তৃতা সংশ্লেষকরা কর্মক্ষেত্রের সংস্কৃতিকে রূপান্তরিত করছে। একটি বক্তৃতা সংশ্লেষণ পাঠ্যটি পড়ে। টেক্সট-টু-স্পিচ হল যখন একটি কম্পিউটার উচ্চস্বরে একটি শব্দ পড়ে। এটি হল মেশিনগুলিকে বিভিন্ন বয়স এবং লিঙ্গের লোকের মতো সহজভাবে কথা বলতে হবে। টেক্সট-টু-স্পিচ ইঞ্জিনগুলি ডিজিটাল পরিষেবাগুলির হিসাবে আরও জনপ্রিয় হয়ে উঠছে এবং ভয়েস স্বীকৃতি বৃদ্ধি পাচ্ছে।

বক্তৃতা সংশ্লেষণ কি?

বক্তৃতা সংশ্লেষণ, যা টেক্সট-টু-স্পীচ (টিটিএস সিস্টেম) নামেও পরিচিত, এটি মানুষের ভয়েসের একটি কম্পিউটার-উত্পাদিত সিমুলেশন। স্পিচ সিন্থেসাইজার লিখিত শব্দকে কথ্য ভাষায় রূপান্তর করে।

একটি সাধারণ দিন জুড়ে, আপনি বিভিন্ন ধরণের সিন্থেটিক বক্তৃতা সম্মুখীন হতে পারেন। অ্যাপস, স্মার্ট স্পিকার এবং ওয়্যারলেস হেডফোনগুলির সাহায্যে স্পিচ সংশ্লেষণ প্রযুক্তি, উন্নতির মাধ্যমে জীবনকে সহজ করে তোলে:

বক্তৃতা সংশ্লেষণের ইতিহাস কী?

বক্তৃতা সংশ্লেষণ কিভাবে কাজ করে?

বক্তৃতা সংশ্লেষণ তিনটি পর্যায়ে কাজ করে: টেক্সট থেকে শব্দ, শব্দ থেকে ধ্বনি এবং শব্দ থেকে ধ্বনি।

1. টেক্সট টু শব্দ

বক্তৃতা সংশ্লেষণ প্রাক-প্রক্রিয়াকরণ বা স্বাভাবিককরণের মাধ্যমে শুরু হয়, যা একটি অনুচ্ছেদ পড়ার সর্বোত্তম উপায় বেছে নিয়ে অস্পষ্টতা হ্রাস করে। প্রাক-প্রক্রিয়াকরণের মধ্যে পাঠ্য পড়া এবং পরিষ্কার করা জড়িত, তাই কম্পিউটার এটি আরও নিখুঁতভাবে পড়তে পারে। সংখ্যা, তারিখ, সময়, সংক্ষিপ্ত রূপ, আদ্যক্ষর এবং বিশেষ অক্ষরের অনুবাদ প্রয়োজন। সর্বাধিক সম্ভাব্য উচ্চারণ নির্ধারণ করতে, তারা পরিসংখ্যানগত সম্ভাবনা বা নিউরাল নেটওয়ার্ক ব্যবহার করে।

হোমোগ্রাফ—যেসব শব্দের উচ্চারণ একই রকম কিন্তু ভিন্ন অর্থের প্রাক-প্রক্রিয়াকরণের মাধ্যমে পরিচালনার প্রয়োজন হয়। এছাড়াও, একটি স্পিচ সিন্থেসাইজার বুঝতে পারে না “আমি গাড়ি বিক্রি করি” কারণ “সেল” উচ্চারণ করা যেতে পারে “সেল।” বানানটি স্বীকৃতি দিয়ে (“আমার কাছে একটি সেল ফোন আছে”), কেউ অনুমান করতে পারে যে “আমি গাড়ি বিক্রি করি” সঠিক। জটিল শব্দভান্ডার সহ মানুষের ভয়েসকে পাঠ্যে রূপান্তর করার জন্য একটি বক্তৃতা স্বীকৃতি সমাধান।

2. ধ্বনিতে শব্দ

শব্দগুলি নির্ধারণ করার পরে, স্পিচ সিন্থেসাইজার সেই শব্দগুলি সম্বলিত শব্দ তৈরি করে। প্রতিটি কম্পিউটারে শব্দের একটি বড় বর্ণানুক্রমিক তালিকা এবং প্রতিটি শব্দকে কীভাবে উচ্চারণ করতে হয় সে সম্পর্কে তথ্য প্রয়োজন। তাদের প্রতিটি শব্দের শব্দ তৈরি করে এমন ধ্বনিগুলির একটি তালিকা প্রয়োজন। Phonemes গুরুত্বপূর্ণ কারণ ইংরেজি বর্ণমালায় মাত্র 26টি অক্ষর আছে কিন্তু 40টিরও বেশি ধ্বনি।

তাত্ত্বিকভাবে, যদি একটি কম্পিউটারে শব্দ এবং ধ্বনিগুলির একটি অভিধান থাকে, তবে এটি যা করতে হবে তা হল একটি শব্দ পড়া, অভিধানে এটি সন্ধান করা এবং তারপরে সংশ্লিষ্ট ধ্বনিগুলি পড়া। যাইহোক, অনুশীলনে, এটি প্রদর্শিত হওয়ার চেয়ে অনেক বেশি জটিল।

বিকল্প পদ্ধতিতে লিখিত শব্দগুলিকে গ্রাফিমগুলিতে ভেঙে ফেলা এবং সাধারণ নিয়মগুলি ব্যবহার করে তাদের সাথে সামঞ্জস্যপূর্ণ ধ্বনি তৈরি করা জড়িত।

3. শব্দের জন্য Phonemes

কম্পিউটার এখন টেক্সটকে ফোনমেসের তালিকায় রূপান্তর করেছে। কিন্তু বিভিন্ন ভাষায় পাঠ্যকে বক্তৃতায় রূপান্তর করার সময় কম্পিউটার উচ্চস্বরে পড়ার মৌলিক ধ্বনিগুলি কীভাবে খুঁজে পাবে? এই তিনটি পন্থা আছে.

সংঘবদ্ধ সংশ্লেষণ

রেকর্ড করা মানুষের কণ্ঠস্বর ব্যবহার করে এমন স্পিচ সিন্থেসাইজারগুলিকে অবশ্যই অল্প পরিমাণে মানব শব্দের সাথে প্রিলোড করা উচিত যা ম্যানিপুলেট করা যেতে পারে। এছাড়াও, এটি রেকর্ড করা হয়েছে যে মানুষের বক্তৃতা উপর ভিত্তি করে.

ফরম্যান্ট সিন্থেসিস কি?

ফরম্যান্ট হল শব্দের 3-5 কী (অনুনাদিত) ফ্রিকোয়েন্সি যা মানুষের ভোকাল কর্ড দ্বারা উত্পন্ন এবং একত্রিত হয়ে কথা বা গানের শব্দ তৈরি করে। ফরম্যান্ট স্পিচ সিন্থেসাইজাররা যেকোন কিছু বলতে পারে, যার মধ্যে অস্তিত্বহীন এবং বিদেশী শব্দ যা তারা কখনও শোনেনি। সংশ্লেষিত বক্তৃতা আউটপুট তৈরির জন্য সংযোজন সংশ্লেষণ এবং শারীরিক মডেলিং সংশ্লেষণ ব্যবহার করা হচ্ছে।

Articulatory সংশ্লেষণ কি?

আর্টিকুলেটরি সংশ্লেষণ হল জটিল মানব ভোকাল ট্র্যাক্টের অনুকরণ করে এবং সেখানে ঘটে যাওয়া প্রক্রিয়াটিকে উচ্চারণ করে কম্পিউটারকে কথা বলা। এর জটিলতার কারণে, এটি এমন একটি পদ্ধতি যা এখন পর্যন্ত সবচেয়ে কম গবেষকরা অধ্যয়ন করেছেন।

সংক্ষেপে, ভয়েস সংশ্লেষণ সফ্টওয়্যার/ টেক্সট-টু-স্পীচ সংশ্লেষণ ব্যবহারকারীদের লিখিত পাঠ্য দেখতে, শুনতে এবং একই সময়ে উচ্চস্বরে পড়তে দেয়। বিভিন্ন সফ্টওয়্যার কম্পিউটার-উত্পাদিত এবং মানব-রেকর্ড করা উভয় ভয়েস ব্যবহার করে। বক্তৃতা সংশ্লেষণ আরও জনপ্রিয় হয়ে উঠছে যেহেতু গ্রাহকের সম্পৃক্ততা এবং সাংগঠনিক প্রক্রিয়া স্ট্রিমলাইনের চাহিদা বাড়ছে। এটি দীর্ঘমেয়াদী লাভের সুবিধা দেয়।