বক্তৃতা সংশ্লেষণ কিভাবে কাজ করে?

পাঠ্য বিশ্লেষণ এবং ভাষাগত প্রক্রিয়াকরণ

বক্তৃতা সংশ্লেষকরা কর্মক্ষেত্রের সংস্কৃতিকে রূপান্তরিত করছে। একটি বক্তৃতা সংশ্লেষণ পাঠ্যটি পড়ে। টেক্সট-টু-স্পিচ হল যখন একটি কম্পিউটার উচ্চস্বরে একটি শব্দ পড়ে। এটি হল মেশিনগুলিকে বিভিন্ন বয়স এবং লিঙ্গের লোকের মতো সহজভাবে কথা বলতে হবে। টেক্সট-টু-স্পিচ ইঞ্জিনগুলি ডিজিটাল পরিষেবাগুলির হিসাবে আরও জনপ্রিয় হয়ে উঠছে এবং ভয়েস স্বীকৃতি বৃদ্ধি পাচ্ছে।

বক্তৃতা সংশ্লেষণ কি?

বক্তৃতা সংশ্লেষণ, যা টেক্সট-টু-স্পীচ (টিটিএস সিস্টেম) নামেও পরিচিত, এটি মানুষের ভয়েসের একটি কম্পিউটার-উত্পাদিত সিমুলেশন। স্পিচ সিন্থেসাইজার লিখিত শব্দকে কথ্য ভাষায় রূপান্তর করে।

একটি সাধারণ দিন জুড়ে, আপনি বিভিন্ন ধরণের সিন্থেটিক বক্তৃতা সম্মুখীন হতে পারেন। অ্যাপস, স্মার্ট স্পিকার এবং ওয়্যারলেস হেডফোনগুলির সাহায্যে স্পিচ সংশ্লেষণ প্রযুক্তি, উন্নতির মাধ্যমে জীবনকে সহজ করে তোলে:

  • অ্যাক্সেসযোগ্যতা: আপনি যদি দৃষ্টি প্রতিবন্ধী বা অক্ষম হন, তাহলে আপনি পাঠ্য বিষয়বস্তু পড়ার জন্য টেক্সট টু স্পিচ সিস্টেম বা উচ্চস্বরে শব্দ বলার জন্য স্ক্রিন রিডার ব্যবহার করতে পারেন। উদাহরণস্বরূপ, TikTok-এ টেক্সট-টু-স্পিচ সিন্থেসাইজার হল একটি জনপ্রিয় অ্যাক্সেসিবিলিটি বৈশিষ্ট্য যা যে কেউ ভিজ্যুয়াল সোশ্যাল মিডিয়া সামগ্রী ব্যবহার করতে দেয়।
  • ন্যাভিগেশন: গাড়ি চালানোর সময়, আপনি একটি মানচিত্রের দিকে তাকাতে পারবেন না, তবে আপনি নির্দেশাবলী শুনতে পারেন। আপনার গন্তব্য যাই হোক না কেন, বেশিরভাগ GPS অ্যাপ আপনার ভ্রমণের সময় সহায়ক ভয়েস সতর্কতা প্রদান করতে পারে, কিছু একাধিক ভাষায়।
  • ভয়েস সহায়তা পাওয়া যায়। বুদ্ধিমান অডিও সহকারী যেমন Siri (iPhone) এবং Alexa (Android) মাল্টিটাস্কিংয়ের জন্য চমৎকার, আপনাকে তাদের বোধগম্যতার জন্য ধন্যবাদ অন্যান্য শারীরিক কাজ (যেমন, থালাবাসন ধোয়া) করার সময় পিজা অর্ডার করতে বা আবহাওয়ার প্রতিবেদন শোনার অনুমতি দেয়। যদিও এই সহকারীরা মাঝে মাঝে ভুল করে এবং প্রায়শই অধীনস্থ মহিলা চরিত্র হিসাবে ডিজাইন করা হয়, তারা বেশ প্রাণবন্ত শোনায়।

বক্তৃতা সংশ্লেষণের ইতিহাস কী?

  • উদ্ভাবক উলফগ্যাং ভন কেম্পেলেন প্রায় 18 শতকে বেলো এবং টিউব নিয়ে সেখানে পৌঁছেছিলেন।
  • 1928 সালে, বেল ল্যাবরেটরিজ/বেল ল্যাবসের একজন আমেরিকান বিজ্ঞানী হোমার ডব্লিউ ডুডলি একটি ইলেকট্রনিক স্পিচ অ্যানালাইজার ভোকোডার তৈরি করেন। ডুডলি ভোকোডারকে ভোডারে বিকশিত করে, একটি কীবোর্ডের মাধ্যমে চালিত একটি ইলেকট্রনিক স্পিচ সিন্থেসাইজার।
  • বেল ল্যাবরেটরিজের হোমার ডুডলি নিউ ইয়র্ক সিটিতে 1939 সালের বিশ্ব মেলায় বিশ্বের প্রথম কার্যকরী ভয়েস সিন্থেসাইজার, ভোডার প্রদর্শন করেছিলেন। বিশাল অঙ্গ-সদৃশ যন্ত্রপাতির চাবি এবং পায়ের প্যাডেল চালানোর জন্য একজন মানব অপারেটরের প্রয়োজন ছিল।
  • গবেষকরা পরবর্তী কয়েক দশক ধরে ভোডার তৈরি করেছেন। প্রথম কম্পিউটার-ভিত্তিক বক্তৃতা সংশ্লেষণ সিস্টেমগুলি 1950 এর দশকের শেষের দিকে বিকশিত হয়েছিল, এবং বেল ল্যাবরেটরিজ 1961 সালে আবার ইতিহাস তৈরি করেছিল যখন পদার্থবিদ জন ল্যারি কেলি জুনিয়র একটি IBM 704 বক্তৃতা দিয়েছিলেন।
  • ইন্টিগ্রেটেড সার্কিটগুলি 1970 এবং 1980 এর দশকে টেলিযোগাযোগ এবং ভিডিও গেমগুলিতে বাণিজ্যিক বক্তৃতা সংশ্লেষণ পণ্যগুলিকে সম্ভব করে তুলেছিল। ভোর্টেক্স চিপ, আর্কেড গেমগুলিতে ব্যবহৃত হয়, এটি ছিল প্রথম বক্তৃতা-সংশ্লেষণ সমন্বিত সার্কিটগুলির মধ্যে একটি।
  • টেক্সাস ইন্সট্রুমেন্টস 1980 সালে স্পিক এন স্পেল সিন্থেসাইজারের মাধ্যমে নিজের জন্য একটি নাম তৈরি করেছিল, যা শিশুদের জন্য ইলেকট্রনিক রিডিং সহায়ক হিসাবে ব্যবহৃত হয়েছিল।
  • 1990 এর দশকের গোড়ার দিক থেকে, স্ট্যান্ডার্ড কম্পিউটার অপারেটিং সিস্টেমে স্পিচ সিন্থেসাইজার অন্তর্ভুক্ত করা হয়েছে, প্রাথমিকভাবে শ্রুতিলিপি এবং প্রতিলিপির জন্য। উপরন্তু, TTS এখন বিভিন্ন উদ্দেশ্যে ব্যবহার করা হয়, এবং কৃত্রিম বুদ্ধিমত্তা এবং মেশিন লার্নিং উন্নত হওয়ায় সিন্থেটিক ভয়েসগুলি উল্লেখযোগ্যভাবে নির্ভুল হয়ে উঠেছে।

বক্তৃতা সংশ্লেষণ কিভাবে কাজ করে?

বক্তৃতা সংশ্লেষণ তিনটি পর্যায়ে কাজ করে: টেক্সট থেকে শব্দ, শব্দ থেকে ধ্বনি এবং শব্দ থেকে ধ্বনি।

1. টেক্সট টু শব্দ

বক্তৃতা সংশ্লেষণ প্রাক-প্রক্রিয়াকরণ বা স্বাভাবিককরণের মাধ্যমে শুরু হয়, যা একটি অনুচ্ছেদ পড়ার সর্বোত্তম উপায় বেছে নিয়ে অস্পষ্টতা হ্রাস করে। প্রাক-প্রক্রিয়াকরণের মধ্যে পাঠ্য পড়া এবং পরিষ্কার করা জড়িত, তাই কম্পিউটার এটি আরও নিখুঁতভাবে পড়তে পারে। সংখ্যা, তারিখ, সময়, সংক্ষিপ্ত রূপ, সংক্ষিপ্ত শব্দ এবং বিশেষ অক্ষরগুলির একটি অনুবাদ প্রয়োজন। সর্বাধিক সম্ভাব্য উচ্চারণ নির্ধারণ করতে, তারা পরিসংখ্যানগত সম্ভাবনা বা নিউরাল নেটওয়ার্ক ব্যবহার করে।

হোমোগ্রাফ—যেসব শব্দের উচ্চারণ একই রকম কিন্তু ভিন্ন অর্থের প্রাক-প্রক্রিয়াকরণের মাধ্যমে পরিচালনার প্রয়োজন হয়। এছাড়াও, একটি স্পিচ সিন্থেসাইজার বুঝতে পারে না “আমি গাড়ি বিক্রি করি” কারণ “সেল” উচ্চারণ করা যেতে পারে, “সেল।” বানানটি স্বীকৃতি দিয়ে (“আমার কাছে একটি সেল ফোন আছে”), কেউ অনুমান করতে পারে যে “আমি গাড়ি বিক্রি করি” সঠিক। জটিল শব্দভান্ডার সহ মানুষের ভয়েসকে পাঠ্যে রূপান্তর করার জন্য একটি বক্তৃতা স্বীকৃতি সমাধান।

2. ধ্বনিতে শব্দ

শব্দগুলি নির্ধারণ করার পরে, স্পিচ সিন্থেসাইজার সেই শব্দগুলি সম্বলিত শব্দ তৈরি করে। প্রতিটি কম্পিউটারে শব্দের একটি বড় বর্ণানুক্রমিক তালিকা এবং প্রতিটি শব্দকে কীভাবে উচ্চারণ করতে হয় সে সম্পর্কে তথ্য প্রয়োজন। তাদের প্রতিটি শব্দের শব্দ তৈরি করে এমন ধ্বনিগুলির একটি তালিকা প্রয়োজন। Phonemes গুরুত্বপূর্ণ কারণ ইংরেজি বর্ণমালায় মাত্র 26টি অক্ষর আছে কিন্তু 40টিরও বেশি ধ্বনি।

তাত্ত্বিকভাবে, যদি একটি কম্পিউটারে শব্দ এবং ধ্বনিগুলির একটি অভিধান থাকে, তবে এটি যা করতে হবে তা হল একটি শব্দ পড়া, অভিধানে এটি সন্ধান করা এবং তারপরে সংশ্লিষ্ট ধ্বনিগুলি পড়া। যাইহোক, অনুশীলনে, এটি প্রদর্শিত হওয়ার চেয়ে অনেক বেশি জটিল।

বিকল্প পদ্ধতিতে লিখিত শব্দগুলিকে গ্রাফিমগুলিতে ভেঙে ফেলা এবং সাধারণ নিয়মগুলি ব্যবহার করে তাদের সাথে সামঞ্জস্যপূর্ণ ধ্বনি তৈরি করা জড়িত।

3. শব্দের জন্য Phonemes

কম্পিউটার এখন টেক্সটকে ফোনমেসের তালিকায় রূপান্তর করেছে। কিন্তু বিভিন্ন ভাষায় পাঠ্যকে বক্তৃতায় রূপান্তর করার সময় কম্পিউটার উচ্চস্বরে পড়ার মৌলিক ধ্বনিগুলি কীভাবে খুঁজে পাবে? এই তিনটি পন্থা আছে.

  • শুরু করার জন্য, মানুষের রেকর্ডিং বলছে ফোনেম ব্যবহার করবে।
  • দ্বিতীয় পদ্ধতি হল কম্পিউটারের জন্য মৌলিক শব্দ ফ্রিকোয়েন্সি ব্যবহার করে ধ্বনি তৈরি করা।
  • চূড়ান্ত পন্থা হল উচ্চ-মানের অ্যালগরিদম সহ প্রাকৃতিক-শব্দের মাধ্যমে রিয়েল-টাইমে মানুষের ভয়েস কৌশল অনুকরণ করা।

সংঘবদ্ধ সংশ্লেষণ

রেকর্ড করা মানুষের কণ্ঠস্বর ব্যবহার করে এমন স্পিচ সিন্থেসাইজারগুলিকে অবশ্যই অল্প পরিমাণে মানব শব্দের সাথে প্রিলোড করা উচিত যা ম্যানিপুলেট করা যেতে পারে। এছাড়াও, এটি একটি মানুষের বক্তৃতার উপর ভিত্তি করে যা রেকর্ড করা হয়েছে।

ফরম্যান্ট সিন্থেসিস কি?

ফরম্যান্ট হল শব্দের 3-5 কী (অনুনাদিত) ফ্রিকোয়েন্সি যা মানুষের ভোকাল কর্ড দ্বারা উত্পন্ন এবং একত্রিত হয়ে কথা বা গানের শব্দ তৈরি করে। ফরম্যান্ট স্পিচ সিন্থেসাইজাররা যেকোন কিছু বলতে পারে, যার মধ্যে অস্তিত্বহীন এবং বিদেশী শব্দ যা তারা কখনও শোনেনি। সংশ্লেষিত বক্তৃতা আউটপুট তৈরির জন্য সংযোজন সংশ্লেষণ এবং শারীরিক মডেলিং সংশ্লেষণ ব্যবহার করা হয়।

Articulatory সংশ্লেষণ কি?

আর্টিকুলেটরি সংশ্লেষণ হল জটিল মানব ভোকাল ট্র্যাক্টের অনুকরণ করে এবং সেখানে ঘটে যাওয়া প্রক্রিয়াটিকে উচ্চারণ করে কম্পিউটারকে কথা বলা। এর জটিলতার কারণে, এটি এমন একটি পদ্ধতি যা এখন পর্যন্ত সবচেয়ে কম গবেষকরা অধ্যয়ন করেছেন।

সংক্ষেপে, ভয়েস সংশ্লেষণ সফ্টওয়্যার/ টেক্সট-টু-স্পীচ সংশ্লেষণ ব্যবহারকারীদের লিখিত পাঠ্য দেখতে, শুনতে এবং একই সময়ে উচ্চস্বরে পড়তে দেয়। বিভিন্ন সফ্টওয়্যার কম্পিউটার-উত্পাদিত এবং মানব-রেকর্ড করা উভয় ভয়েস ব্যবহার করে। বক্তৃতা সংশ্লেষণ আরও জনপ্রিয় হয়ে উঠছে যেহেতু গ্রাহকের সম্পৃক্ততা এবং সাংগঠনিক প্রক্রিয়া স্ট্রিমলাইনের চাহিদা বাড়ছে। এটি দীর্ঘমেয়াদী লাভের সুবিধা দেয়।

পোস্ট শেয়ার করুন:

অত্যাধুনিক এআই

এখন স্পিকার দিয়ে শুরু করুন!

সম্পরকিত প্রবন্ধ

TikTok-এ টেক্সট-টু-স্পিচ ফিচার খোলা হচ্ছে
Speaktor

TikTok এ বক্তৃতার পাঠ্য কীভাবে ব্যবহার করবেন?

TikTok এর সবচেয়ে বড় তারকাদের মধ্যে একটি হল এর টেক্সট-টু-স্পীচ ভয়েস বৈশিষ্ট্য। আপনার ভিডিওতে কেবল পাঠ্যকে ওভারলে করার পরিবর্তে, আপনি এখন কয়েকটি বিকল্পের মাধ্যমে সাবটাইটেলগুলিকে উচ্চস্বরে পড়তে পারেন৷ টেক্সট-টু-স্পিচ বৈশিষ্ট্যটি

Speaktor

ডিসকর্ডে টেক্সট টু স্পিচ কীভাবে ব্যবহার করবেন?

আপনার বার্তাগুলি পড়তে কীভাবে বিরোধ তৈরি করবেন? এর সহজতম ফর্মে, আপনি টেক্সট-টু-স্পীচ ব্যবহার করতে “/tts” কমান্ড ব্যবহার করতে পারেন। /tts টাইপ করার পরে, একটি স্থান ছেড়ে আপনার বার্তা লিখুন; ভয়েস

Google ডক্সে টেক্সট-টু-স্পিচ সেটিংস কাস্টমাইজ করা
Speaktor

কিভাবে গুগল ডক্সের মাধ্যমে টেক্সট টু স্পিচ চালু করবেন?

কিভাবে Google এর “স্ক্রিন রিডার” টেক্সট টু স্পিচ এক্সটেনশন সক্রিয় করবেন? প্রথম জিনিসটি জেনে নিন যে শুধুমাত্র গুগল ক্রোম ব্রাউজারটি গুগল “স্ক্রিন রিডার” এক্সটেনশনকে সমর্থন করে যা গুগল নিজেই টেক্সট-টু-স্পীচ

Instagram পাঠ্যকে বক্তৃতায় রূপান্তর করুন
Speaktor

কীভাবে Instagram পাঠ্যকে বক্তৃতায় রূপান্তর করবেন?

কীভাবে Instagram রিলে বক্তৃতায় পাঠ্য যুক্ত করবেন? টেক্সট-টু-স্পীচ Instagram সাম্প্রতিক আপডেটগুলির মধ্যে একটি। Instagram রিড-টেক্সট-এলাউড বৈশিষ্ট্যটি পাঠ্যকে অডিওতে রূপান্তরিত করে। উপরন্তু, এটি এখন বিভিন্ন পুরুষ এবং মহিলা কণ্ঠ সমর্থন করে।