تعمل آلات تركيب الكلام على تغيير ثقافة مكان العمل. تركيب الكلام يقرأ النص. يحدث تحويل النص إلى كلام عندما يقرأ الكمبيوتر كلمة بصوت عالٍ. إنه جعل الآلات تتحدث ببساطة وتبدو مثل الأشخاص من مختلف الأعمار والأجناس. أصبحت محركات تحويل النص إلى كلام أكثر شيوعًا مع نمو الخدمات الرقمية ونمو التعرف على الصوت .

ما هو تركيب الكلام؟

توليف الكلام ، المعروف أيضًا باسم تحويل النص إلى كلام (نظام TTS) ، هو محاكاة يتم إنشاؤها بواسطة الكمبيوتر للصوت البشري. تعمل آلات تركيب الكلام على تحويل الكلمات المكتوبة إلى لغة منطوقة.

خلال يوم عادي ، من المحتمل أن تواجه أنواعًا مختلفة من الكلام الاصطناعي. تعمل تقنية تركيب الكلام ، بمساعدة التطبيقات ومكبرات الصوت الذكية وسماعات الرأس اللاسلكية ، على تسهيل الحياة من خلال تحسين:

ما هو تاريخ تركيب الكلام؟

كيف يعمل تركيب الكلام؟

يعمل تركيب الكلام على ثلاث مراحل: تحويل النص إلى كلمات ، والكلمات إلى الصوتيات ، وفونيمات الصوت.

1. نص إلى كلمات

يبدأ تركيب الكلام بالمعالجة المسبقة أو التطبيع ، مما يقلل الغموض عن طريق اختيار أفضل طريقة لقراءة المقطع. تتضمن المعالجة المسبقة قراءة النص وتنظيفه ، لذلك يقرأه الكمبيوتر بدقة أكبر. تحتاج الأرقام والتواريخ والأوقات والاختصارات والمختصرات والأحرف الخاصة إلى ترجمة. لتحديد النطق الأكثر احتمالا ، يستخدمون الاحتمال الإحصائي أو الشبكات العصبية.

Homographs – الكلمات التي لها نطق متشابه ولكن معاني مختلفة تتطلب المعالجة المسبقة. أيضًا ، لا يستطيع مُركِّب الكلام فهم “أبيع السيارة” لأنه يمكن نطق كلمة “بيع” ، “الخلية”. من خلال التعرف على التهجئة (“لدي هاتف محمول”) ، يمكن للمرء أن يخمن أن عبارة “أنا أبيع السيارة” صحيحة. حل للتعرف على الكلام لتحويل الصوت البشري إلى نص حتى مع استخدام مفردات معقدة.

2. كلمات للفونيمات

بعد تحديد الكلمات ، يُصدر مُركِّب الكلام أصواتًا تحتوي على تلك الكلمات. يتطلب كل جهاز كمبيوتر قائمة أبجدية كبيرة من الكلمات والمعلومات حول كيفية نطق كل كلمة. سيحتاجون إلى قائمة الأصوات التي يتكون منها صوت كل كلمة. تعتبر الصوتيات أمرًا بالغ الأهمية نظرًا لوجود 26 حرفًا فقط في الأبجدية الإنجليزية ولكن يوجد أكثر من 40 صوتًا.

من الناحية النظرية ، إذا كان الكمبيوتر يحتوي على قاموس للكلمات والصوتيات ، فكل ما يحتاج إليه هو قراءة كلمة والبحث عنها في القاموس ، ثم قراءة الصوتيات المقابلة. ومع ذلك ، من الناحية العملية ، فهو أكثر تعقيدًا مما يبدو.

تتضمن الطريقة البديلة تقسيم الكلمات المكتوبة إلى حروف مكتوبة وتوليد الصوتيات التي تتوافق معها باستخدام قواعد بسيطة.

3. الصوتيات في الصوت

قام الكمبيوتر الآن بتحويل النص إلى قائمة بالصوتيات. ولكن كيف يمكنك العثور على الصوتيات الأساسية التي يقرأها الكمبيوتر بصوت عالٍ عندما يحول النص إلى كلام بلغات مختلفة؟ هناك ثلاث طرق لهذا.

التوليف المتسلسل

يجب أن تكون مُركِّبات الكلام التي تستخدم أصواتًا بشرية مسجَّلة محمَّلة مسبقًا بكمية صغيرة من الصوت البشري يمكن التلاعب بها. كما أنه يعتمد على الكلام البشري الذي تم تسجيله.

ما هو التركيب اللغوي؟

المعادلات هي الترددات الرئيسية (الرنينية) من 3-5 للصوت التي يولدها ويجمعها الحبل الصوتي البشري لإنتاج صوت الكلام أو الغناء. يمكن لمُصنِّعي الكلام أن يقولوا أي شيء ، بما في ذلك الكلمات غير الموجودة والأجنبية التي لم يسمعوا بها من قبل. يتم استخدام التوليف الإضافي والتوليف المادي للنمذجة لتوليد إخراج الكلام المركب.

ما هو التوليف المفصلي؟

يجعل التوليف المفصلي أجهزة الكمبيوتر تتحدث عن طريق محاكاة المسالك الصوتية البشرية المعقدة وتوضيح العملية التي تحدث هناك. نظرًا لتعقيدها ، فهي الطريقة التي درسها الباحثون الأقل على الأقل حتى الآن.

باختصار ، يتيح برنامج تركيب الصوت / تركيب تحويل النص إلى كلام للمستخدمين رؤية النص المكتوب وسماعه وقراءته بصوت عالٍ في نفس الوقت. تستخدم البرامج المختلفة الأصوات التي تم إنشاؤها بواسطة الكمبيوتر والأصوات المسجلة. أصبح تركيب الكلام أكثر شيوعًا مع تزايد الطلب على مشاركة العملاء وتبسيط العمليات التنظيمية. يسهل الربحية على المدى الطويل.