تعمل آلات تركيب الكلام على تغيير ثقافة مكان العمل. تركيب الكلام يقرأ النص. يحدث تحويل النص إلى كلام عندما يقرأ الكمبيوتر كلمة بصوت عالٍ. إنه جعل الآلات تتحدث ببساطة وتبدو مثل الأشخاص من مختلف الأعمار والأجناس. أصبحت محركات تحويل النص إلى كلام أكثر شيوعًا مع نمو الخدمات الرقمية ونمو التعرف على الصوت .
ما هو تركيب الكلام؟
توليف الكلام ، المعروف أيضًا باسم تحويل النص إلى كلام (نظام TTS) ، هو محاكاة يتم إنشاؤها بواسطة الكمبيوتر للصوت البشري. تعمل آلات تركيب الكلام على تحويل الكلمات المكتوبة إلى لغة منطوقة.
خلال يوم عادي ، من المحتمل أن تواجه أنواعًا مختلفة من الكلام الاصطناعي. تعمل تقنية تركيب الكلام ، بمساعدة التطبيقات ومكبرات الصوت الذكية وسماعات الرأس اللاسلكية ، على تسهيل الحياة من خلال تحسين:
- إمكانية الوصول: إذا كنت تعاني من إعاقة بصرية أو معاق ، فيمكنك استخدام نظام تحويل النص إلى كلام لقراءة محتوى نصي أو قارئ شاشة للتحدث بصوت عالٍ. على سبيل المثال ، تعد أداة تحويل النص إلى كلام على TikTok ميزة وصول شائعة تتيح لأي شخص استخدام محتوى الوسائط الاجتماعية المرئي.
- التنقل: أثناء القيادة ، لا يمكنك إلقاء نظرة على الخريطة ، ولكن يمكنك الاستماع إلى التعليمات. مهما كانت وجهتك ، يمكن أن توفر معظم تطبيقات GPS تنبيهات صوتية مفيدة أثناء سفرك ، وبعضها بلغات متعددة.
- المساعدة الصوتية متاحة. تعد المساعِدات الصوتية الذكية مثل Siri (iPhone) و Alexa (Android) ممتازة لتعدد المهام ، مما يسمح لك بطلب البيتزا أو الاستماع إلى تقرير الطقس أثناء أداء مهام جسدية أخرى (مثل غسل الأطباق) بفضل وضوحها. في حين أن هؤلاء المساعدين يرتكبون أخطاء في بعض الأحيان ويتم تصميمهم في كثير من الأحيان كشخصيات خاضعة للإناث ، إلا أنهم يبدون أقرب إلى الواقع.
ما هو تاريخ تركيب الكلام؟
- كاد المخترع Wolfgang von Kempelen قد وصل إلى هناك مع منفاخ وأنابيب في القرن الثامن عشر.
- في عام 1928 ، ابتكر هومر دبليو دادلي ، وهو عالم أمريكي في مختبرات بيل / مختبرات بيل ، مشفر Vocoder ، وهو محلل إلكتروني للكلام. طور دودلي Vocoder إلى Voder ، وهو مركب إلكتروني للكلام يعمل من خلال لوحة مفاتيح.
- قام هومر دودلي من مختبرات بيل بعرض أول مركب صوتي وظيفي في العالم ، Voder ، في المعرض العالمي لعام 1939 في مدينة نيويورك. مطلوب عامل بشري لتشغيل مفاتيح الجهاز الشبيه بالأعضاء ودواسة القدم.
- بنى الباحثون على Voder خلال العقود القليلة القادمة. تم تطوير أول أنظمة تخليق الكلام المعتمدة على الكمبيوتر في أواخر الخمسينيات من القرن الماضي ، وصنعت مختبرات بيل التاريخ مرة أخرى في عام 1961 عندما ألقى الفيزيائي جون لاري كيلي جونيور حديثًا في IBM 704.
- جعلت الدوائر المتكاملة منتجات تخليق الكلام التجارية ممكنة في الاتصالات السلكية واللاسلكية وألعاب الفيديو في السبعينيات والثمانينيات. كانت شريحة Vortex ، المستخدمة في ألعاب الأركيد ، واحدة من أولى الدوائر المتكاملة لتركيب الكلام.
- صنعت شركة Texas Instruments اسمًا لنفسها في عام 1980 باستخدام جهاز النطق Speak N Spell ، والذي تم استخدامه كأداة مساعدة في القراءة الإلكترونية للأطفال.
- منذ أوائل التسعينيات ، تضمنت أنظمة تشغيل الكمبيوتر القياسية مُركِّبات الكلام ، بشكل أساسي للإملاء والنسخ. بالإضافة إلى ذلك ، يتم استخدام تحويل النص إلى كلام (TTS) الآن لأغراض مختلفة ، وأصبحت الأصوات الاصطناعية دقيقة بشكل ملحوظ مع تقدم الذكاء الاصطناعي والتعلم الآلي.
كيف يعمل تركيب الكلام؟
يعمل تركيب الكلام على ثلاث مراحل: تحويل النص إلى كلمات ، والكلمات إلى الصوتيات ، وفونيمات الصوت.
1. نص إلى كلمات
يبدأ تركيب الكلام بالمعالجة المسبقة أو التطبيع ، مما يقلل الغموض عن طريق اختيار أفضل طريقة لقراءة المقطع. تتضمن المعالجة المسبقة قراءة النص وتنظيفه ، لذلك يقرأه الكمبيوتر بدقة أكبر. تحتاج الأرقام والتواريخ والأوقات والاختصارات والمختصرات والأحرف الخاصة إلى ترجمة. لتحديد النطق الأكثر احتمالا ، يستخدمون الاحتمال الإحصائي أو الشبكات العصبية.
Homographs – الكلمات التي لها نطق متشابه ولكن معاني مختلفة تتطلب المعالجة المسبقة. أيضًا ، لا يستطيع مُركِّب الكلام فهم “أبيع السيارة” لأنه يمكن نطق كلمة “بيع” ، “الخلية”. من خلال التعرف على التهجئة (“لدي هاتف محمول”) ، يمكن للمرء أن يخمن أن عبارة “أنا أبيع السيارة” صحيحة. حل للتعرف على الكلام لتحويل الصوت البشري إلى نص حتى مع استخدام مفردات معقدة.
2. كلمات للفونيمات
بعد تحديد الكلمات ، يُصدر مُركِّب الكلام أصواتًا تحتوي على تلك الكلمات. يتطلب كل جهاز كمبيوتر قائمة أبجدية كبيرة من الكلمات والمعلومات حول كيفية نطق كل كلمة. سيحتاجون إلى قائمة الأصوات التي يتكون منها صوت كل كلمة. تعتبر الصوتيات أمرًا بالغ الأهمية نظرًا لوجود 26 حرفًا فقط في الأبجدية الإنجليزية ولكن يوجد أكثر من 40 صوتًا.
من الناحية النظرية ، إذا كان الكمبيوتر يحتوي على قاموس للكلمات والصوتيات ، فكل ما يحتاج إليه هو قراءة كلمة والبحث عنها في القاموس ، ثم قراءة الصوتيات المقابلة. ومع ذلك ، من الناحية العملية ، فهو أكثر تعقيدًا مما يبدو.
تتضمن الطريقة البديلة تقسيم الكلمات المكتوبة إلى حروف مكتوبة وتوليد الصوتيات التي تتوافق معها باستخدام قواعد بسيطة.
3. الصوتيات في الصوت
قام الكمبيوتر الآن بتحويل النص إلى قائمة بالصوتيات. ولكن كيف يمكنك العثور على الصوتيات الأساسية التي يقرأها الكمبيوتر بصوت عالٍ عندما يحول النص إلى كلام بلغات مختلفة؟ هناك ثلاث طرق لهذا.
- للبدء ، تسجيلات البشر الذين يقولون أن الصوتيات سوف تستخدم.
- الطريقة الثانية هي أن يقوم الكمبيوتر بتوليد الصوتيات باستخدام ترددات الصوت الأساسية.
- يتمثل النهج الأخير في محاكاة تقنية الصوت البشري في الوقت الفعلي من خلال الصوت الطبيعي باستخدام خوارزميات عالية الجودة.
التوليف المتسلسل
يجب أن تكون مُركِّبات الكلام التي تستخدم أصواتًا بشرية مسجَّلة محمَّلة مسبقًا بكمية صغيرة من الصوت البشري يمكن التلاعب بها. كما أنه يعتمد على الكلام البشري الذي تم تسجيله.
ما هو التركيب اللغوي؟
المعادلات هي الترددات الرئيسية (الرنينية) من 3-5 للصوت التي يولدها ويجمعها الحبل الصوتي البشري لإنتاج صوت الكلام أو الغناء. يمكن لمُصنِّعي الكلام أن يقولوا أي شيء ، بما في ذلك الكلمات غير الموجودة والأجنبية التي لم يسمعوا بها من قبل. يتم استخدام التوليف الإضافي والتوليف المادي للنمذجة لتوليد إخراج الكلام المركب.
ما هو التوليف المفصلي؟
يجعل التوليف المفصلي أجهزة الكمبيوتر تتحدث عن طريق محاكاة المسالك الصوتية البشرية المعقدة وتوضيح العملية التي تحدث هناك. نظرًا لتعقيدها ، فهي الطريقة التي درسها الباحثون الأقل على الأقل حتى الآن.
باختصار ، يتيح برنامج تركيب الصوت / تركيب تحويل النص إلى كلام للمستخدمين رؤية النص المكتوب وسماعه وقراءته بصوت عالٍ في نفس الوقت. تستخدم البرامج المختلفة الأصوات التي تم إنشاؤها بواسطة الكمبيوتر والأصوات المسجلة. أصبح تركيب الكلام أكثر شيوعًا مع تزايد الطلب على مشاركة العملاء وتبسيط العمليات التنظيمية. يسهل الربحية على المدى الطويل.