כיצד פועלת סינתזת דיבור?

Speaktor
דצמבר 23, 2022

סינתיסייזרים לדיבור משנים את התרבות במקום העבודה. סינתזת דיבור קוראת את הטקסט. טקסט לדיבור הוא כאשר מחשב קורא מילה בקול. זה שמכונות מדברות בפשטות ונשמעות כמו אנשים בגילאים ומגדרים שונים. מנועי טקסט לדיבור הופכים פופולריים יותר ככל שהשירותים הדיגיטליים והזיהוי הקולי הולכים וגדלים.

מהי סינתזת דיבור?

סינתזת דיבור, הידועה גם בשם טקסט לדיבור (מערכת TTS), היא הדמיה שנוצרת על ידי מחשב של הקול האנושי. סינתיסייזרים דיבור ממירים מילים כתובות לשפה מדוברת.

במהלך יום טיפוסי, סביר שתתקלו בסוגים שונים של דיבור סינתטי. טכנולוגיית סינתזת דיבור, בסיוע אפליקציות, רמקולים חכמים ואוזניות אלחוטיות, הופכת את החיים לקלים יותר על ידי שיפור:

נגישות: אם אתה לקוי ראייה או מוגבל, תוכל להשתמש במערכת טקסט לדיבור לקריאת תוכן טקסט או בקורא מסך כדי לומר מילים בקול. לדוגמה, הסינתיסייזר של טקסט לדיבור ב-TikTok הוא תכונת נגישות פופולרית המאפשרת לכל אחד לצרוך תוכן מדיה חברתית ויזואלית.
ניווט: בזמן נהיגה, אתה לא יכול להסתכל במפה, אבל אתה יכול להאזין להוראות. לא משנה מה היעד שלך, רוב אפליקציות ה-GPS יכולות לספק התראות קוליות מועילות בזמן הנסיעה, חלקן במספר שפות.
סיוע קולי זמין. עוזרי אודיו חכמים כגון Siri (iPhone) ו-Alexa (Android) מצוינים לריבוי משימות, ומאפשרים לכם להזמין פיצה או להאזין לדוח מזג האוויר תוך ביצוע משימות פיזיות אחרות (למשל, שטיפת כלים) הודות להבנה שלהם. בזמן שהעוזרים האלה עושים טעויות ומעוצבים לעתים קרובות כדמויות נשיות כפופות, הם נשמעים די אמיתיים.

מהי ההיסטוריה של סינתזת דיבור?

הממציא וולפגנג פון קמפלן כמעט הגיע לשם עם מפוח וצינורות עוד במאה ה-18.
בשנת 1928, הומר וו. דאדלי, מדען אמריקאי ב-Bell Laboratories/Bell Labs, יצר את Vocoder, מנתח דיבור אלקטרוני. דאדלי מפתח את ה-Vocoder ל-Voder, סינתיסייזר דיבור אלקטרוני המופעל באמצעות מקלדת.
הומר דאדלי ממעבדות בל הדגים את הסינתיסייזר הקולי הפונקציונלי הראשון בעולם, ה-Voder, ביריד העולמי של 1939 בניו יורק. מפעיל אנושי נדרש להפעיל את המפתחות ודוושת הרגל של המנגנון המאסיבי דמוי האיבר.
חוקרים בנו על ה- Voder במהלך העשורים הבאים. המערכות הראשונות של סינתזת דיבור מבוססות-מחשב פותחו בסוף שנות ה-50, ומעבדות בל עשו שוב היסטוריה ב-1961 כאשר הפיזיקאי ג'ון לארי קלי ג'וניור נשא הרצאה של IBM 704.
מעגלים משולבים אפשרו מוצרי סינתזת דיבור מסחריים בתחומי טלקומוניקציה ומשחקי וידאו בשנות ה-70 וה-80. שבב Vortex, המשמש במשחקי ארקייד, היה אחד המעגלים המשולבים הראשונים של סינתזת דיבור.
טקסס אינסטרומנטס עשתה לעצמה שם ב-1980 עם הסינתיסייזר Speak N Spell, ששימש כעזר קריאה אלקטרוני לילדים.
מאז תחילת שנות ה-90, מערכות הפעלה סטנדרטיות של מחשבים כללו סינתיסייזרים דיבור, בעיקר להכתבה ותמלול. בנוסף, TTS משתמשת כעת למטרות שונות, וקולות סינתטיים הפכו מדויקים להפליא ככל שהבינה המלאכותית ולמידת מכונה התקדמו.

כיצד פועלת סינתזת דיבור?

סינתזת דיבור פועלת בשלושה שלבים: טקסט למילים, מילים לפונמות ופונמות לצליל.

1. טקסט למילים

סינתזת דיבור מתחילה בעיבוד מקדים או בנורמליזציה, מה שמפחית אי בהירות על ידי בחירת הדרך הטובה ביותר לקריאת קטע. עיבוד מקדים כולל קריאה וניקוי של הטקסט, כך שהמחשב קורא אותו בצורה מדויקת יותר. מספרים, תאריכים, שעות, קיצורים, ראשי תיבות ותווים מיוחדים זקוקים לתרגום. כדי לקבוע את ההגייה הסבירה ביותר, הם משתמשים בהסתברות סטטיסטית או ברשתות עצביות.

הומוגרפיות – מילים בעלות הגיות דומות אך משמעויות שונות דורשות טיפול על ידי עיבוד מקדים. כמו כן, סינתיסייזר דיבור לא יכול להבין "אני מוכר את המכונית" מכיוון שניתן לבטא "למכור" "תא". על ידי זיהוי האיות ("יש לי טלפון סלולרי"), אפשר לנחש ש"אני מוכר את האוטו" הוא נכון. פתרון לזיהוי דיבור להפיכת קול אנושי לטקסט גם עם אוצר מילים מורכב.

2. מילים לפונמות

לאחר קביעת המילים, סינתיסייזר הדיבור מפיק צלילים המכילים את המילים הללו. כל מחשב דורש רשימה אלפביתית גדולה של מילים ומידע על אופן הגיית כל מילה. הם יצטרכו רשימה של הפונמות המרכיבות את הצליל של כל מילה. פונמות הן קריטיות מכיוון שבאלפבית האנגלי יש רק 26 אותיות אבל יותר מ-40 פונמות.

בתיאוריה, אם למחשב יש מילון של מילים ופונמות, כל מה שהוא צריך לעשות הוא לקרוא מילה, לחפש אותה במילון, ואז לקרוא את הפונמות המתאימות. עם זאת, בפועל, זה הרבה יותר מורכב ממה שזה נראה.

השיטה האלטרנטיבית כוללת פירוק מילים כתובות לגרפמות ויצירת פונמות המתאימות להן באמצעות כללים פשוטים.

3. פונמות לצליל

המחשב המיר כעת את הטקסט לרשימת פונמות. אבל איך מוצאים את הפונמות הבסיסיות שהמחשב קורא בקול כשהוא ממיר טקסט לדיבור בשפות שונות? יש שלוש גישות לכך.

ראשית, הקלטות של בני אדם שאמרו שהפונמות ישתמשו.
הגישה השנייה היא שהמחשב ייצור פונמות באמצעות תדרי צליל בסיסיים.
הגישה הסופית היא לחקות את טכניקת הקול האנושי בזמן אמת על ידי צליל טבעי עם אלגוריתמים באיכות גבוהה.

סינתזה משולבת

סינתיסייזרים לדיבור המשתמשים בקולות אנושיים מוקלטים חייבים להיטען מראש בכמות קטנה של צליל אנושי שניתן לתמרן. כמו כן, הוא מבוסס על דיבור אנושי שהוקלט.

מהי סינתזת פורמנט?

פורמנטים הם 3-5 תדרי המפתח (תהודה) של צליל שנוצרים ומשולבים על ידי מיתר הקול האנושי כדי להפיק צליל של דיבור או שירה. סינתיסייזרים לדיבור פורמנטים יכולים לומר כל דבר, כולל מילים לא קיימות ולועזיות שמעולם לא שמעו עליהן. סינתזה מוסיפה וסינתזה של מידול פיזי משמשות להפקת פלט הדיבור המסונתז.

מהי סינתזה מפרקית?

סינתזה מפרקית גורמת למחשבים לדבר על ידי הדמיה של מערכת הקול האנושית המורכבת וביטוי התהליך המתרחש שם. בגלל המורכבות שלה, זו השיטה שפחות החוקרים למדו עד עכשיו הכי פחות.

בקיצור, תוכנת סינתזה קול/ סינתזת טקסט לדיבור מאפשרת למשתמשים לראות טקסט כתוב, לשמוע אותו ולקרוא אותו בקול בו-זמנית. תוכנות שונות עושות שימוש בקולות ממוחשבים ובקולות מוקלטים כאחד. סינתזת דיבור הופכת פופולרית יותר ככל שהביקוש למעורבות לקוחות ולייעול תהליכים ארגוניים גוברת. זה מקל על רווחיות לטווח ארוך.

שתפו את הפוסט: