Konuşma Sentezi Nasıl Çalışır?

Metin analizi ve dilbilimsel işleme
Metin analizi ve dilbilimsel işleme

Speaktor 2023-07-13

Konuşma sentezleyiciler işyeri kültürünü dönüştürüyor. Bir konuşma sentezi metni okur. Metinden sese, bir bilgisayarın bir kelimeyi yüksek sesle okumasıdır. Makinelerin basitçe konuşmasını ve farklı yaş ve cinsiyetteki insanlar gibi ses çıkarmasını sağlamaktır. Metinden sese motorları, dijital hizmetler ve ses tanıma büyüdükçe daha popüler hale geliyor.

Konuşma sentezi nedir?

Metinden konuşmaya (TTS sistemi) olarak da bilinen konuşma sentezi, insan sesinin bilgisayar tarafından oluşturulan bir simülasyonudur. Konuşma sentezleyiciler yazılı kelimeleri konuşma diline dönüştürür.

Tipik bir gün boyunca çeşitli sentetik konuşma türleriyle karşılaşmanız muhtemeldir. Uygulamalar, akıllı hoparlörler ve kablosuz kulaklıklarla desteklenen konuşma sentezleme teknolojisi, hayatı kolaylaştırarak iyileştiriyor:

  • Erişilebilirlik: Görme engelli veya engelli iseniz, metin içeriğini okumak için metinden konuşmaya sistemini veya kelimeleri yüksek sesle söylemek için bir ekran okuyucuyu kullanabilirsiniz. Örneğin, TikTok’taki Metinden Sese sentezleyici, herkesin görsel sosyal medya içeriğini tüketmesine olanak tanıyan popüler bir erişilebilirlik özelliğidir.
  • Navigasyon: Sürüş sırasında bir haritaya bakamazsınız, ancak talimatları dinleyebilirsiniz. Gideceğiniz yer ne olursa olsun, çoğu GPS uygulaması siz seyahat ederken bazıları birden fazla dilde olmak üzere yararlı sesli uyarılar sağlayabilir.
  • Sesli yardım mevcuttur. Siri (iPhone) ve Alexa (Android) gibi akıllı ses asistanları çoklu görevler için mükemmeldir ve anlaşılabilirlikleri sayesinde diğer fiziksel görevleri (örneğin bulaşıkları yıkamak) yerine getirirken pizza sipariş etmenize veya hava durumu raporunu dinlemenize olanak tanır. Bu asistanlar zaman zaman hata yapsalar ve sıklıkla itaatkâr kadın karakterler olarak tasarlansalar da, sesleri oldukça gerçekçi.

Konuşma sentezinin tarihçesi nedir?

  • Mucit Wolfgang von Kempelen 18. yüzyılda körükler ve tüplerle neredeyse bu noktaya gelmişti.
  • 1928 yılında Bell Laboratories/ Bell Laboratuvarlarında çalışan Amerikalı bilim adamı Homer W. Dudley, elektronik bir konuşma analizörü olan Vocoder’ı yarattı. Dudley, Vocoder’ı bir klavye aracılığıyla çalıştırılan elektronik bir konuşma sentezleyicisi olan Voder’a dönüştürür.
  • Bell Laboratuvarları’ndan Homer Dudley, New York’taki 1939 Dünya Fuarı’nda dünyanın ilk işlevsel ses sentezleyicisi olan Voder’i sergiledi. Org benzeri devasa cihazın tuşlarını ve ayak pedalını çalıştırmak için bir insan operatör gerekiyordu.
  • Araştırmacılar önümüzdeki birkaç on yıl boyunca Voder’i geliştirdiler. İlk bilgisayar tabanlı konuşma sentezi sistemleri 1950’lerin sonunda geliştirildi ve Bell Laboratuvarları 1961’de fizikçi John Larry Kelly Jr. bir IBM 704 konuşması yaptığında yine tarih yazdı.
  • Entegre devreler, 1970’lerde ve 1980’lerde telekomünikasyon ve video oyunlarında ticari konuşma sentezi ürünlerini mümkün kılmıştır. Atari oyunlarında kullanılan Vortex yongası, ilk konuşma sentezi entegre devrelerinden biriydi.
  • Texas Instruments, 1980 yılında çocuklar için elektronik okuma yardımı olarak kullanılan Speak N Spell sentezleyicisi ile adını duyurdu.
  • 1990’ların başından bu yana, standart bilgisayar işletim sistemleri, öncelikle dikte ve transkripsiyon için konuşma sentezleyicileri içermektedir. Buna ek olarak, TTS artık çeşitli amaçlar için kullanılıyor ve yapay zeka ve makine öğrenimi geliştikçe sentetik sesler oldukça doğru hale geldi.

Konuşma Sentezi Nasıl Çalışır?

Konuşma sentezi üç aşamada çalışır: metinden kelimelere, kelimelerden fonemlere ve fonemlerden sese.

1. Metinden kelimelere

Konuşma sentezi, bir pasajı okumanın en iyi yolunu seçerek belirsizliği azaltan ön işleme veya normalleştirme ile başlar. Ön işleme, bilgisayarın metni daha doğru okuması için metnin okunmasını ve temizlenmesini içerir. Sayılar, tarihler, saatler, kısaltmalar, akronimler ve özel karakterlerin çevrilmesi gerekir. En olası telaffuzu belirlemek için istatistiksel olasılık veya sinir ağları kullanırlar.

Benzer telaffuzlara sahip ancak farklı anlamları olan eşsesli sözcüklerin ön işleme tabi tutulması gerekir. Ayrıca, bir konuşma sentezleyici “arabayı satıyorum” ifadesini anlayamaz çünkü “satmak” kelimesi “hücre” olarak telaffuz edilebilir. Yazım şeklini (“Cep telefonum var”) tanıyarak, “Arabayı satıyorum” ifadesinin doğru olduğu tahmin edilebilir. Karmaşık kelime dağarcığında bile insan sesini metne dönüştüren bir konuşma tanıma çözümü.

2. Kelimelerden fonemlere

Kelimeler belirlendikten sonra, konuşma sentezleyici bu kelimeleri içeren sesler üretir. Her bilgisayar, büyük bir alfabetik kelime listesine ve her kelimenin nasıl telaffuz edileceğine dair bilgiye ihtiyaç duyar. Her bir kelimenin sesini oluşturan fonemlerin bir listesine ihtiyaçları olacaktır. Fonemler çok önemlidir çünkü İngilizce alfabede sadece 26 harf vardır ancak 40’tan fazla fonem vardır.

Teorik olarak, eğer bir bilgisayarın kelime ve fonemlerden oluşan bir sözlüğü varsa, tek yapması gereken bir kelimeyi okumak, sözlükte aramak ve ardından karşılık gelen fonemleri okumaktır. Ancak pratikte bu durum göründüğünden çok daha karmaşıktır.

Alternatif yöntem, yazılı sözcükleri grafemlere ayırmayı ve basit kurallar kullanarak bunlara karşılık gelen fonemleri üretmeyi içerir.

3. Sesbirimlerden sese

Bilgisayar artık metni bir fonem listesine dönüştürmüştür. Peki bilgisayarın farklı dillerde metni konuşmaya dönüştürürken yüksek sesle okuduğu temel fonemleri nasıl buluyorsunuz? Bu konuda üç yaklaşım bulunmaktadır.

  • Başlangıç olarak, sesleri söyleyen insanların kayıtları kullanılacaktır.
  • İkinci yaklaşım ise bilgisayarın temel ses frekanslarını kullanarak fonemler üretmesidir.
  • Son yaklaşım, yüksek kaliteli algoritmalarla doğal seslendirme yaparak insan sesi tekniğini gerçek zamanlı olarak taklit etmektir.

Birleştirici Sentez

Kaydedilmiş insan seslerini kullanan konuşma sentezleyicileri, manipüle edilebilecek az miktarda insan sesi ile önceden yüklenmelidir. Ayrıca, kaydedilmiş insan konuşmasına dayanmaktadır.

Formant Sentezi Nedir?

Formantlar, konuşma veya şarkı söyleme sesini üretmek için insan ses teli tarafından üretilen ve birleştirilen 3-5 anahtar (rezonans) ses frekansıdır. Formant konuşma sentezleyicileri, var olmayan ve hiç duymadıkları yabancı kelimeler de dahil olmak üzere her şeyi söyleyebilir. Sentezlenen konuşma çıktısını üretmek için eklemeli sentez ve fiziksel modelleme sentezi kullanılır.

Artikülatör sentez nedir?

Artikülatör sentezi , karmaşık insan ses yolunu simüle ederek ve orada meydana gelen süreci ifade ederek bilgisayarların konuşmasını sağlar. Karmaşıklığı nedeniyle şimdiye kadar en az araştırmacının üzerinde çalıştığı yöntemdir.

Kısacası, ses sentezleme yazılımı/metinden sese sentezleme, kullanıcıların yazılı metni görmelerini, duymalarını ve aynı anda yüksek sesle okumalarını sağlar. Farklı yazılımlar hem bilgisayar tarafından üretilen hem de insan tarafından kaydedilen sesleri kullanır. Konuşma sentezi, müşteri katılımı ve kurumsal süreç düzenlemesi talebi arttıkça daha popüler hale geliyor. Uzun vadeli karlılığı kolaylaştırır.

Yazıyı Paylaş

Metinden Konuşmaya

img

Speaktor

Metninizi sese dönüştürün ve yüksek sesle okuyun