Πώς λειτουργεί η σύνθεση ομιλίας;

Speaktor
23 Δεκεμβρίου, 2022

Οι συνθέτες ομιλίας μεταμορφώνουν την εργασιακή κουλτούρα. Μια σύνθεση ομιλίας διαβάζει το κείμενο. Η μετατροπή κειμένου σε ομιλία είναι όταν ένας υπολογιστής διαβάζει δυνατά μια λέξη. Είναι να βάλουμε τις μηχανές να μιλούν απλά και να ακούγονται σαν άνθρωποι διαφορετικών ηλικιών και φύλων. Οι μηχανές μετατροπής κειμένου σε ομιλία γίνονται όλο και πιο δημοφιλείς καθώς οι ψηφιακές υπηρεσίες και η αναγνώριση φωνής αναπτύσσονται.

Τι είναι η σύνθεση ομιλίας;

Η σύνθεση ομιλίας, επίσης γνωστή ως σύστημα μετατροπής κειμένου σε ομιλία (TTS), είναι μια προσομοίωση της ανθρώπινης φωνής μέσω υπολογιστή. Οι συνθέτες ομιλίας μετατρέπουν τις γραπτές λέξεις σε προφορική γλώσσα.

Κατά τη διάρκεια μιας τυπικής ημέρας, είναι πιθανό να συναντήσετε διάφορους τύπους συνθετικής ομιλίας. Η τεχνολογία σύνθεσης ομιλίας, με τη βοήθεια εφαρμογών, έξυπνων ηχείων και ασύρματων ακουστικών, διευκολύνει τη ζωή βελτιώνοντας:

Προσβασιμότητα: Αν έχετε προβλήματα όρασης ή αναπηρία, μπορείτε να χρησιμοποιήσετε σύστημα μετατροπής κειμένου σε ομιλία για να διαβάσετε το περιεχόμενο του κειμένου ή ένα πρόγραμμα ανάγνωσης οθόνης για να εκφωνήσετε δυνατά τις λέξεις. Για παράδειγμα, ο συνθέτης Text-to-Speech στο TikTok είναι ένα δημοφιλές χαρακτηριστικό προσβασιμότητας που επιτρέπει σε οποιονδήποτε να καταναλώνει οπτικό περιεχόμενο κοινωνικών μέσων.
Πλοήγηση: Κατά την οδήγηση, δεν μπορείτε να κοιτάξετε χάρτη, αλλά μπορείτε να ακούσετε οδηγίες. Όποιος κι αν είναι ο προορισμός σας, οι περισσότερες εφαρμογές GPS μπορούν να παρέχουν χρήσιμες φωνητικές ειδοποιήσεις καθώς ταξιδεύετε, ορισμένες από αυτές σε πολλές γλώσσες.
Διατίθεται φωνητική βοήθεια. Οι έξυπνοι βοηθοί ήχου, όπως η Siri (iPhone) και η Alexa (Android), είναι εξαιρετικοί για πολυδιεργασία, επιτρέποντάς σας να παραγγείλετε πίτσα ή να ακούσετε το δελτίο καιρού ενώ εκτελείτε άλλες φυσικές εργασίες (π.χ. πλένετε τα πιάτα) χάρη στην καταληπτότητά τους. Παρόλο που αυτοί οι βοηθοί κάνουν περιστασιακά λάθη και είναι συχνά σχεδιασμένοι ως υποτακτικοί γυναικείοι χαρακτήρες, ακούγονται αρκετά αληθοφανείς.

Ποια είναι η ιστορία της σύνθεσης ομιλίας;

Ο εφευρέτης Βόλφγκανγκ φον Κέμπελεν παραλίγο να το πετύχει με φυσητήρες και σωλήνες τον 18ο αιώνα.
Το 1928, ο Homer W. Dudley, Αμερικανός επιστήμονας στα Bell Laboratories/ Bell Labs, δημιούργησε τον Vocoder, έναν ηλεκτρονικό αναλυτή ομιλίας. Ο Dudley εξελίσσει τον Vocoder στον Voder, έναν ηλεκτρονικό συνθέτη ομιλίας που λειτουργεί μέσω πληκτρολογίου.
Ο Homer Dudley των Bell Laboratories παρουσίασε τον πρώτο λειτουργικό συνθέτη φωνής στον κόσμο, τον Voder, στην Παγκόσμια Έκθεση του 1939 στη Νέα Υόρκη. Ένας άνθρωπος έπρεπε να χειρίζεται τα πλήκτρα και το πεντάλ της τεράστιας συσκευής που έμοιαζε με όργανο.
Οι ερευνητές βασίστηκαν στον Voder τις επόμενες δεκαετίες. Τα πρώτα συστήματα σύνθεσης ομιλίας μέσω υπολογιστή αναπτύχθηκαν στα τέλη της δεκαετίας του 1950, και τα εργαστήρια Bell έγραψαν ξανά ιστορία το 1961, όταν ο φυσικός John Larry Kelly Jr. μίλησε με το IBM 704.
Τα ολοκληρωμένα κυκλώματα κατέστησαν δυνατή την εμπορική χρήση προϊόντων σύνθεσης ομιλίας στις τηλεπικοινωνίες και τα βιντεοπαιχνίδια στις δεκαετίες του 1970 και 1980. Το τσιπ Vortex, που χρησιμοποιήθηκε σε παιχνίδια arcade, ήταν ένα από τα πρώτα ολοκληρωμένα κυκλώματα σύνθεσης ομιλίας.
Η Texas Instruments έγινε γνωστή το 1980 με το συνθεσάιζερ Speak N Spell, το οποίο χρησιμοποιήθηκε ως ηλεκτρονικό βοήθημα ανάγνωσης για παιδιά.
Από τις αρχές της δεκαετίας του 1990, τα τυποποιημένα λειτουργικά συστήματα υπολογιστών περιλαμβάνουν συνθέτες ομιλίας, κυρίως για υπαγόρευση και μεταγραφή. Επιπλέον, το TTS χρησιμοποιείται πλέον για διάφορους σκοπούς και οι συνθετικές φωνές έχουν γίνει εξαιρετικά ακριβείς καθώς η τεχνητή νοημοσύνη και η μηχανική μάθηση έχουν προχωρήσει.

Πώς λειτουργεί η σύνθεση ομιλίας;

Η σύνθεση ομιλίας λειτουργεί σε τρία στάδια: κείμενο σε λέξεις, λέξεις σε φωνήματα και φωνήματα σε ήχο.

1. Κείμενο σε λέξεις

Η σύνθεση ομιλίας αρχίζει με την προεπεξεργασία ή κανονικοποίηση, η οποία μειώνει την ασάφεια επιλέγοντας τον καλύτερο τρόπο ανάγνωσης ενός αποσπάσματος. Η προεπεξεργασία περιλαμβάνει την ανάγνωση και τον καθαρισμό του κειμένου, ώστε ο υπολογιστής να το διαβάζει με μεγαλύτερη ακρίβεια. Οι αριθμοί, οι ημερομηνίες, οι ώρες, οι συντομογραφίες, τα ακρωνύμια και οι ειδικοί χαρακτήρες χρειάζονται μετάφραση. Για να προσδιορίσουν την πιο πιθανή προφορά, χρησιμοποιούν στατιστικές πιθανότητες ή νευρωνικά δίκτυα.

Οι ομόγραφες λέξεις – λέξεις που έχουν παρόμοια προφορά αλλά διαφορετική σημασία – απαιτούν χειρισμό με προεπεξεργασία. Επίσης, ένας συνθέτης ομιλίας δεν μπορεί να καταλάβει το “πουλάω το αυτοκίνητο”, επειδή το “πουλάω” μπορεί να προφερθεί ως “κύτταρο”. Αναγνωρίζοντας την ορθογραφία (“έχω κινητό τηλέφωνο”), μπορεί κανείς να μαντέψει ότι το “πουλάω το αυτοκίνητο” είναι σωστό. Μια λύση αναγνώρισης ομιλίας για τη μετατροπή της ανθρώπινης φωνής σε κείμενο ακόμη και με πολύπλοκο λεξιλόγιο.

2. Λέξεις σε φωνήματα

Μετά τον προσδιορισμό των λέξεων, ο συνθέτης ομιλίας παράγει ήχους που περιέχουν αυτές τις λέξεις. Κάθε υπολογιστής απαιτεί έναν μεγάλο αλφαβητικό κατάλογο λέξεων και πληροφορίες για τον τρόπο προφοράς κάθε λέξης. Θα χρειαστούν μια λίστα με τα φωνήματα που συνθέτουν τον ήχο κάθε λέξης. Τα φωνήματα είναι ζωτικής σημασίας, καθώς υπάρχουν μόνο 26 γράμματα στο αγγλικό αλφάβητο αλλά πάνω από 40 φωνήματα.

Θεωρητικά, αν ένας υπολογιστής διαθέτει ένα λεξικό λέξεων και φωνημάτων, το μόνο που χρειάζεται να κάνει είναι να διαβάσει μια λέξη, να την αναζητήσει στο λεξικό και στη συνέχεια να διαβάσει τα αντίστοιχα φωνήματα. Ωστόσο, στην πράξη, είναι πολύ πιο πολύπλοκο από ό,τι φαίνεται.

Η εναλλακτική μέθοδος περιλαμβάνει τη διάσπαση των γραπτών λέξεων σε γραφήματα και τη δημιουργία φωνημάτων που αντιστοιχούν σε αυτά με τη χρήση απλών κανόνων.

3. Φωνήματα σε ήχο

Ο υπολογιστής έχει πλέον μετατρέψει το κείμενο σε έναν κατάλογο φωνημάτων. Πώς όμως βρίσκετε τα βασικά φωνήματα που διαβάζει δυνατά ο υπολογιστής όταν μετατρέπει κείμενο σε ομιλία σε διάφορες γλώσσες; Υπάρχουν τρεις προσεγγίσεις σε αυτό το θέμα.

Αρχικά, θα χρησιμοποιηθούν ηχογραφήσεις ανθρώπων που λένε τα φωνήματα.
Η δεύτερη προσέγγιση είναι να παράγει ο υπολογιστής φωνήματα χρησιμοποιώντας θεμελιώδεις ηχητικές συχνότητες.
Η τελική προσέγγιση είναι η μίμηση της τεχνικής της ανθρώπινης φωνής σε πραγματικό χρόνο με φυσικό ήχο με αλγορίθμους υψηλής ποιότητας.

Συνδυαστική σύνθεση

Οι συνθέτες ομιλίας που χρησιμοποιούν ηχογραφημένες ανθρώπινες φωνές πρέπει να είναι προφορτωμένοι με μια μικρή ποσότητα ανθρώπινου ήχου που μπορεί να τροποποιηθεί. Επίσης, βασίζεται στην ανθρώπινη ομιλία που έχει καταγραφεί.

Τι είναι η σύνθεση φορμαντών;

Τα φορμάντ είναι οι 3-5 βασικές (αντηχητικές) συχνότητες του ήχου που παράγονται και συνδυάζονται από την ανθρώπινη φωνητική χορδή για να παράγουν τον ήχο της ομιλίας ή του τραγουδιού. Οι συνθέτες ομιλίας με φορμαντ μπορούν να λένε οτιδήποτε, συμπεριλαμβανομένων ανύπαρκτων και ξένων λέξεων που δεν έχουν ακούσει ποτέ. Η προσθετική σύνθεση και η σύνθεση με φυσική μοντελοποίηση χρησιμοποιούνται για τη δημιουργία της συνθετικής εξόδου ομιλίας.

Τι είναι η αρθρωτική σύνθεση;

Η αρθρωτική σύνθεση κάνει τους υπολογιστές να μιλούν προσομοιώνοντας την περίπλοκη ανθρώπινη φωνητική οδό και αρθρώνοντας τη διαδικασία που λαμβάνει χώρα εκεί. Λόγω της πολυπλοκότητάς της, είναι η μέθοδος που έχουν μελετήσει οι λιγότεροι ερευνητές μέχρι σήμερα.

Εν ολίγοις, το λογισμικό σύνθεσης φωνής/σύνθεση κειμένου σε ομιλία επιτρέπει στους χρήστες να βλέπουν γραπτό κείμενο, να το ακούν και να το διαβάζουν δυνατά, όλα ταυτόχρονα. Διαφορετικά λογισμικά χρησιμοποιούν τόσο φωνές που δημιουργούνται από υπολογιστή όσο και φωνές που έχουν ηχογραφηθεί από άνθρωπο. Η σύνθεση ομιλίας γίνεται όλο και πιο δημοφιλής καθώς αυξάνεται η ζήτηση για δέσμευση πελατών και εξορθολογισμό οργανωτικών διαδικασιών. Διευκολύνει τη μακροπρόθεσμη κερδοφορία.

Μοιραστείτε την ανάρτηση: