Οι συνθέτες ομιλίας μεταμορφώνουν την εργασιακή κουλτούρα. Μια σύνθεση ομιλίας διαβάζει το κείμενο. Η μετατροπή κειμένου σε ομιλία είναι όταν ένας υπολογιστής διαβάζει δυνατά μια λέξη. Είναι να βάλουμε τις μηχανές να μιλούν απλά και να ακούγονται σαν άνθρωποι διαφορετικών ηλικιών και φύλων. Οι μηχανές μετατροπής κειμένου σε ομιλία γίνονται όλο και πιο δημοφιλείς καθώς οι ψηφιακές υπηρεσίες και η αναγνώριση φωνής αναπτύσσονται.

Τι είναι η σύνθεση ομιλίας;

Η σύνθεση ομιλίας, επίσης γνωστή ως σύστημα μετατροπής κειμένου σε ομιλία (TTS), είναι μια προσομοίωση της ανθρώπινης φωνής μέσω υπολογιστή. Οι συνθέτες ομιλίας μετατρέπουν τις γραπτές λέξεις σε προφορική γλώσσα.

Κατά τη διάρκεια μιας τυπικής ημέρας, είναι πιθανό να συναντήσετε διάφορους τύπους συνθετικής ομιλίας. Η τεχνολογία σύνθεσης ομιλίας, με τη βοήθεια εφαρμογών, έξυπνων ηχείων και ασύρματων ακουστικών, διευκολύνει τη ζωή βελτιώνοντας:

Ποια είναι η ιστορία της σύνθεσης ομιλίας;

Πώς λειτουργεί η σύνθεση ομιλίας;

Η σύνθεση ομιλίας λειτουργεί σε τρία στάδια: κείμενο σε λέξεις, λέξεις σε φωνήματα και φωνήματα σε ήχο.

1. Κείμενο σε λέξεις

Η σύνθεση ομιλίας αρχίζει με την προεπεξεργασία ή κανονικοποίηση, η οποία μειώνει την ασάφεια επιλέγοντας τον καλύτερο τρόπο ανάγνωσης ενός αποσπάσματος. Η προεπεξεργασία περιλαμβάνει την ανάγνωση και τον καθαρισμό του κειμένου, ώστε ο υπολογιστής να το διαβάζει με μεγαλύτερη ακρίβεια. Οι αριθμοί, οι ημερομηνίες, οι ώρες, οι συντομογραφίες, τα ακρωνύμια και οι ειδικοί χαρακτήρες χρειάζονται μετάφραση. Για να προσδιορίσουν την πιο πιθανή προφορά, χρησιμοποιούν στατιστικές πιθανότητες ή νευρωνικά δίκτυα.

Οι ομόγραφες λέξεις – λέξεις που έχουν παρόμοια προφορά αλλά διαφορετική σημασία – απαιτούν χειρισμό με προεπεξεργασία. Επίσης, ένας συνθέτης ομιλίας δεν μπορεί να καταλάβει το “πουλάω το αυτοκίνητο”, επειδή το “πουλάω” μπορεί να προφερθεί ως “κύτταρο”. Αναγνωρίζοντας την ορθογραφία (“έχω κινητό τηλέφωνο”), μπορεί κανείς να μαντέψει ότι το “πουλάω το αυτοκίνητο” είναι σωστό. Μια λύση αναγνώρισης ομιλίας για τη μετατροπή της ανθρώπινης φωνής σε κείμενο ακόμη και με πολύπλοκο λεξιλόγιο.

2. Λέξεις σε φωνήματα

Μετά τον προσδιορισμό των λέξεων, ο συνθέτης ομιλίας παράγει ήχους που περιέχουν αυτές τις λέξεις. Κάθε υπολογιστής απαιτεί έναν μεγάλο αλφαβητικό κατάλογο λέξεων και πληροφορίες για τον τρόπο προφοράς κάθε λέξης. Θα χρειαστούν μια λίστα με τα φωνήματα που συνθέτουν τον ήχο κάθε λέξης. Τα φωνήματα είναι ζωτικής σημασίας, καθώς υπάρχουν μόνο 26 γράμματα στο αγγλικό αλφάβητο αλλά πάνω από 40 φωνήματα.

Θεωρητικά, αν ένας υπολογιστής διαθέτει ένα λεξικό λέξεων και φωνημάτων, το μόνο που χρειάζεται να κάνει είναι να διαβάσει μια λέξη, να την αναζητήσει στο λεξικό και στη συνέχεια να διαβάσει τα αντίστοιχα φωνήματα. Ωστόσο, στην πράξη, είναι πολύ πιο πολύπλοκο από ό,τι φαίνεται.

Η εναλλακτική μέθοδος περιλαμβάνει τη διάσπαση των γραπτών λέξεων σε γραφήματα και τη δημιουργία φωνημάτων που αντιστοιχούν σε αυτά με τη χρήση απλών κανόνων.

3. Φωνήματα σε ήχο

Ο υπολογιστής έχει πλέον μετατρέψει το κείμενο σε έναν κατάλογο φωνημάτων. Πώς όμως βρίσκετε τα βασικά φωνήματα που διαβάζει δυνατά ο υπολογιστής όταν μετατρέπει κείμενο σε ομιλία σε διάφορες γλώσσες; Υπάρχουν τρεις προσεγγίσεις σε αυτό το θέμα.

Συνδυαστική σύνθεση

Οι συνθέτες ομιλίας που χρησιμοποιούν ηχογραφημένες ανθρώπινες φωνές πρέπει να είναι προφορτωμένοι με μια μικρή ποσότητα ανθρώπινου ήχου που μπορεί να τροποποιηθεί. Επίσης, βασίζεται στην ανθρώπινη ομιλία που έχει καταγραφεί.

Τι είναι η σύνθεση φορμαντών;

Τα φορμάντ είναι οι 3-5 βασικές (αντηχητικές) συχνότητες του ήχου που παράγονται και συνδυάζονται από την ανθρώπινη φωνητική χορδή για να παράγουν τον ήχο της ομιλίας ή του τραγουδιού. Οι συνθέτες ομιλίας με φορμαντ μπορούν να λένε οτιδήποτε, συμπεριλαμβανομένων ανύπαρκτων και ξένων λέξεων που δεν έχουν ακούσει ποτέ. Η προσθετική σύνθεση και η σύνθεση με φυσική μοντελοποίηση χρησιμοποιούνται για τη δημιουργία της συνθετικής εξόδου ομιλίας.

Τι είναι η αρθρωτική σύνθεση;

Η αρθρωτική σύνθεση κάνει τους υπολογιστές να μιλούν προσομοιώνοντας την περίπλοκη ανθρώπινη φωνητική οδό και αρθρώνοντας τη διαδικασία που λαμβάνει χώρα εκεί. Λόγω της πολυπλοκότητάς της, είναι η μέθοδος που έχουν μελετήσει οι λιγότεροι ερευνητές μέχρι σήμερα.

Εν ολίγοις, το λογισμικό σύνθεσης φωνής/σύνθεση κειμένου σε ομιλία επιτρέπει στους χρήστες να βλέπουν γραπτό κείμενο, να το ακούν και να το διαβάζουν δυνατά, όλα ταυτόχρονα. Διαφορετικά λογισμικά χρησιμοποιούν τόσο φωνές που δημιουργούνται από υπολογιστή όσο και φωνές που έχουν ηχογραφηθεί από άνθρωπο. Η σύνθεση ομιλίας γίνεται όλο και πιο δημοφιλής καθώς αυξάνεται η ζήτηση για δέσμευση πελατών και εξορθολογισμό οργανωτικών διαδικασιών. Διευκολύνει τη μακροπρόθεσμη κερδοφορία.