Bộ tổng hợp giọng nói đang thay đổi văn hóa nơi làm việc. Một tổng hợp lời nói đọc văn bản. Chuyển văn bản thành giọng nói là khi máy tính đọc to một từ. Đó là để máy móc nói chuyện đơn giản và giống như con người ở các độ tuổi và giới tính khác nhau. Công cụ chuyển văn bản thành giọng nói đang trở nên phổ biến hơn khi các dịch vụ kỹ thuật số và nhận dạng giọng nói phát triển.

Tổng hợp lời nói là gì?

Tổng hợp giọng nói, còn được gọi là chuyển văn bản thành giọng nói (hệ thống TTS), là một mô phỏng giọng nói của con người do máy tính tạo ra. Bộ tổng hợp giọng nói chuyển đổi từ viết thành ngôn ngữ nói.

Trong suốt một ngày điển hình, bạn có thể gặp nhiều kiểu nói tổng hợp khác nhau. Công nghệ tổng hợp giọng nói, được hỗ trợ bởi các ứng dụng, loa thông minh và tai nghe không dây, giúp cuộc sống trở nên dễ dàng hơn bằng cách cải thiện:

Lịch sử tổng hợp giọng nói là gì?

Tổng hợp giọng nói hoạt động như thế nào?

Quá trình tổng hợp giọng nói hoạt động theo ba giai đoạn: văn bản thành từ, từ thành âm vị và âm vị thành âm thanh.

1. Chuyển văn bản thành từ

Quá trình tổng hợp giọng nói bắt đầu bằng quá trình tiền xử lý hoặc chuẩn hóa, giúp giảm sự mơ hồ bằng cách chọn cách tốt nhất để đọc một đoạn văn. Quá trình tiền xử lý liên quan đến việc đọc và làm sạch văn bản để máy tính đọc văn bản chính xác hơn. Số, ngày tháng, thời gian, chữ viết tắt, từ viết tắt và ký tự đặc biệt cần dịch. Để xác định cách phát âm có khả năng nhất, họ sử dụng xác suất thống kê hoặc mạng lưới thần kinh.

Homographs—những từ có cách phát âm giống nhau nhưng ý nghĩa khác nhau cần được xử lý bằng cách xử lý trước. Ngoài ra, bộ tổng hợp giọng nói không thể hiểu “Tôi bán xe” vì “bán” có thể được phát âm là “ô”. Bằng cách nhận dạng chính tả (“Tôi có điện thoại di động”), người ta có thể đoán rằng “Tôi bán xe” là chính xác. Một giải pháp nhận dạng giọng nói để chuyển đổi giọng nói của con người thành văn bản ngay cả với từ vựng phức tạp.

2. Từ thành âm vị

Sau khi xác định các từ, bộ tổng hợp giọng nói tạo ra âm thanh chứa các từ đó. Mỗi máy tính yêu cầu một danh sách lớn các từ theo thứ tự bảng chữ cái và thông tin về cách phát âm từng từ. Họ cần một danh sách các âm vị tạo nên âm thanh của mỗi từ. Âm vị rất quan trọng vì chỉ có 26 chữ cái trong bảng chữ cái tiếng Anh nhưng có hơn 40 âm vị.

Về lý thuyết, nếu máy tính có từ điển từ và âm vị, tất cả những gì nó cần làm là đọc một từ, tra từ đó trong từ điển, sau đó đọc to các âm vị tương ứng. Tuy nhiên, trong thực tế, nó phức tạp hơn nhiều so với vẻ ngoài của nó.

Phương pháp thay thế liên quan đến việc chia nhỏ các từ được viết thành các biểu đồ và tạo ra các âm vị tương ứng với chúng bằng các quy tắc đơn giản.

3. Âm vị của âm thanh

Máy tính lúc này đã chuyển đổi văn bản thành một danh sách các âm vị. Nhưng làm thế nào để bạn tìm thấy các âm vị cơ bản mà máy tính đọc to khi nó chuyển đổi văn bản thành lời nói bằng các ngôn ngữ khác nhau? Có ba cách tiếp cận này.

Tổng hợp nối tiếp

Bộ tổng hợp giọng nói sử dụng giọng nói của con người được ghi lại phải được tải sẵn một lượng nhỏ âm thanh của con người để có thể thao tác được. Ngoài ra, nó dựa trên lời nói của con người đã được ghi lại.

Tổng hợp Formant là gì?

Các định dạng là 3-5 tần số chính (cộng hưởng) của âm thanh được tạo ra và kết hợp bởi dây thanh quản của con người để tạo ra âm thanh của lời nói hoặc tiếng hát. Bộ tổng hợp giọng nói định dạng có thể nói bất cứ thứ gì, kể cả những từ không tồn tại và nước ngoài mà chúng chưa từng nghe đến. Tổng hợp phụ gia và tổng hợp mô hình vật lý đang được sử dụng để tạo đầu ra giọng nói được tổng hợp.

Articulatory tổng hợp là gì?

Tổng hợp khớp nối đang làm cho máy tính nói bằng cách mô phỏng đường phát âm phức tạp của con người và nói rõ quá trình xảy ra ở đó. Vì sự phức tạp của nó, nó là phương pháp mà các nhà nghiên cứu ít nghiên cứu nhất cho đến nay.

Tóm lại, phần mềm tổng hợp giọng nói/tổng hợp văn bản thành giọng nói cho phép người dùng xem văn bản viết, nghe và đọc to tất cả văn bản đó cùng một lúc. Các phần mềm khác nhau sử dụng cả giọng nói do máy tính tạo ra và giọng nói do con người ghi lại. Tổng hợp giọng nói đang trở nên phổ biến hơn khi nhu cầu về sự tham gia của khách hàng và hợp lý hóa quy trình tổ chức tăng lên. Nó tạo điều kiện cho lợi nhuận lâu dài.