Tổng hợp giọng nói hoạt động như thế nào?

Phân tích văn bản và xử lý ngôn ngữ

Speaktor 2023-07-13

Bộ tổng hợp giọng nói đang thay đổi văn hóa nơi làm việc. Một tổng hợp lời nói đọc văn bản. Chuyển văn bản thành giọng nói là khi máy tính đọc to một từ. Đó là để máy móc nói chuyện đơn giản và giống như con người ở các độ tuổi và giới tính khác nhau. Công cụ chuyển văn bản thành giọng nói đang trở nên phổ biến hơn khi các dịch vụ kỹ thuật số và nhận dạng giọng nói phát triển.

Tổng hợp lời nói là gì?

Tổng hợp giọng nói, còn được gọi là chuyển văn bản thành giọng nói (hệ thống TTS), là một mô phỏng giọng nói của con người do máy tính tạo ra. Bộ tổng hợp giọng nói chuyển đổi từ viết thành ngôn ngữ nói.

Trong suốt một ngày điển hình, bạn có thể gặp nhiều kiểu nói tổng hợp khác nhau. Công nghệ tổng hợp giọng nói, được hỗ trợ bởi các ứng dụng, loa thông minh và tai nghe không dây, giúp cuộc sống trở nên dễ dàng hơn bằng cách cải thiện:

Khả năng tiếp cận: Nếu bạn bị khiếm thị hoặc khuyết tật, bạn có thể sử dụng hệ thống chuyển văn bản thành giọng nói để đọc nội dung văn bản hoặc trình đọc màn hình để đọc to các từ. Ví dụ: bộ tổng hợp Chuyển văn bản thành giọng nói trên TikTok là một tính năng trợ năng phổ biến cho phép mọi người sử dụng nội dung truyền thông xã hội trực quan.
Điều hướng: Trong khi lái xe, bạn không thể nhìn vào bản đồ, nhưng bạn có thể nghe hướng dẫn. Bất kể điểm đến của bạn là gì, hầu hết các ứng dụng GPS đều có thể cung cấp cảnh báo bằng giọng nói hữu ích khi bạn di chuyển, một số bằng nhiều ngôn ngữ.
Hỗ trợ bằng giọng nói có sẵn. Các trợ lý âm thanh thông minh như Siri (iPhone) và Alexa (Android) rất tuyệt vời cho đa nhiệm, cho phép bạn đặt bánh pizza hoặc nghe dự báo thời tiết trong khi thực hiện các nhiệm vụ thể chất khác (ví dụ: rửa bát) nhờ vào tính dễ hiểu của chúng. Mặc dù những trợ lý này thỉnh thoảng mắc lỗi và thường được thiết kế như những nhân vật nữ phục tùng, nhưng chúng nghe khá sống động như thật.

Lịch sử tổng hợp giọng nói là gì?

Nhà phát minh Wolfgang von Kempelen gần như đã đạt được điều đó với ống bễ và ống vào thế kỷ 18.
Năm 1928, Homer W. Dudley, một nhà khoa học người Mỹ tại Bell Laboratories/Bell Labs, đã tạo ra Vocoder, một máy phân tích giọng nói điện tử. Dudley phát triển Vocoder thành Voder, một bộ tổng hợp giọng nói điện tử hoạt động thông qua bàn phím.
Homer Dudley của Phòng thí nghiệm Bell đã trình diễn bộ tổng hợp giọng nói chức năng đầu tiên trên thế giới, Voder, tại Hội chợ Thế giới năm 1939 ở Thành phố New York. Cần có một người điều khiển để vận hành các phím và bàn đạp chân của bộ máy giống như đàn organ khổng lồ.
Các nhà nghiên cứu đã xây dựng trên Voder trong vài thập kỷ tới. Hệ thống tổng hợp giọng nói dựa trên máy tính đầu tiên được phát triển vào cuối những năm 1950 và Phòng thí nghiệm Bell đã làm nên lịch sử một lần nữa vào năm 1961 khi nhà vật lý John Larry Kelly Jr. thuyết trình về IBM 704.
Các mạch tích hợp đã tạo ra các sản phẩm tổng hợp giọng nói thương mại trong viễn thông và trò chơi điện tử vào những năm 1970 và 1980. Chip Vortex, được sử dụng trong các trò chơi arcade, là một trong những mạch tích hợp tổng hợp giọng nói đầu tiên.
Texas Instruments đã tạo nên tên tuổi của mình vào năm 1980 với bộ tổng hợp Speak N Spell, được sử dụng làm công cụ hỗ trợ đọc điện tử cho trẻ em.
Kể từ đầu những năm 1990, các hệ điều hành máy tính tiêu chuẩn đã bao gồm bộ tổng hợp giọng nói, chủ yếu để đọc chính tả và phiên âm. Ngoài ra, TTS hiện đang được sử dụng cho nhiều mục đích khác nhau và giọng nói tổng hợp đã trở nên chính xác đáng kể khi trí tuệ nhân tạo và máy học ngày càng phát triển.

Tổng hợp giọng nói hoạt động như thế nào?

Quá trình tổng hợp giọng nói hoạt động theo ba giai đoạn: văn bản thành từ, từ thành âm vị và âm vị thành âm thanh.

1. Chuyển văn bản thành từ

Quá trình tổng hợp giọng nói bắt đầu bằng quá trình tiền xử lý hoặc chuẩn hóa, giúp giảm sự mơ hồ bằng cách chọn cách tốt nhất để đọc một đoạn văn. Quá trình tiền xử lý liên quan đến việc đọc và làm sạch văn bản để máy tính đọc văn bản chính xác hơn. Số, ngày tháng, thời gian, chữ viết tắt, từ viết tắt và ký tự đặc biệt cần dịch. Để xác định cách phát âm có khả năng nhất, họ sử dụng xác suất thống kê hoặc mạng lưới thần kinh.

Homographs—những từ có cách phát âm giống nhau nhưng ý nghĩa khác nhau cần được xử lý bằng cách xử lý trước. Ngoài ra, bộ tổng hợp giọng nói không thể hiểu “Tôi bán xe” vì “bán” có thể được phát âm là “ô”. Bằng cách nhận dạng chính tả (“Tôi có điện thoại di động”), người ta có thể đoán rằng “Tôi bán xe” là chính xác. Một giải pháp nhận dạng giọng nói để chuyển đổi giọng nói của con người thành văn bản ngay cả với từ vựng phức tạp.

2. Từ thành âm vị

Sau khi xác định các từ, bộ tổng hợp giọng nói tạo ra âm thanh chứa các từ đó. Mỗi máy tính yêu cầu một danh sách lớn các từ theo thứ tự bảng chữ cái và thông tin về cách phát âm từng từ. Họ cần một danh sách các âm vị tạo nên âm thanh của mỗi từ. Âm vị rất quan trọng vì chỉ có 26 chữ cái trong bảng chữ cái tiếng Anh nhưng có hơn 40 âm vị.

Về lý thuyết, nếu máy tính có từ điển từ và âm vị, tất cả những gì nó cần làm là đọc một từ, tra từ đó trong từ điển, sau đó đọc to các âm vị tương ứng. Tuy nhiên, trong thực tế, nó phức tạp hơn nhiều so với vẻ ngoài của nó.

Phương pháp thay thế liên quan đến việc chia nhỏ các từ được viết thành các biểu đồ và tạo ra các âm vị tương ứng với chúng bằng các quy tắc đơn giản.

3. Âm vị của âm thanh

Máy tính lúc này đã chuyển đổi văn bản thành một danh sách các âm vị. Nhưng làm thế nào để bạn tìm thấy các âm vị cơ bản mà máy tính đọc to khi nó chuyển đổi văn bản thành lời nói bằng các ngôn ngữ khác nhau? Có ba cách tiếp cận này.

Để bắt đầu, các bản ghi âm của con người nói rằng các âm vị sẽ sử dụng.
Cách tiếp cận thứ hai là để máy tính tạo ra các âm vị sử dụng các tần số âm thanh cơ bản.
Cách tiếp cận cuối cùng là bắt chước kỹ thuật giọng nói của con người trong thời gian thực bằng âm thanh tự nhiên với các thuật toán chất lượng cao.

Tổng hợp nối tiếp

Bộ tổng hợp giọng nói sử dụng giọng nói của con người được ghi lại phải được tải sẵn một lượng nhỏ âm thanh của con người để có thể thao tác được. Ngoài ra, nó dựa trên lời nói của con người đã được ghi lại.

Tổng hợp Formant là gì?

Các định dạng là 3-5 tần số chính (cộng hưởng) của âm thanh được tạo ra và kết hợp bởi dây thanh quản của con người để tạo ra âm thanh của lời nói hoặc tiếng hát. Bộ tổng hợp giọng nói định dạng có thể nói bất cứ thứ gì, kể cả những từ không tồn tại và nước ngoài mà chúng chưa từng nghe đến. Tổng hợp phụ gia và tổng hợp mô hình vật lý đang được sử dụng để tạo đầu ra giọng nói được tổng hợp.

Articulatory tổng hợp là gì?

Tổng hợp khớp nối đang làm cho máy tính nói bằng cách mô phỏng đường phát âm phức tạp của con người và nói rõ quá trình xảy ra ở đó. Vì sự phức tạp của nó, nó là phương pháp mà các nhà nghiên cứu ít nghiên cứu nhất cho đến nay.

Tóm lại, phần mềm tổng hợp giọng nói/tổng hợp văn bản thành giọng nói cho phép người dùng xem văn bản viết, nghe và đọc to tất cả văn bản đó cùng một lúc. Các phần mềm khác nhau sử dụng cả giọng nói do máy tính tạo ra và giọng nói do con người ghi lại. Tổng hợp giọng nói đang trở nên phổ biến hơn khi nhu cầu về sự tham gia của khách hàng và hợp lý hóa quy trình tổ chức tăng lên. Nó tạo điều kiện cho lợi nhuận lâu dài.