Bài phát biểu tổng hợp thực tế này có thể là tương lai của Audiobooks | Xu hướng kỹ thuật số

Khoa Học/Công Nghệ

Bạn có thể sẽ không muốn Siri hoặc Alexa đọc cho bạn toàn bộ sách nói. Nhưng một startup mới có tên DeepZen đã phát triển AI chuyển văn bản thành giọng nói gây ấn tượng với con người khi nói chuyện. Nó thậm chí có thể nhận các tín hiệu cảm xúc cần thiết trong văn bản và nói chính xác.

Những giọng nói được tổng hợp như những giọng nói được sử dụng bởi Siri và Alexa rất tốt để cho chúng tôi biết dự báo thời tiết trong ngày hoặc còn bao nhiêu phút trên đồng hồ nấu ăn, nhưng bạn có thực sự muốn những âm thanh phẳng, đơn điệu của họ đọc bạn audiobook không? Có lẽ là không, đó là lý do tại sao hầu hết chúng ta chuyển sang các dịch vụ có tiếng nói của con người như Audible để sửa lỗi audiobook của chúng tôi. Tuy nhiên, các diễn viên lồng tiếng có thể không nhận được cái gật đầu quá lâu, do công việc tiên phong của một công ty khởi nghiệp có trụ sở tại London có tên DeepZen.

Sử dụng các thuật toán trí tuệ nhân tạo, được tăng cường bởi hỏa lực công nghệ của các công nghệ Power AI và Watson của IBM, DeepZen đã phát triển các công cụ chuyển văn bản thành giọng nói không chỉ nghe được tiếng người, mà còn có thể thu nhận các tín hiệu cảm xúc cần thiết để đọc văn bản trong một cách hấp dẫn. Khi làm như vậy, công ty tuyên bố rằng nó có thể giảm thời gian và chi phí để sản xuất audiobook tới 90%.

Hệ thống của chúng tôi thực sự mang tính cách mạng, ông Tay Taylan Kamis, CEO và đồng sáng lập DeepZen, nói với Digital Trends. Phần mềm hoạt động bằng cách sử dụng học tập sâu và mạng lưới thần kinh để hiểu cách con người nói và đọc. Sau đó chúng tôi đào tạo hệ thống để nó có thể nhận ra nơi áp dụng đúng cảm xúc và ngữ điệu khi đọc một đoạn văn bản. Kết quả là lời nói giống con người rất giống với thực tế.

Chắc chắn, công việc như thế này có thể được đưa ra như một ví dụ khác về các công cụ AI tiên tiến đe dọa một nghề nghiệp của con người. Trong trường hợp này, nghề nghiệp đó liên quan đến các diễn viên, bất chấp những gì mà một vài nhân vật cao cấp có thể đạt được, không có sự nghiệp ổn định, ổn định như hiện tại. Sẽ là ngây thơ khi nghĩ rằng phần mềm như thế này sẽ không ảnh hưởng đến tương lai của các diễn viên lồng tiếng, nhưng, như Kamis chỉ ra, có rất nhiều tình huống trong đó các công cụ như DeepZen có thể mang lại lợi ích tích cực cho nhân loại.

Ví dụ: nó có thể tạo ra audiobook dựa trên các tác phẩm của các nhà văn mới và mới nổi, hoặc từ các nhà xuất bản không có sự sang trọng của ngân sách lớn. Nó cũng có thể được sử dụng để giúp phát triển các công cụ chuyển văn bản thành giọng nói vượt trội cho những người mắc chứng khó đọc hoặc gặp khó khăn trong việc đọc.

Về tương lai, chúng tôi cũng đang xem xét việc sản xuất giọng nói cho ngành sản xuất video, cũng như chơi game, nơi cần có khả năng chuyển văn bản thành giọng nói theo thời gian thực để nâng cao trải nghiệm của người chơi, ông Kami nói. Chúng tôi cũng đang xem xét các ngôn ngữ khác.

Bạn có thể kiểm tra một mẫu của hệ thống ở đây.

Tin tương tự

Có thể bạn quan tâm