ChatGPT sử dụng công nghệ giọng nói AI giống hệt như người thật

Vào ngày 30/7, OpenAI đã chính thức triển khai chế độ giọng nói AI nâng cao của ChatGPT, cho phép người dùng trải nghiệm giọng nói giống hệt như giọng người thật. Công nghệ này mang tên GPT-4o, một bước tiến vượt bậc trong lĩnh vực AI. Phiên bản mới nhất không chỉ phản hồi nhanh chóng mà còn có khả năng cảm nhận cảm xúc trong giọng nói của người dùng. Cùng Phong Vũ Tech News khám phá ngay tin tức này trong bài viết bên dưới nhé!



Tiến trình phát triển và thử nghiệm giọng nói AI trên ChatGPT

Thử nghiệm giọng nói AI trên ChatGPT
Thử nghiệm giọng nói AI trên ChatGPT

Khi OpenAI giới thiệu giọng nói AI của GPT-4o vào tháng Năm, sự giống nhau đáng kinh ngạc với giọng nói con người đã gây sốc cho khán giả. Giọng nói được sử dụng trong bản demo, có tên “Sky”, giống với giọng của minh tinh Scarlett Johansson. Tuy nhiên, sau khi Johansson từ chối cho phép sử dụng giọng của mình, OpenAI đã phải loại bỏ giọng nói này.

Để đảm bảo tính an toàn và tránh các tranh cãi về deepfake, OpenAI đã thực hiện nhiều biện pháp bảo vệ. Công ty đã thử nghiệm khả năng giọng nói của GPT-4o với hơn 100 nhóm đánh giá độc lập, nói 45 ngôn ngữ khác nhau. Theo đó, kết quả thử nghiệm sẽ được phát hành vào đầu tháng Tám.

Công nghệ đột phá của GPT-4o

Tính năng GPT-4o đang được nghiên cứu và phát triển mạnh trên ChatGPT
Tính năng GPT-4o đang được nghiên cứu và phát triển mạnh trên ChatGPT

Trước đây, ChatGPT sử dụng ba mô hình riêng biệt để chuyển giọng nói người dùng thành văn bản, xử lý yêu cầu và chuyển văn bản thành giọng nói. Tuy nhiên, GPT-4o là mô hình đa phương tiện, có khả năng xử lý tất cả các nhiệm vụ này một cách mượt mà và nhanh chóng hơn. Điều này giúp giảm đáng kể độ trễ trong các cuộc trò chuyện.

GPT-4o không chỉ dừng lại ở việc chuyển đổi giọng nói AI mà còn có thể cảm nhận được cảm xúc trong giọng nói của người dùng, bao gồm sự buồn bã, phấn khích, hoặc thậm chí là hát. Điều này mang lại trải nghiệm tự nhiên và chân thực hơn cho người dùng.

Triển khai và sử dụng chế độ giọng nói AI

Phiên bản giọng nói AI đang dần được mở rộng trên ChatGPT
Phiên bản giọng nói AI đang dần được mở rộng trên ChatGPT

Chế độ giọng nói nâng cao của ChatGPT hiện đang được phát hành một cách dần dần để OpenAI có thể giám sát chặt chẽ việc sử dụng. Các người dùng trong nhóm alpha sẽ nhận được thông báo trong ứng dụng ChatGPT và hướng dẫn qua email. Tính năng này sẽ dần dần được mở rộng cho tất cả người dùng ChatGPT Plus vào mùa thu năm 2024.

Phiên bản mới sẽ giới hạn ở bốn giọng nói mặc định: Juniper, Breeze, Cove và Ember, được tạo ra với sự hợp tác của các diễn viên lồng tiếng chuyên nghiệp. OpenAI cam kết sẽ không giả mạo giọng nói của người khác, bao gồm cả các nhân vật công chúng, và đã giới thiệu các bộ lọc mới để chặn các yêu cầu tạo nhạc hoặc âm thanh có bản quyền.

Tác động và tiềm năng

Trong tương lai ChatGPT sẽ còn phát triển mạnh mẽ hơn nữa
Trong tương lai ChatGPT sẽ còn phát triển mạnh mẽ hơn nữa

Việc triển khai công nghệ giọng nói AI này không chỉ mở ra nhiều tiềm năng ứng dụng trong các lĩnh vực khác nhau mà còn đặt ra các thách thức về mặt pháp lý và đạo đức. OpenAI đang cố gắng hết sức để tránh các tranh cãi liên quan đến deepfake và bảo vệ quyền lợi của các cá nhân và tổ chức liên quan.

Trong tương lai, với sự phát triển không ngừng của công nghệ, chúng ta có thể mong đợi những cải tiến và ứng dụng mới mẻ hơn từ OpenAI và các công ty công nghệ khác. Công nghệ giọng nói AI giống hệt như người thật của ChatGPT chắc chắn sẽ là một bước đột phá quan trọng, đem lại nhiều lợi ích và trải nghiệm tuyệt vời cho người dùng trên toàn thế giới.

Đăng kí nhận tin iPhone 16 Series