Google ra mắt Gemini 2.0 Flash: AI đa năng thế hệ mới nhất

12/12/2024

Google vừa chính thức công bố Gemini 2.0 Flash, mô hình AI hàng đầu mới nhất, nhằm cạnh tranh trực tiếp với loạt sản phẩm từ OpenAI. Đây là bước tiến lớn khi 2.0 Flash không chỉ tạo văn bản mà còn có thể tạo hình ảnh và âm thanh, đồng thời tích hợp với các ứng dụng và dịch vụ bên thứ ba như Google Search hay thực thi mã lập trình.

Mục lục

Ra mắt thử nghiệm chính thức vào tháng 1

Phiên bản thử nghiệm của 2.0 Flash sẽ được cung cấp qua Gemini API và các nền tảng phát triển AI của Google như AI Studio và Vertex AI từ hôm nay. Tuy nhiên, khả năng tạo hình ảnh và âm thanh chỉ mở cho đối tác truy cập sớm trước khi ra mắt rộng rãi vào tháng 1/2024.

Trong những tháng tới, Google dự kiến tích hợp 2.0 Flash vào hàng loạt sản phẩm như Android Studio, Chrome DevTools, Firebase, Gemini Code Assist, và nhiều ứng dụng khác.

Ra mắt thử nghiệm chính thức vào tháng 1

Flash 2.0: Nhanh hơn, mạnh mẽ hơn

Ở thế hệ trước, Flash 1.5 chỉ tạo được văn bản và không phù hợp với các tác vụ yêu cầu cao. Với 2.0 Flash, Google khẳng định mô hình này không chỉ nhanh mà còn cực kỳ linh hoạt nhờ khả năng sử dụng công cụ như Google Search và kết nối với API bên ngoài.

Theo Tulsee Doshi, Trưởng sản phẩm mô hình Gemini, 2.0 Flash vẫn giữ được tốc độ vượt trội, đồng thời cải thiện đáng kể ở các lĩnh vực như lập trình và phân tích hình ảnh. Google cho biết mô hình mới nhanh gấp đôi so với Gemini 1.5 Pro, đặc biệt vượt trội về kỹ năng toán học và khả năng xử lý thông tin chính xác.

Hình ảnh, âm thanh được cải thiện

Điểm đột phá của 2.0 Flash là khả năng tạo và chỉnh sửa hình ảnh bên cạnh văn bản. Ngoài ra, mô hình này còn có thể phân tích ảnh, video và âm thanh để trả lời câu hỏi, ví dụ: “Anh ấy vừa nói gì?”.

Về âm thanh, 2.0 Flash cung cấp tính năng tạo giọng nói tuỳ chỉnh, hỗ trợ 8 giọng nói tối ưu cho các ngôn ngữ và giọng địa phương khác nhau. Người dùng có thể yêu cầu AI nói nhanh, nói chậm, hoặc thậm chí giả giọng hải tặc.

Tuy nhiên, tại buổi giới thiệu, Google chưa cung cấp bất kỳ mẫu hình ảnh hoặc âm thanh nào từ 2.0 Flash, khiến chất lượng đầu ra vẫn còn là một dấu hỏi lớn.

Google ứng dụng công nghệ SynthID

Để ngăn chặn lạm dụng, Google ứng dụng công nghệ SynthID để đánh dấu mọi hình ảnh và âm thanh được tạo ra bởi 2.0 Flash. Trên các nền tảng hỗ trợ SynthID, sản phẩm từ AI sẽ được gắn nhãn là nội dung nhân tạo. Điều này nhằm giảm thiểu rủi ro từ các nội dung giả mạo, nhất là khi deepfake đang gia tăng mạnh mẽ, với số lượng phát hiện tăng gấp 4 lần toàn cầu từ 2023 đến 2024, theo báo cáo của Sumsub.

Trước khi bản chính thức ra mắt vào tháng 1, Google đã phát hành Multimodal Live API để hỗ trợ nhà phát triển xây dựng ứng dụng tích hợp âm thanh và video theo thời gian thực. API này có thể xử lý dữ liệu từ camera, màn hình và hỗ trợ các công cụ thực hiện tác vụ, thậm chí nhận diện ngữ cảnh hội thoại tự nhiên, tương tự Realtime API của OpenAI. Multimodal Live API đã sẵn sàng sử dụng từ hôm nay, bạn đã cập nhật chưa?

Gemini 2.0 Flash đánh dấu bước tiến mới trong lĩnh vực AI, không chỉ mạnh mẽ hơn mà còn đa năng hơn, hứa hẹn tạo ra những trải nghiệm đột phá. Đừng quên theo dõi Phong Vũ Tech News để không bỏ lỡ những cập nhật công nghệ quan trọng nhất!

Google ra mắt Gemini 2.0 Flash: AI đa năng thế hệ mới nhất

Ra mắt thử nghiệm chính thức vào tháng 1

Flash 2.0: Nhanh hơn, mạnh mẽ hơn

Hình ảnh, âm thanh được cải thiện

Google ứng dụng công nghệ SynthID

PHONG VŨ - CÔNG NGHỆ

GIỚI THIỆU PHONG VŨ

MỌI NGƯỜI CŨNG TÌM KIẾM

xAI ra mắt Grok 4.1 và 4.1 Thinking miễn phí, tăng...