OpenAI cho ra mắt Model GPT-4o mới: Phiên bản cải tiến của GPT-4 nhưng miễn phí?

CTKM Supper Deal Gaming ngang

Trí tuệ nhân tạo (AI) đang phát triển với tốc độ chóng mặt, và cuộc đua giữa các công ty công nghệ hàng đầu để tạo ra những mô hình AI tiên tiến nhất ngày càng trở nên gay cấn. OpenAI, một trong những tổ chức nghiên cứu AI hàng đầu thế giới, vừa ra mắt GPT-4o, được xem là vũ khí mới nhất của họ trong cuộc cạnh tranh với Gemini, mô hình AI mạnh mẽ do Google phát triển. Vậy GPT-4o có gì đặc biệt? Liệu nó có thể vượt qua Gemini và trở thành mô hình AI dẫn đầu trong tương lai? hãy cùng Phong Vũ tìm hiểu chi tiết trong bài viết này.



1. GPT-4o là gì?

Hơn một năm sau khi ra mắt GPT-4, OpenAI tiếp tục gây ấn tượng với phiên bản nâng cấp mạnh mẽ mang tên GPT-4o. Không chỉ miễn phí cho tất cả người dùng, GPT-4o còn hứa hẹn mang đến trải nghiệm tương tác AI hoàn toàn mới mẻ và vượt trội. Tại sự kiện Spring Update, OpenAI đã giới thiệu khả năng biến ChatGPT thành trợ lý cá nhân kỹ thuật số với GPT-4o.

OpenAI đã giới thiệu GPT-4o tại sự kiện vừa qua với loạt tính năng hấp dẫn.
OpenAI đã giới thiệu GPT-4o tại sự kiện vừa qua với loạt tính năng hấp dẫn.

Người dùng hoàn toàn có thể trò chuyện thời gian thực bằng giọng nói, tương tác đa chiều thông qua văn bản, hình ảnh. Mô hình AI mới này có khả năng tương tác bằng “thị giác”, tức là chúng có khả năng nhận dạng tài liệu, biểu đồ, xem ảnh, thông tin do bạn tải lên và thảo luận về nội dung đó. GPT-4o còn tiếp nhận đầu vào đa dạng (văn bản, âm thanh, hình ảnh…) và tạo ra đầu ra tương ứng. Khả năng xử lý âm thanh ấn tượng của mô hình cho phép nó phản hồi trong vòng 232 mili giây, ngang bằng với tốc độ phản hồi của người khi giao tiếp.

So với GPT-4 Turbo, GPT-4o không chỉ mạnh mẽ hơn về xử lý văn bản tiếng Anh và code mà còn vượt trội trong xử lý đa ngôn ngữ. Hiệu suất hoạt động nhanh hơn 50% và đặc biệt là tiết kiệm chi phí API. Ngoài ra, khả năng hiểu hình ảnh và âm thanh của GPT-4o được đánh giá cao hơn nhiều so với các mô hình AI hiện có. Có thể nói, đây không chỉ là một công cụ hỗ trợ đắc lực mà còn là bước tiến đột phá mở ra kỷ nguyên tương tác người-máy mới, ứng dụng đa dạng lĩnh vực như giáo dục, y tế, giải trí, kinh doanh….

2. Model GPT-4o với khả năng xử lý “đa năng”

Bà Mira Murati, Giám đốc công nghệ OpenAI, đã hào hứng thông báo về phiên bản ChatGPT mới với tính năng ghi nhớ đột phá. Nhờ khả năng học hỏi từ các cuộc trò chuyện trước đó với người dùng, Model GPT-4o giờ đây đã có thể cung cấp dịch vụ dịch thuật theo thời gian thực một các đáng ngạc nhiên. Chia sẻ trong buổi trình diễn tại San Fransico, bà Murati còn cho biết, model này là cột mốc đánh dấu cho bước tiến lớn về tiện ích sử dụng của công nghệ này, tương tác cùng ChatGPT giờ đây đã trở nên dễ dàng và tự nhiên hơn bao giờ hết.

Không chỉ đa năng, Model GPT-4o còn có tính năng ghi nhớ đột phá.
Không chỉ đa năng, Model GPT-4o còn có tính năng ghi nhớ đột phá.

Ngoài ra, những kỹ sư từ OpenAI cũng đã trình khả năng phát hiện cảm xúc người dùng của GPT-4o. Bạn chắc hẳn sẽ ngạc nhiên khi nó có thể lắng nghe được hơi thở của vị giám đốc và động viên, khuyến khích ông ấy trở nên bình tĩnh lại. “Bạn không phải máy hút bụi!” giọng nữ được cài đặt của ChatGPT (nó cps chất giọng tương tự Scarlett Johansson – nhân vật đóng vai người bạn đồng hành kỹ thuật số trong bộ phim “Her” ra mắt năm 2013) đã bông đùa với nhân viên ngay tại buổi lễ ra mắt.

Bằng cách tự động dịch và trả lời, ChatGPT có thể trò chuyện với người dùng lên đến hơn 50 loại ngôn ngữ. Sam Alman – Giám đốc điều hành OpenAI phát biểu rằng chế độ giọng nói cũng như video chính là giao diện máy tính tiên tiến nhất mà ông từng sử dụng, nó hệt như AI bước ra từ các bộ phim với tốc độ phản hồi cực nhanh và mức biểu đạt có độ hoàn thiện không khác gì con người. 

Đồng thời, không chỉ thuần viết text, GPT-4o cũng được nâng cấp với khả năng nhìn, nghe, nói, nhận biết được môi trường xung quanh.  Chữ o ở đây có nghĩa là omni model, tức là tích hợp toàn bộ những công nghệ và khả năng xử lý các loại data khác nhau như hình ảnh, văn bản, giọng nói… gói gọn trong cùng một model duy nhất. 

GPT-4o cũng được nâng cấp với khả năng nhìn, nghe, nói, nhận biết được môi trường xung quanh. 
GPT-4o cũng được nâng cấp với khả năng nhìn, nghe, nói, nhận biết được môi trường xung quanh. 

Điều này cho phép GPT-4o phản hồi người dùng hay ho hơn thông qua giọng nói tức thời theo thời gian thực thông qua webcam, camera điện thoại… Khi được phép cấp quyền nhìn hình ảnh qua camera, chatGPT có thể tự động quan sát môi trường hiển thị xung quanh người dùng, tương tác nay khi có lệnh và hiểu được cảm xúc của người nhờ vào biểu cảm.

Một điểm đáng ăn tiền khác của GPT-4o là hỗ trợ desktop sâu hơn. Nó có thể “nhìn” màn hình desktop của người dùng và hỗ trợ xử lý vấn đề ngay lập tức. Chẳng hạn như, bạn đang viết code, chỉ cần câu lệnh “code này chạy sao?”, GPT-4o sẽ đưa ra phản hồi ngay lập tức. Trường hợp khác, nó có thể đọc được menu của ngôn ngữ mà người dùng không biết, sau đó dịch lại để chọn cho đúng. 

Tất cả đều sẽ được cung cấp đến người dùng toàn cầu miễn trong vài tuần tới. Tất nhiên là vẫn sẽ có phiên bản trả phí, nhưng người dùng sẽ được ưu đãi sử dụng GPT-4o với tần suất cao hơn đến 5 lần.

3. Đánh giá khả năng của Model mới GPT-4o 

Hiện tại, lĩnh vực trí tuệ nhân tạo (AI) đang chứng kiến sự cạnh tranh gay cấn giữa hai mô hình ngôn ngữ tiên tiến: GPT-4o của OpenAI và Gemini của Google. Bàn luận một cách ngắn gọn, GPT-4o hầu như không nâng cấp quá nhiều về tham số nội suy và sức mạnh tạo sinh hay gần như mọi khía cạnh khác nhằm tích hợp vào sản phẩm thương mại. Tuy nhiên, nó vẫn được tái bản với loạt khả năng hữu dụng cho cuộc sống con người. 

Điều đáng kể đầu tiên chính là khả năng “ngắt lời” người dùng của GPT-4o trong trường hợp bạn muốn tạm dừng câu trả lời từ ứng dụng. Nó sẽ biến cuộc “tra khảo” này trở thành cuộc chuyện trò, trao đổi thông tin giữa chatbot và con người một cách cuốn hút và tự nhiên hơn, bạn không cần phải chờ ChatGPT trả lời đầy đủ rồi mới tiếp tục nhập câu hỏi sau đó.

Model GPT 4o 4 1
GPT-4o được tái bản với loạt khả năng hữu dụng, tiện ích.

Tiếp đến là khả năng nhận diện hình ảnh hay cả màn hình máy tính. Bạn có thể hỏi nhãn hàng nào xuất hiện trong bức hình hay thậm chí là yêu cầu GPT-4o lập trình đoạn code và phân tích lỗi thay bạn. Tính năng này chẳng khác nào Multisearch kết hợp với Circle to Search trên trên Samsung Galaxy S24 Ultra!  Theo CTO Murati, các tính năng này sẽ còn tiếp tục được nâng cấp mạnh mẽ hơn trong tương lai.

Cô còn khẳng định rằng GPT-4o tiên tiến sẽ có cả khả năng “xem”một trận thi đấu thể thao trực tiếp rồi bình luận, mô tả luật chơi cho mọi người. Thậm chí, nó còn giúp người dùng xem các video bài giảng, livestream, tài liệu học tập… rồi tóm tắt các ý chính hay kiến thức cô đọng có trong bài giảng. 

Nhìn chung, GPT-4o chính là một mô hình ngôn ngữ mạnh mẽ với nhiều cải tiến vượt trội so với phiên bản trước. Khả năng ghi nhớ, học hỏi, dịch thuật, trò chuyện bằng giọng nói và xử lý hình ảnh của model này hứa hẹn mang đến nhiều ứng dụng thực tế trong đa dạng lĩnh vực. Tuy nhiên, cần lưu ý rằng GPT-4o vẫn đang trong giai đoạn phát triển và hoàn thiện.

Một số hạn chế tiềm ẩn của model vẫn xảy ra như khả năng thiên vị, tạo ra thông tin sai lệch và thiếu khả năng kiểm soát thực tế. Do đó, việc sử dụng GPT-4o cần đi kèm với sự giám sát và đánh giá cẩn thận để đảm bảo tính an toàn và hiệu quả.

Loạt công nghệ và những tính năng cập nhật mới dự kiến sẽ được triển khai cho GPT-4o vào những tháng tới. Tin vui là người dùng ChatGPT miễn phí cũng sẽ có lượng lớn số lần tương tác giới hạn với mô hình tiên tiến này. Ứng dụng sẽ tự động chuyển về lại bản GPT-3.5 cũ khi hết lượt tương tác miễn phí. Người dùng trả phí sẽ được quyền ưu tiên truy cập ChatGPT với số lượng tin nhắn tương tác lớn hơn thông qua mô hình GPT-4o.