Bài test Minesweeper: ChatGPT hay Gemini viết game giỏi hơn?

367
QC
Banner MacBook Neo

PV Tech News – Một bài thử thực tế yêu cầu 4 trợ lý viết code AI dựng game Minesweeper đã chỉ ra OpenAI Codex (đại diện cho hệ ChatGPT) vượt trội, trong khi Google Gemini CLI “trượt dài” với điểm số thấp nhất.

Để xem các trợ lý lập trình bằng AI giỏi đến đâu ngoài những demo hào nhoáng, Ars Technica đã giao cho bốn công cụ một nhiệm vụ rất cụ thể: tự tay viết một bản Minesweeper chạy trên web. Yêu cầu đặt ra không hề nhẹ: game phải có giao diện dùng được, hỗ trợ âm thanh, chơi tốt trên thiết bị cảm ứng và thêm một “twist” gameplay nhỏ để khác biệt với bản gốc, từ đó đánh giá khả năng hiểu yêu cầu, xây dựng logic và xử lý UI/UX của từng mô hình.

Xem thêm: Người dùng toàn cầu đã chi 3 tỷ USD cho app ChatGPT

Bài test Minesweeper - đánh giá AI tạo game giỏi nhất
Bài test Minesweeper – đánh giá AI tạo game giỏi nhất (Nguồn: Internet)

Bốn cái tên được đưa lên bàn cân gồm OpenAI Codex, Anthropic Claude Code, Mistral Vibe và Google Gemini CLI. Kết quả cho thấy Codex gần như “gánh team” khi đạt 9/10 điểm: game chạy ổn định, có lưới ô đầy đủ, chording hoạt động chính xác, hiệu ứng âm thanh, tùy chọn bật tắt, hướng dẫn rõ ràng và thậm chí thêm nút “Lucky Sweep” như một biến tấu vui cho người chơi. Tác giả đánh giá sản phẩm của Codex đủ chất lượng để phát hành nếu chỉ tinh chỉnh thêm phần thẩm mỹ.

OpenAI Codex - Dẫn đầu với số điểm 9/10
OpenAI Codex – Dẫn đầu với số điểm 9/10 (Nguồn: Internet)

Claude Code về nhì với 7/10 điểm, được khen là sở hữu giao diện đẹp và hiện đại nhất trong số bốn công cụ. Game có hiệu ứng mượt, âm thanh đầy đủ, thêm Power Mode và Flag Mode tối ưu thao tác trên mobile, nhưng lại thiếu chording nên chưa trọn vẹn cảm giác Minesweeper truyền thống. Mistral Vibe chỉ đạt 4/10: game vẫn chơi được nhưng thiếu âm thanh, không chording, một số nút không hoạt động và UI khá thô, ở mức “demo” hơn là sản phẩm hoàn chỉnh.

Claude Code - Về nhì với số điểm 7/10
Claude Code – Về nhì với số điểm 7/10 (Nguồn: Internet)

Đáng thất vọng nhất là Gemini CLI khi bị chấm 0/10. Trong quá trình thử nghiệm, Gemini liên tục sinh ra code phức tạp, chạy lâu, phụ thuộc nhiều thư viện ngoài và thậm chí không dựng nổi lưới ô đúng nghĩa cho Minesweeper, dù tác giả đã nhiều lần nới lỏng yêu cầu. Trải nghiệm này khiến Gemini CLI bị xem là công cụ kém ổn định nhất trong nhóm, trái ngược với kỳ vọng dành cho sản phẩm đến từ Google.

Thất vọng nhất là Gemini CLI khi đạt 0/10
Thất vọng nhất là Gemini CLI khi đạt 0/10 (Nguồn: Internet)

Từ bài test, có thể thấy AI đã đủ khả năng giúp lập trình viên dựng nhanh những dự án nhỏ như game Minesweeper, nhưng chất lượng vẫn phụ thuộc rất lớn vào từng nền tảng và vẫn cần con người rà soát, tối ưu. OpenAI Codex (và hệ sinh thái quanh ChatGPT) đang tỏ ra dẫn trước trong mảng “AI viết game mini”, trong khi Gemini CLI vẫn còn nhiều việc phải làm nếu muốn thuyết phục cộng đồng lập trình. Nếu bạn quan tâm tới các bài test AI thú vị, những công cụ lập trình mới và xu hướng công nghệ game, đừng quên theo dõi Phong Vũ Tech News để không bỏ lỡ bất kỳ cập nhật nào.

Nguồn: Tomshardware

Bài viết liên quan: