Trí khôn của AI đang bị thử thách bằng game Super Mario

Đăng ngày: 06 03, 2025

Theo、TechCrunch, nhiều người nghĩ

Pokémon、đã là bài kiểm tra khó nhằn nhất cho

trí tuệ nhân tạo

? Nhưng công cuộc thử thách AI chưa dừng lại ở đó, mới đây, các nhà nghiên cứu tại đại học California San Diego vừa đưa ra một thách thức mới với trò chơi

Super Mario Bros. Kết quả cho thấy, không phải AI nào cũng có thể 'về đích' thành công.

Game Mario đang được dùng để thử nghiệm hiệu suất các mô hình AI lớn

ẢNH: CHỤP MÀN HÌNH TECHCRUNCH

Super Mario mang đến thách thức lớn cho các mô hình AI

Phòng thí nghiệm Hao AI đã đưa AI vào

thế giới、của Mario, nhằm kiểm tra khả năng của các mô hình ngôn ngữ hàng đầu hiện nay. Kết quả cho thấy, Claude 3.7 của Anthropic hoạt động tốt nhất, theo sau là Claude 3.5. Trong khi đó, Gemini 1.5 Pro của Google và GPT-4o của OpenAI gặp nhiều khó khăn hơn trong việc tự chơi game.

Cần lưu ý, đây không phải là phiên bản

Super Mario Bros. gốc năm 1985. Trò chơi được chạy trên trình giả lập, tích hợp với framework GamingAgent để AI điều khiển chú lùn

Mario. GamingAgent cung cấp hướng dẫn cơ bản cho AI và ảnh chụp màn hình trò chơi. AI sau đó tạo ra mã Python để điều khiển nhân vật.

Theo Hao AI, trò chơi buộc các mô hình phải 'học' cách lập kế hoạch di chuyển phức tạp và xây dựng chiến lược chơi. Điều thú vị là các mô hình 'lý luận' như o1 của OpenAI, vốn mạnh hơn trên hầu hết các bài kiểm tra, lại gặp khó khăn hơn so với các mô hình 'phi lý luận' .

Lý do được đưa ra là các mô hình lập luận mất thời gian để đưa ra quyết định, trong khi

Super Mario Bros.

đòi hỏi phản xạ nhanh nhạy. Một giây chậm trễ có thể dẫn đến thất bại.

Việc sử dụng trò chơi để đánh giá AI đã diễn ra từ lâu, nhưng nhiều chuyên gia vẫn hoài nghi về tính chính xác của phương pháp này. Họ cho rằng trò chơi quá đơn giản và cung cấp quá nhiều dữ liệu để huấn luyện AI, không phản ánh đúng khả năng của AI trong thế giới thực.

Andrej Karpathy, một nhà khoa học nghiên cứu tại

OpenAI, gọi đây là 'khủng hoảng đánh giá'. Ông thừa nhận rằng hiện tại không có thước đo chính xác nào để đánh giá năng lực của AI.

Dù những tranh luận về tính chính xác của việc đánh giá AI qua trò chơi vẫn còn, việc chứng kiến AI 'chiến đấu' trong thế giới của Mario vẫn mang đến những trải nghiệm thú vị và giúp mọi người hiểu rõ hơn về khả năng của AI.

//Chèn ads giữa bài

.push {、//Nếu k chạy ads thì return

if、return;、var mutexAds = '';

var content = $;

if {、var childNodes = content[0].childNodes;

for {、var childNode = childNodes[i];

var isPhotoOrVideo = false;

if == 'div') {

// kiem tra xem co la anh khong?

var type = $.attr + '';

if >= 0) {、isPhotoOrVideo = true;

}、}、try {、if && && !isPhotoOrVideo) {

if {、childNode.after);

arfAsync.push;

}、break;、}、}、catch { }、}、}、});、function htmlToElement {

var template = document.createElement;

template.innerHTML = html;

return template.content.firstChild;

}