Friday, 09:46 10/10/2025

Mô hình AI Gemini 2.5 có thể thao tác như con người

Hà Thanh

Kinhtedothi- Mới đây, Google đã giới thiệu mô hình AI Gemini mới có thể thực hiện các thao tác như con người.

Google vừa giới thiệu mô hình AI Gemini mới, được thiết kế để điều hướng và tương tác với trang web, cho phép các tác nhân AI thực hiện các tác vụ bên trong các giao diện được thiết kế cho con người chứ không phải robot. Được biết, mô hình mới có tên là Gemini 2.5 Computer Use, mô hình AI này sử dụng khả năng hiểu và lập luận trực quan để phân tích yêu cầu của người dùng và thực hiện một tác vụ.

Hình ảnh 1 — Mô hình AI Gemini 2.5 Computer Use có thể thao tác như con người

Theo thông tin từ Google thì Gemnini 2.5 Computer Use có thể được sử dụng để kiểm tra giao diện người dùng hoặc điều hướng các giao diện được thiết kế cho những người không có API hoặc kết nối trực tiếp khác.

Các phiên bản khác của mô hình này đã được sử dụng trong các tính năng tác nhân (agentic) của AI Mode và Project Mariner- một nguyên mẫu nghiên cứu cho phép các tác nhân AI tự động thực hiện tác vụ trong trình duyệt, chẳng hạn như thêm sản phẩm vào giỏ hàng dựa trên danh sách mua sắm.

Thông báo của Googloe chỉ đưa ra sau một ngày khi OpenAI công bố loạt ứng dụng ChatGPT mới trong sự kiện Dev Day thường niên. Công ty này cho thấy trọng tâm của họ vẫn là các tính năng ChatGPT Agent- cho phép AI hoàn thành các nhiệm vụ phức tạp thay cho người dùng. Trong khi đó, Anthropic đã phát hành phiên bản AI Claude hỗ trợ computer use từ năm ngoái.

Cụ thể, Google đã đăng một số video demo cho thấy công cụ sử dụng máy tính của họ hoạt động như thế nào và lưu ý rằng chúng được tăng tốc gấp 3 lần.

Google cũng cho biết mô hình computer use của họ vượt trội hơn các đối thủ hàng đầu trên nhiều bài kiểm tra chuẩn cho web và di động. Tuy nhiên, khác với ChatGPT Agent của OpenAI hay công cụ sử dụng máy tính của Anthropic, mô hình AI mới của Google chỉ có quyền truy cập vào trình duyệt web, không phải toàn bộ môi trường máy tính.

Công ty cũng lưu ý: mô hình này chưa được tối ưu hóa để điều khiển ở cấp độ hệ điều hành máy tính để bàn và hiện hỗ trợ 13 thao tác, bao gồm mở trình duyệt web, nhập văn bản cũng như kéo và thả các thành phần.

Gemini 2.5 Computer Use có sẵn cho các nhà phát triển thông qua Google AI Studio và Vertex AI, nhưng cũng có bản demo trên Browserbase- nơi người dùng có thể theo dõi quá trình hoàn thành các nhiệm vụ.