Một công ty khởi nghiệp được thành lập bởi ba nhà nghiên cứu từng làm việc tại OpenAI đang phát triển công nghệ ứng dụng AI vào thế giới thực.
Covariant đang tạo ra các giải pháp để robot lấy, di chuyển và phân loại các vật phẩm khi được vận chuyển qua kho và trung tâm phân phối. Mục tiêu của họ là giúp robot hiểu được những gì đang diễn ra xung quanh và tự đưa ra quyết định nên làm gì tiếp theo.
Công nghệ này cũng cung cấp cho robot khả năng hiểu tiếng Anh, cho phép mọi người giao tiếp với chúng như thể đang trò chuyện với ChatGPT.
Công nghệ này vẫn đang được phát triển và còn chưa hoàn thiện. Nhưng đây là một dấu hiệu rõ ràng cho thấy các hệ thống trí tuệ nhân tạo của chatbot và trình tạo hình ảnh cũng có thể điều khiển các máy móc trong môi trường đời thực.
Giống như chatbot và trình tạo hình ảnh, công nghệ robot này học các kỹ năng bằng cách phân tích khối lượng lớn dữ liệu kỹ thuật số. Điều đó có nghĩa là các kỹ sư có thể cải thiện công nghệ bằng cách cung cấp cho nó ngày càng nhiều dữ liệu hơn.
Covariant hiện đã huy động gần 222 triệu USD cho dự án này, trong đó tập trung xây dựng phần mềm điều khiển robot. Mục tiêu của công ty là triển khai công nghệ mới đối với robot làm việc trong nhà kho, qua đó tạo ra tiền đề phát triển công nghệ robot phục vụ nhà máy sản xuất và ô tô tự lái.
Các hệ thống AI điều khiển chatbot và trình tạo hình ảnh được gọi là mạng nơ-ron, được đặt theo tên của mạng lưới các nơ-ron của não bộ.
Bằng cách xác định các mẫu trong khối lượng lớn dữ liệu, các hệ thống này có thể học cách nhận dạng từ, âm thanh và hình ảnh, thậm chí tự tạo ra chúng. Đây là cách OpenAI xây dựng ChatGPT, tăng khả năng trả lời câu hỏi ngay lập tức, viết bài nghiên cứu và tạo chương trình máy tính. Hệ thống cũng học được những kỹ năng này từ văn bản được thu thập từ khắp internet, khiến một số bên thứ ba khởi kiện OpenAI vì vi phạm bản quyền.
Các công ty hiện đang xây dựng hệ thống có thể học hỏi từ các loại dữ liệu khác nhau cùng một lúc. Ví dụ, bằng cách phân tích cả bộ sưu tập ảnh và chú thích mô tả những bức ảnh đó, hệ thống có thể nắm bắt mối tương quan giữa hai thứ. Nó có thể học được rằng từ “chuối” mô tả một loại quả màu vàng có hình dạng cong.
OpenAI đã sử dụng hệ thống đó để xây dựng Sora, trình tạo video mới của họ. Bằng cách phân tích hàng nghìn video có chú thích, hệ thống đã học được cách tạo video khi được cung cấp mô tả ngắn về một cảnh, chẳng hạn như "thế giới rạn san hô được làm thủ công bằng giấy tuyệt đẹp, đầy ắp cá nhiều màu sắc và sinh vật biển."
Covariant, được thành lập bởi Pieter Abbeel, giáo sư tại Đại học California, Berkeley, và ba cựu sinh viên của ông, Peter Chen, Rocky Duan và Tianhao Zhang, đã sử dụng các kỹ thuật tương tự để xây dựng hệ thống điều khiển robot kho bãi.
Công ty giúp vận hành robot phân loại trong các kho hàng trên toàn cầu. Họ đã dành nhiều năm để thu thập dữ liệu từ camera và các cảm biến khác để thấy cách thức hoạt động của những robot này.
Tiến sĩ Chen cho biết: “Chúng tôi thu thập tất cả các loại dữ liệu cần thiết cho robot - có thể giúp chúng hiểu thế giới thực và tương tác với nó."
Bằng cách kết hợp dữ liệu đó với khối lượng lớn văn bản được sử dụng để đào tạo chatbot như ChatGPT, công ty đã xây dựng công nghệ AI giúp robot của họ hiểu biết rộng hơn nhiều về thế giới xung quanh.
Sau khi xác định các quy tắc trong tổng hợp những hình ảnh, dữ liệu cảm biến và văn bản, công nghệ này cung cấp cho robot năng lực để xử lý các tình huống bất ngờ trong đời thật. Ví dụ, robot biết cách cầm một quả chuối, ngay cả khi trước đó nó chưa bao giờ nhìn thấy quả chuối. Nó cũng có thể phản hồi bằng tiếng Anh đơn giản, giống như một chatbot. Nếu bạn bảo nó "hãy cầm một quả chuối", nó sẽ biết điều đó có nghĩa là gì. Nếu bạn bảo nó "hãy nhặt một quả màu vàng", nó cũng hiểu điều đó.
Nó thậm chí có thể tạo video dự đoán những gì có thể xảy ra khi nó cố gắng cầm một quả chuối. Những video này không có tác dụng thực tế trong nhà kho, nhưng chúng cho thấy sự hiểu biết của robot về môi trường xung quanh.
Tiến sĩ Abbeel nói: "Nếu robot có thể dự đoán các khung hình tiếp theo trong video, nó có thể xác định chính xác chiến lược cần thực hiện."
Công nghệ này, được gọi là R.F.M., viết tắt của mô hình nền tảng robot (robotics foundational model) vẫn mắc lỗi giống như chatbot. Mặc dù nó thường hiểu những gì mọi người yêu cầu, nhưng vẫn có khả năng nó sẽ không hiểu, hay thỉnh thoảng làm rơi đồ vật.
Gary Marcus, một doanh nhân về AI và là giáo sư danh dự về tâm lý học và khoa học thần kinh tại Đại học New York, cho biết công nghệ này có thể hữu ích trong kho bãi và các tình huống khác, nơi có thể chấp nhận được sai sót. Nhưng ông nói sẽ khó khăn và rủi ro hơn khi triển khai trong các nhà máy sản xuất và các tình huống nguy hiểm tiềm ẩn khác.
Ông nói: "Điều đó phụ thuộc vào chi phí của lỗi. Nếu bạn có một con robot cả trăm kg, thì hệ quả của sai sót có thể là rất nghiêm trọng."
Các nhà nghiên cứu tin rằng khi những công ty đào tạo hệ thống này trên nguồn dữ liệu ngày càng lớn và đa dạng, hiệu quả của các robot sẽ nhanh chóng được cải thiện.
Bằng cách học hỏi từ dữ liệu kỹ thuật số, robot có thể bắt đầu xử lý những điều bất ngờ. Và khi những ví dụ đó được ghép nối với ngôn ngữ, robot cũng có thể phản hồi các đề xuất bằng văn bản và giọng nói, giống như chatbot.
Điều này có nghĩa là giống như chatbot và trình tạo hình ảnh, robot sẽ trở nên linh hoạt hơn.
Tiến sĩ Chen nói: "Những gì có thể xảy ra trong dữ liệu kỹ thuật số thì cũng có thể chuyển vào thế giới thực."