Chúc mừng năm mới

Xung quanh phần mềm AI"gây bão" của Trung Quốc

Tùng Lâm
Chia sẻ Zalo

Kinhtedothi - DeepSeek-R1, sản phẩm mới nhất trong chuỗi mô hình ngôn ngữ lớn (LLM) của DeepSeek, đang nổi lên như một đối thủ đáng gờm trước sự thống trị của OpenAI, Google và Meta.

Được phát triển với số lượng chip ít hơn và chi phí thấp, DeepSeek-R1 đang làm thay đổi cuộc chơi trong lĩnh vực AI.

Khả năng của DeepSeek-R1

DeepSeek-R1 được xây dựng dựa trên các mô hình trước đó của công ty. Trước đó, DeepSeek-Coder-V2 với 236 tỷ tham số đã gây ấn tượng mạnh nhờ khả năng xử lý 128.000 mã thông báo trong một lần truy vấn, giúp mô hình này đặc biệt hiệu quả khi làm việc với văn bản dài, tài liệu phức tạp hoặc cuộc hội thoại mở rộng.

Được phát triển với số lượng chip ít hơn và chi phí thấp so với các phần mềm AI khác, DeepSeek-R1 đang làm thay đổi cuộc chơi trong lĩnh vực AI. Ảnh: X Screengrab
Được phát triển với số lượng chip ít hơn và chi phí thấp so với các phần mềm AI khác, DeepSeek-R1 đang làm thay đổi cuộc chơi trong lĩnh vực AI. Ảnh: X Screengrab

DeepSeek-V3, với 671.000 tham số, tiếp tục mở rộng quy mô và cải thiện hiệu suất, tiêu tốn ít tài nguyên hơn so với các đối thủ mà vẫn đạt hiệu suất ấn tượng trong các bài kiểm tra chuẩn hóa. Đặc biệt, DeepSeek-R1, ra mắt vào tháng này, tập trung vào các nhiệm vụ phức tạp như suy luận logic, lập trình và toán học, trở thành một đối thủ thực sự của mô hình o1 từ OpenAI.

Một điểm đáng chú ý của DeepSeek là mô hình này được cung cấp miễn phí cho người dùng. Khác với các hệ thống như OpenAI o1 hoặc Claude Sonnet yêu cầu đăng ký trả phí, DeepSeek không áp đặt bất kỳ hạn ngạch nào. Google Gemini có phiên bản miễn phí, nhưng chỉ giới hạn ở các mô hình cũ hơn. Điều này giúp DeepSeek trở thành một lựa chọn hấp dẫn cho người dùng AI trên toàn cầu.

Người dùng có thể truy cập DeepSeek thông qua nền tảng trò chuyện "chat.deepseek", nhập lệnh và nhận phản hồi tức thì. Tính năng "suy nghĩ sâu" (deep thinking) giúp người dùng có được những phân tích chi tiết hơn, mặc dù cần kiểm tra độ chính xác của thông tin.

Thách thức và cơ hội trước các hạn chế của Mỹ

DeepSeek đã tối ưu thuật toán để bù đắp sự thiếu hụt phần cứng do lệnh cấm xuất khẩu chip Nvidia sang Trung Quốc. Theo báo cáo, DeepSeek có thể đạt được hiệu suất tương đương với ChatGPT bằng cách sử dụng chỉ 2.000 GPU thay vì 10.000 GPU như OpenAI.

Ngoài ra, công ty đã hợp tác với AMD để sử dụng GPU Instinct và phần mềm ROCM trong quá trình phát triển DeepSeek-V3. Liang Wenfeng cũng được cho là đã mua số lượng lớn chip Nvidia A100 trước khi lệnh cấm có hiệu lực, giúp DeepSeek duy trì lợi thế công nghệ.

Alexandr Wang, CEO của ScaleAI, nhấn mạnh DeepSeek là "một mô hình làm thay đổi thế giới" tại Diễn đàn Kinh tế Thế giới Davos. Trong khi đó, một số chuyên gia phương Tây bày tỏ lo ngại về khả năng DeepSeek trở thành công cụ giám sát hoặc kiểm soát thông tin.

Ross Burley, đồng sáng lập Trung tâm Phục hồi Thông tin, cảnh báo AI của Trung Quốc có thể bị sử dụng như một công cụ địa chính trị. Ông cho rằng các công nghệ như DeepSeek có thể bị khai thác để kiểm soát thông tin hoặc phục vụ các mục đích giám sát.

Gregory Allen, giám đốc Trung tâm AI Wadhwani tại CSIS, cho rằng thời điểm ra mắt của DeepSeek có thể mang ý nghĩa chính trị, với mục đích chứng minh lệnh trừng phạt của Mỹ không thể ngăn cản sự phát triển AI của Trung Quốc.

DeepSeek-R1 đang mở ra một kỷ nguyên mới trong lĩnh vực AI, nơi các công ty có thể đạt hiệu suất cao với ít tài nguyên hơn. Dù còn nhiều thách thức về bảo mật và địa chính trị, DeepSeek đang chứng minh Trung Quốc có thể tạo ra các mô hình AI cạnh tranh với những tên tuổi công nghệ hàng đầu thế giới.