Góc nhìn sâu sắc về DeepSeek AI và cuộc đua công nghệ

Dạo này chủ đề AI nóng quá. Chưa bao giờ xã hội cập nhật với công nghệ sát sao như thế. Hồi tôi mới tìm hiểu về GPT (cuối 2022, đầu 2023) thì VnExpress chỉ lác đác ra một vài bài viết về trí tuệ nhân tạo. Tới giờ sau 2 năm, AI đã thành chủ đề cực nóng để khai thác tin bài.

DeepSeek R1, mô hình AI có áp dụng quy trình tư duy Chain-of-Thought (CoT) vừa mới ra mắt đã làm chao đảo giới công nghệ. Tôi mới thử DeepSeek được 3 hôm thì báo mạng cũng đã tràn ngập tin về DeepSeek.

DeepSeek đặc biệt ở chỗ nếu GPT-4 mất 100 triệu đô-la để huấn luyện, thì DeepSeek V3 (phiên bản trước của R1) chỉ mất nghe đồn khoảng 5.6 triệu đô-la. Sự ra mắt của DeepSeek R1 đã thổi bay 2 ngàn tỷ đô-la (12 con số 0) giá trị vốn hoá của thị trường chứng khoán Mỹ, và 500 tỷ đô-la của công ty chip NVIDIA.

Sau đó báo mạng tràn ngập các bài viết kiểu như: DeepSeek ăn cắp dữ liệu của OpenAI (GPT) và Meta, hay là DeepSeek làm lộ thông tin…

Thế giới lại phân mảnh thành 2 phần, một nửa yêu Mỹ ghét Trung (TQ), và phần còn lại. Nửa đầu này nhất định cho rằng TQ chỉ giỏi ăn cắp và bao đời nay vẫn thế, không làm được cái gì tử tế mà chỉ xào nấu lại.

Với những người hiểu về TQ, hiểu về AI thì họ chỉ mỉm cười.

Thứ nhất, OpenAI có được ngày hôm nay là vì (1) họ kế thừa được kiến trúc Transformer của Google và (2) họ cào được một lượng dữ liệu khổng lồ miễn phí từ trên mạng. Thực ra là không miễn phí đâu mà nó sẵn có thì thu thập về huấn luyện AI thôi, chứ giờ các bên vẫn đang lùm xum kiện nhau đòi trả bản quyền cho đống dữ liệu đó.

Thứ hai, TQ từ bấy lâu nay đã khét mù trong lĩnh vực AI, năng lượng mặt trời, xe điện chạy pin rồi. Nếu hay lên đọc các AI papers trên arXiv thì bạn sẽ biết non nửa tác giả là các bác Xia, Zhang, Wang, Gao… rồi. Số lượng tiến sĩ AI và toán của Trung Quốc mà nhận thứ 2 thì không ai dám nhận số 1.

Thứ ba, OpenAI có công khai dữ liệu họ huấn luyện và các model weight đâu? Cách mà DeepSeek dùng là chưng cất (distillation), nghĩa là đặt câu hỏi cho OpenAI trả lời và mượn đáp án đó để mô phỏng theo và cân chỉnh model weight của mình. Đây là kỹ thuật rất thông minh mà nhiều công ty AI đang sử dụng, chỉ là không nói ra thôi.

Thứ tư, DeepSeek public luôn model của mình cùng các phiên bản rút gọn cho mọi người truy cập và sử dụng trên Hugging Face, điều mà “Open”AI đã thất bại khi trở thành một công ty vì lợi nhuận và hết “open”. DeepSeek chơi quân tử hay đây là con bài chính trị để phá thế độc quyền của OpenAI (và Mỹ?) thì tôi không biết, nhưng chắc chắn nó hữu ích cho người dùng và các công ty/quốc gia nhỏ không có điều kiện kinh tế để huấn luyện các mô hình AI.

Thứ năm, để hiệu suất ngon lành mà vẫn có khả năng tư duy (reasoning) bén như thế, DeepSeek còn nhiều võ rất hay, ví dụ như V3 và R1 áp dụng kiến trúc MoE (Mixture of Experts) thay cho Dense Transformer mà GPT-4 vẫn đang dùng. Thế nên cho dù có 671B parameters thì chỉ cần kích hoạt 37B parameters khi truy vấn là được. Rất hiệu quả, thậm chí các bản chỉ có 7B, 8B distillation vẫn chạy tốt trên laptop thường. Hay như phương pháp Reinforcement Learning (RL) mà không cần Supervise Fine-Tuning (SFT) vẫn mang tới khả năng reasoning cực tốt, phù hợp giải toán, coding và các suy luận logic được áp dụng ở phiên bản R1 Zero.

Hiểu dăm điều như thế thì không muốn tranh cãi nữa.

Biết mười chỉ nên nói một.
Trước khi nói phải uốn lưỡi 7 lần.
Không biết, nhất thiết không nói.

Nếu bạn nghĩ là bạn có kiến thức sâu sắc trong lĩnh vực này, tôi xin gửi bạn một vài câu hỏi hay để tư duy thêm.

Các phương pháp cắt giảm chi phí DeepSeek áp dụng để tạo ra V3 và R1 có dễ để phương Tây làm theo hay không? Bao giờ sẽ xuất hiện những model rẻ và mạnh như vậy? Nó có phải là một cuộc cách mạng trong AI không hay chỉ là một bước tiến bộ tất yếu?
Thời điểm tung V3, R1 có nhạy cảm và nhằm đạt được mục đích cao nhất hay không?
TQ có dùng chip xịn nhất để huấn luyện DeepSeek hay chỉ dùng chip hạng B? Chi phí cho DeepSeek có thực chỉ là 5.6M đô-la (2.8 million GPU hours)?
Liệu với các model mạnh mẽ nhưng tiết kiệm do cải tiến về huấn luyện, nhu cầu về chip GPU có giảm đi hay không?

Dario Amodei, CEO của Anthropic, mới viết một bài rất hay, bạn cũng có thể đọc thêm để có 1 góc nhìn của chuyên gia trong cuộc.

Khai bút đầu xuân Ất Tỵ.

Photo by Ernie A. Stephens on Unsplash

Bài liên quan