Trong một cuộc trò chuyện bên lề tại GTC, người sáng lập kiêm Giám đốc điều hành của NVIDIA và người đồng sáng lập OpenAI, Ilya Sutskever đã thảo luận về GPT-4, ChatGPT, tương lai của deep learning và cách tất cả chúng bắt đầu như thế nào.
Giống như những người bạn cũ ngồi uống cà phê với nhau, hai biểu tượng của ngành đã phản ánh về cách AI hiện đại bắt đầu, hiện nó đang ở đâu và nó cần phải đi đến đâu tiếp theo.
Jensen Huang, người sáng lập kiêm Giám đốc điều hành của NVIDIA, đã phỏng vấn nhà tiên phong về AI Ilya Sutskever trong một cuộc trò chuyện bên lề tại GTC. Cuộc nói chuyện được ghi lại một ngày sau khi ra mắt GPT-4, mô hình AI mạnh nhất cho đến nay của OpenAI, công ty nghiên cứu mà Sutskever đồng sáng lập.
Họ đã nói rất nhiều về GPT-4 và những mô hình tiền nhiệm của nó, bao gồm ChatGPT. Mô hình AI sáng tạo (generative AI) đó, mặc dù chỉ mới ra mắt vài tháng nhưng đã là ứng dụng máy tính phổ biến nhất trong lịch sử.
Cuộc trò chuyện của họ đã đề cập đến các khả năng, giới hạn và hoạt động bên trong của các mạng nơ-ron nhân tạo sâu (deep neural networks) đang thu hút trí tưởng tượng của hàng trăm triệu người dùng.
Sutskever cho biết so với ChatGPT, GPT-4 đánh dấu một “cải tiến khá đáng kể về nhiều mặt”, đồng thời lưu ý rằng mô hình mới có thể đọc hình ảnh cũng như văn bản.
Ông nói: “Trong một số phiên bản trong tương lai, người dùng có thể nhận lại một biểu đồ để trả lời một truy vấn”.
Bên trong GPT
Huang cho biết: “Có một sự hiểu lầm rằng ChatGPT là một mô hình ngôn ngữ lớn (large language model) nhưng thực tế là có cả một hệ thống xung quanh nó.”
Một dấu hiệu của sự phức tạp đó, Sutskever cho biết OpenAI sử dụng hai cấp độ đào tạo.
Giai đoạn đầu tiên tập trung vào việc dự đoán chính xác từ tiếp theo trong một chuỗi. “Những gì mạng lưới thần kinh học được là một số đại diện của quá trình tạo ra văn bản và đó là hình chiếu của thế giới”, ông nói.
Thứ hai “Nó là nơi chúng tôi giao tiếp với mạng nơ-ron thần kinh nhân tạo về những gì chúng tôi muốn… để nó trở nên đáng tin cậy và chính xác hơn”, ông ấy nói thêm.
Sự hiện diện vào thời điểm tạo ra
Trong khi ông ấy đang ở trung tâm của AI hiện đại ngày nay, Sutskever cũng đã hiện diện ở giai đoạn sáng tạo ra nó.
Năm 2012, ông ấy là một trong những người đầu tiên chứng minh sức mạnh của mạng thần kinh sâu được đào tạo trên những bộ dữ liệu khổng lồ. Trong một cuộc thi học thuật, mô hình AlexNet mà ông ấy đã trình diễn với những người tiên phong về AI Geoff Hinton và Alex Krizhevsky đã nhận dạng hình ảnh nhanh hơn khả năng của con người.
Huang gọi công việc của họ là “vụ nổ Big Bang của AI“.
Kết quả “đã phá vỡ kỷ lục với biên độ lớn như vậy, rõ ràng là có sự đứt đoạn ở đây”, Huang nói.
Sức mạnh của xử lý song song
Một phần của bước đột phá đó đến từ quá trình xử lý song song mà nhóm đã áp dụng cho mô hình của mình bằng GPU.
Sutskever cho biết: “Bộ dữ liệu ImageNet và mạng nơ-ron tích chập (convolutional neural network) rất phù hợp với GPU, giúp đào tạo một thứ chưa từng có với tốc độ nhanh đến khó tin.”
Công việc ban đầu đó chạy trên một số GPU GeForce GTX 580 trong phòng thí nghiệm của Đại học Toronto. Hiện tại, hàng chục nghìn GPU NVIDIA A100 và H100 Tensor Core mới nhất trong dịch vụ đám mây Microsoft Azure xử lý đào tạo và suy luận trên các mô hình như ChatGPT.
“Trong 10 năm chúng ta quen biết nhau, những mô hình mà các bạn đào tạo đã tăng lên khoảng một triệu lần”, Huang nói. “Không một ai trong khoa học máy tính có thể tin rằng tính toán được thực hiện trong thời gian đó sẽ lớn hơn một triệu lần.”
Sutskever cho biết: “Tôi có niềm tin rất mạnh mẽ rằng càng lớn thì càng tốt và mục tiêu tại OpenAI là mở rộng quy mô.”
Một tỷ từ
Suốt cuộc trò chuyện, hai người cười nói vui vẻ.
Sutskever nói: “Con người nghe được một tỷ từ trong đời.”
“Điều đó có bao gồm những từ trong đầu tôi không”, Huang đáp trả.
“Hãy biến nó thành 2 tỷ”, Sutskever khẽ trả lời.
Tương lai của AI
Họ đã kết thúc cuộc trò chuyện kéo dài gần một giờ thảo luận về triển vọng của AI.
Khi được hỏi liệu GPT-4 có khả năng lý luận hay không, Sutskever cho rằng thuật ngữ này khó xác định và khả năng này có thể vẫn còn ở phía trước.
Ông nói: “Chúng ta sẽ tiếp tục chứng kiến những hệ thống khiến chúng ta kinh ngạc với những gì chúng có thể làm”. “Biên giới nằm ở độ tin cậy, đến mức chúng ta có thể tin tưởng vào những gì nó có thể làm và nếu nó không biết điều gì đó, thì nó sẽ nói như vậy”, ông nói thêm.
“Thành tích của các bạn thật đáng kinh ngạc… thực sự đáng chú ý”, Huang nói khi kết thúc phiên. “Đây là một trong những thành tựu vượt xa những luận văn Tiến sĩ tốt nhất về sự phát triển của các mô hình ngôn ngữ lớn”.
Để nhận tất cả tin tức từ GTC, hãy xem bài phát biểu quan trọng bên dưới.
Theo NVIDIA
Bài viết liên quan
- LLM: Lịch sử và tương lai của các mô hình ngôn ngữ lớn
- Hướng đến tương lai: Generative AI dành cho các giám đốc điều hành
- Xây dựng mô hình ngôn ngữ lớn (LLM) riêng tư, an toàn trên mạng 5G riêng
- HPE và NVIDIA công bố ‘NVIDIA AI Computing by HPE’ để thúc đẩy cuộc cách mạng AI tạo sinh
- Giải mã hiệu suất AI trên PC và Workstation RTX AI
- NVIDIA bắt đầu chứng nhận cho các loại hệ thống mới sẵn sàng cho Generative AI