Ra mắt vào năm 2018, Kiến trúc GPU Turing của NVIDIA đã mở ra tương lai của đồ họa 3D và điện toán tăng tốc GPU. Turing mang lại những tiến bộ lớn về hiệu năng và hiệu suất cho việc chơi game trên PC, các ứng dụng đồ họa chuyên nghiệp và suy luận học sâu. Sử dụng các bộ tăng tốc dựa trên phần cứng mới, Turing hợp nhất quá trình rasterization, dò tia thời gian thực, AI và mô phỏng để mang lại tính chân thực đáng kinh ngạc trong các trò chơi trên PC và trải nghiệm tương tác chất lượng điện ảnh. Hai năm sau, vào năm 2020, kiến trúc NVIDIA Ampere kết hợp các RT Core và Tensor Core mạnh mẽ hơn, cùng với cấu trúc SM mới mang lại hiệu năng gấp 2 lần FP32, clock-for-clock, so với GPU Turing. Những cải tiến này cho phép kiến trúc Ampere chạy nhanh hơn tới 1,7 lần so với Turing trong đồ họa raster truyền thống và nhanh hơn tới 2 lần trong dò tia.
Kiến trúc GPU NVIDIA Ada Lovelace mới, được đặt theo tên của nhà toán học Ada Lovelace, người thường được coi là lập trình viên máy tính đầu tiên trên thế giới, đã nâng tầm vượt xa GPU Turing và Ampere. Trong khi những cải tiến trong quy trình sản xuất silicon đang chậm lại thì đồ họa máy tính hiện đại lại chứng kiến độ phức tạp tăng lên theo cấp số nhân. Sự gia tăng về độ phức tạp hình học và những đổi mới về kỹ thuật ánh sáng đã mang lại đồ họa trông sống động hơn bao giờ hết. Battlefield V là tựa game đầu tiên tận dụng phương pháp dò tia kết xuất kết hợp của NVIDIA, yêu cầu 39 thao tác dò tia trên mỗi pixel để tính toán hiệu ứng ánh sáng trong một cảnh điển hình. Bốn năm sau, Cyberpunk 2077 chạy với RT: Chế độ Overdrive mới đẩy hơn 600 phép tính dò tia trên mỗi pixel.
Những cái tiến mới trong thế hệ Ada Lovelace
Tensor Core thế hệ thứ tư
NVIDIA Tensor Cores cho phép và tăng tốc các công nghệ AI, bao gồm NVIDIA DLSS và tốc độ khung hình mới được nhân lên với NVIDIA DLSS 3.
Tensor Core thế hệ thứ tư mới của Ada nhanh đến mức không thể tin được, tăng thông lượng lên tới 5 lần, lên 1,4 Tensor-petaFLOPS bằng cách sử dụng transformer engine FP8 mới, lần đầu tiên được giới thiệu trong dòng GPU trung tâm dữ liệu Hopper H100.
RT Core thế hệ thứ ba
NVIDIA đã biến tính năng dò tia theo thời gian thực thành hiện thực bằng phát minh ra Ray Tracing Core (RT Core), lõi xử lý chuyên dụng trên GPU được thiết kế đặc biệt để giải quyết tải xử lý dò tia đòi hỏi nhiều hiệu năng.
RT Core thế hệ thứ ba của Ada có thông lượng giao nhau giữa tia-tam giác gấp đôi, tăng hiệu suất RT-TFLOP lên hơn 2 lần.
Các RT Core mới cũng bao gồm Công cụ Opacity Micromap (OMM) mới và Công cụ Displaced Micro-Mesh (DMM) mới. Công cụ OMM cho phép dò tia nhanh hơn nhiều đối với các kết cấu đã được thử nghiệm alpha thường được sử dụng cho tán lá, hạt và hàng rào. Công cụ DMM mang lại thời gian xây dựng Hệ thống phân cấp khối lượng giới hạn (BVH) nhanh hơn tới 10 lần với không gian lưu trữ BVH ít hơn tới 20 lần, cho phép dò tia theo thời gian thực đối với các cảnh phức tạp về mặt hình học.
Shader Execution Reordering
Tính năng dò tia nâng cao yêu cầu tính toán tác động của nhiều tia chiếu vào nhiều loại vật liệu khác nhau trong một cảnh, tạo ra một chuỗi tải xử lý khác nhau, không hiệu quả cho các trình đổ bóng (các trình đổ bóng tính toán mức độ sáng, tối và màu sắc thích hợp trong quá trình hiển thị cảnh 3D, và được sử dụng trong mọi trò chơi hiện đại).
Công nghệ Shader Execution Reordering (SER) sắp xếp lại một cách linh hoạt những tải xử lý kém hiệu quả trước đây thành những tải xử lý hiệu quả hơn đáng kể. SER có thể cải thiện hiệu suất đổ bóng cho hoạt động dò tia lên tới 3 lần và tốc độ khung hình trong trò chơi lên tới 25%.
DLSS 3
NVIDIA DLSS 3 là một bước đột phá mang tính cách mạng trong đồ họa hỗ trợ AI giúp tăng hiệu suất một cách đáng kể. Được hỗ trợ bởi Tensor Core thế hệ thứ tư và Bộ tăng tốc luồng quang học trên GPU dòng GeForce RTX 40, DLSS 3 sử dụng AI để tạo thêm các khung hình chất lượng cao.
Bộ mã hóa AV1
Card đồ họa được xây dựng dựa trên kiến trúc Ada có Bộ mã hóa NVIDIA (NVENC) thế hệ thứ tám mới với AV1 Encoder, mang lại nhiều khả năng mới cho các live streamer, đài truyền hình và video call.
Nó hiệu quả hơn 40% so với H.264 và cho phép người dùng live streaming ở độ phân giải 1080p tăng độ phân giải luồng của họ lên 1440p trong khi chạy ở cùng tốc độ bit và chất lượng.
Ada cung cấp bản nâng cấp hiệu suất thế hệ lớn nhất trong lịch sử của NVIDIA. Điều này được thực hiện nhờ ba đổi mới quan trọng:
● Kiến trúc mới mang tính cách mạng: GPU kiến trúc NVIDIA Ada mang lại hiệu suất vượt trội cho đồ họa, AI và tải xử lý tính toán với hiệu suất năng lượng và kiến trúc đặc biệt. Sau khi thiết kế cơ bản cho Ada SM được thiết lập, con chip này đã được nâng cấp quy mô để phá vỡ các kỷ lục. Những cải tiến trong sản xuất và nghiên cứu vật liệu đã cho phép các kỹ sư NVIDIA chế tạo GPU với 76,3 tỷ bóng bán dẫn và 18.432 nhân CUDA có khả năng chạy ở xung nhịp trên 2,5 GHz, trong khi vẫn duy trì cùng mức TGP 450W như GPU GeForce® RTX™ 3090 Ti hàng đầu thế hệ trước. Kết quả là GPU nhanh nhất thế giới với các đặc tính về sức mạnh, âm thanh và nhiệt độ được mong đợi của một card đồ họa cao cấp.
● Ada RT Core mới cho phép dò tia nhanh hơn: Trong nhiều thập kỷ, việc hiển thị các cảnh dò tia với ánh sáng vật lý chính xác trong thời gian thực đã được coi là chén thánh của đồ họa. Đồng thời, độ phức tạp hình học của môi trường và vật thể tiếp tục tăng lên khi trò chơi và đồ họa 3D liên tục cố gắng cung cấp những hình ảnh thể hiện chính xác nhất về thế giới thực. Ada RT Core đã được cải tiến để cung cấp thử nghiệm giao nhau tia-tam giác nhanh hơn gấp 2 lần và bao gồm hai đơn vị phần cứng mới quan trọng. Công cụ bản đồ vi mô độ mờ tăng tốc độ dò tia của hình học đã được thử nghiệm alpha lên gấp 2 lần và Công cụ lưới vi mô dịch chuyển tạo ra các Tam giác vi mô dịch chuyển nhanh chóng để tạo hình học bổ sung.
● Shader Execution Reordering: GPU NVIDIA Ada hỗ trợ Sắp xếp lại việc thực thi Shader giúp tổ chức và sắp xếp lại một cách linh hoạt các tải xử lý đổ bóng để cải thiện đổ bóng RT Giới thiệu 5 Hiệu quả của Kiến trúc GPU NVIDIA Ada. Điều này cải thiện hiệu suất lên tới 44% trong Cyberpunk 2077 với Ray Tracing: Overdrive Mode.
● NVIDIA DLSS 3: Kiến trúc Ada có Bộ tăng tốc luồng quang học hoàn toàn mới và thế hệ khung AI giúp tăng tốc độ khung hình của DLSS 3 lên gấp 2 lần so với DLSS 2.0 trước đó trong khi vẫn duy trì hoặc vượt quá chất lượng hình ảnh gốc. So với kết xuất đồ họa brute-force truyền thống, DLSS 3 cuối cùng nhanh hơn tới 4 lần trong khi cung cấp độ trễ hệ thống thấp.
GeForce RTX 4090 là card đồ họa GeForce đầu tiên dựa trên kiến trúc Ada mới. Trọng tâm của GeForce RTX 4090 là GPU AD102, đây là GPU mạnh nhất dựa trên kiến trúc NVIDIA Ada. AD102 được thiết kế để mang lại hiệu suất mang tính cách mạng cho game thủ và người sáng tạo, đồng thời cho phép RTX 4090 cung cấp tốc độ khung hình ổn định trên 100 khung hình/giây ở độ phân giải 4K trong nhiều trò chơi.
Đối với trung tâm dữ liệu, GPU NVIDIA L40 mới dựa trên kiến trúc Ada mang lại hiệu năng tính toán hình ảnh chưa từng có. So với GPU NVIDIA A40 thế hệ trước, NVIDIA L40 mang lại hiệu suất tính toán thô gấp 2 lần, hiệu suất kết xuất gần gấp 3 lần và hiệu suất hoạt động Tensor lên tới 724 TFLOPs2 ở cùng mức công suất 300W. NVIDIA L40 là GPU lý tưởng cho các máy chủ chạy các ứng dụng như NVIDIA Omniverse, Generative AI, mô phỏng lái xe tự hành, điện toán hiệu năng cao (HPC) FP32, máy trạm ảo, chơi game trên đám mây cũng như đào tạo và suy luận AI GPU đơn. Hệ thống được chứng nhận NVIDIA với L40 được tối ưu hóa để cung cấp Omniverse trên quy mô lớn, chẳng hạn như hệ thống NVIDIA OVX tham chiếu bao gồm tám GPU L40 có thể được nâng cấp để cung cấp kết xuất song sinh kỹ thuật số hỗ trợ RTX.
Cuối cùng, NVIDIA L4 dựa trên Ada được thiết kế để trở thành GPU phổ dụng tiêu thụ ít năng lượng tốt nhất cho tải xử lý AI, Đồ họa và Video trong trung tâm dữ liệu. Nhỏ gọn và linh hoạt, GPU L4 72W, cấu hình thấp, khe cắm đơn phù hợp với mọi máy chủ, khiến nó trở nên lý tưởng cho việc triển khai toàn cầu từ các trung tâm dữ liệu khu vực đến vùng biên, bao gồm cả các địa điểm ngoài trời. NVIDIA L4 là sự lựa chọn hoàn hảo cho nhiều ứng dụng như dịch vụ video hỗ trợ AI, AI giọng nói (ASR+NLP+TTS), AI tạo mô hình nhỏ, tìm kiếm & đề xuất, chơi game trên đám mây và Máy trạm ảo, cùng nhiều ứng dụng khác.
→ Xem thêm đặc tả chi tiết kiến trúc GPU NVIDIA Ada Lovelace.
Các mẫu GPU RTX kiến trúc Ada Lovelace mới đã và sẽ ra mắt
Bài viết liên quan
- GPUDirect RDMA là gì?
- GPUDirect Storage là gì?
- Đánh giá GPU máy trạm: Nvidia RTX 6000 Ada Generation
- Hướng dẫn lựa chọn GPU phù hợp cho AI, Machine Learning
- So sánh các GPU Tensor Core của NVIDIA: B200, B100, H200, H100, A100
- NVIDIA giới thiệu nền tảng microservice Metropolis để chạy ứng dụng Edge AI trên Jetson