Điện toán hiệu năng cao (HPC) có thể cho phép con người hiểu thế giới xung quanh họ, từ chuyển động của nguyên tử đến cách vũ trụ đang giãn nở ra sao. Mặc dù HPC thường được nhắc đến với cụm từ “siêu máy tính”, môi trường HPC ngày nay được tạo ra bằng cách sử dụng hàng trăm đến hàng nghìn máy chủ riêng lẻ, được liên kết bằng kết nối mạng tốc độ cao và độ trễ thấp. Để tận dụng lợi thế của hàng nghìn thành phần xử lý (hay cores) hoạt động đồng thời, các ứng dụng cần được thiết kế và triển khai để hoạt động song song, chia sẻ kết quả trung gian theo yêu cầu. Ví dụ: một ứng dụng dự đoán thời tiết sẽ chia bầu khí quyển của trái đất thành hàng nghìn ô 3D và mô phỏng vật lý của gió, các khối nước, áp suất khí quyển và các hiện tượng khác trong ô đó. Sau đó, mỗi tế bào cần thông báo cho hàng xóm của chúng kết quả của mô phỏng trước đó. Càng nhiều sức mạnh xử lý có sẵn, mỗi ô có thể nhỏ hơn, với các định lượng vật lý chính xác hơn.
Cho đến gần đây, các thuật toán HPC đã chạy trên các CPU của Intel và AMD. Theo thời gian, những CPU này trở nên nhanh hơn và kết hợp nhiều lõi hơn. Tuy nhiên, một bộ tăng tốc mới, được tối ưu hóa cao đang được tích hợp với các hệ thống HPC. Một GPU (bộ xử lý đồ họa) đã cho phép tăng hiệu suất của các ứng dụng cụ thể hơn một bậc. GPU có thể được tìm thấy trong hầu hết các hệ thống HPC Top500 trên thế giới. Hàng nghìn ứng dụng đã được cập nhập để tận dụng lợi thế của hàng nghìn lõi GPU đồng thời, cho ra kết quả vượt bậc.
HPC đang được tích hợp vào quy trình làm việc của doanh nghiệp, thay vì một hạ tầng máy tính hoàn toàn riêng biệt. Một hệ thống HPC thường sẽ bao gồm nhiều CPU, một số lượng đáng kể GPU, ổ đĩa thể rắn (SSD), mạng tốc độ cao và toàn bộ hệ sinh thái phần mềm. Một hệ thống HPC hiệu quả sẽ có sự cân bằng giữa CPU, GPU, bộ nhớ tốc độ cao và hệ thống lưu trữ, tất cả đều hoạt động cùng nhau. Sự cân bằng này rất quan trọng, vì tài nguyên đắt tiền nhất trong hệ thống HPC là CPU và GPU. Một hệ thống được thiết kế tốt sẽ có thể cung cấp dữ liệu đến CPU cực kỳ nhanh chóng và không bao giờ “bỏ đói” CPU trong công việc thực tế.
Các trường đại học và phòng nghiên cứu trên toàn thế giới tiếp tục đầu tư và tạo ra những hệ thống HPC mạnh mẽ để giải quyết và hiểu được những thách thức phức tạp nhất mà con người phải đối mặt ngày nay. Các bên này đang trải qua giai đoạn bùng nổ với lượng dữ liệu khổng lồ liên tục được tạo ra, sẵn sàng cho các nghiên cứu khoa học. Các lĩnh vực được quan tâm nhiều sử dụng hệ thống HPC bao gồm nghiệc cứu sinh học (bio-informatics), vũ trụ học, sinh học, nghiên cứu khí hậu, mô phỏng cơ học và dịch vụ tài chính.
Đại học Ghent – Biến 7 giờ thử nghiệm AI xuống còn 40 phút
IDLab là một phòng thí nghiệm nghiên cứu tại Đại học Ghent và Đại học Antwerp. Ý tưởng của họ là mở rộng các lĩnh vực nghiên cứu của mình để bao gồm AI Robotics, IoT và khai thác dữ liệu. Để thực hiện điều này, IDLab xác định rằng cần phải có các máy chủ mới. Họ cần có khả năng chứa một số GPU trong vỏ máy chủ để đảm bảo hiệu suất tối đa. Các thử nghiệm ban đầu chỉ ra rằng các ứng dụng hiện hữu có thể chạy nhanh hơn gấp 10 lần khi sử dụng GPU so với thực thi qua CPU thuần túy. Thời gian nhanh hơn cho phép các nhà nghiên cứu phát triển các thuật toán AI tốt hơn và nhận được kết quả nhanh hơn bao giờ hết.
Một trong những yêu cầu của máy chủ mới là khả năng chạy nhiều công việc trên cùng một máy chủ mà không ảnh hưởng đến hiệu suất của các ứng dụng khác. Cần có một máy chủ mạnh có khả năng xử lý, bộ nhớ và kết hợp với GPU để cho phép điều này. Thách thức là tăng hiệu suất lên 10 lần để theo kịp với nhu cầu hiện tại. IDLab đã chọn các máy chủ GPU mạnh mẽ, được thiết kế đặc biệt để xử lý các ứng dụng AI thế hệ tiếp theo. Các máy chủ này chứa hai bo mạch NVIDIA HGX-2, có thể chứa tám bo mạch GPU trong một máy chủ phù hợp với sức mạnh CPU thích hợp.
Để chạy các thuật toán dựa trên AI, các nhà nghiên cứu cần hoàn thành các công việc khác nhau nhanh hơn để có thể thực hiện lặp lại các thuật toán này một cách kịp thời. Giải pháp máy chủ được chọn đã giúp họ cắt giảm các thử nghiệm từ gần 7 giờ xuống còn 40 phút cần thiết trong khi vẫn nhận được kết quả có chất lượng cao.
Tìm hiểu và theo dõi COVID-19 tại Đại học Goethe Frankfurt
Một trường hợp khác cần một máy chủ hiệu suất cao để tối ưu hóa các quy trình nghiên cứu là tại Đại học Goethe Frankfurt. Trung tâm siêu máy tính được biết đến trên toàn thế giới vì đã cho phép nhiều nhà nghiên cứu sử dụng một trong những hệ thống nhanh nhất ở châu Âu. Các kiến trúc sư của hệ thống mới này đã xác định rằng lựa chọn tốt nhất cho các máy chủ mới này sẽ cần phải kết hợp một số GPU, ngoài CPU có số lượng lõi cao. Thiết kế quan trọng của máy chủ được yêu cầu là một đường dẫn giao tiếp rất nhanh giữa CPU và GPU, sử dụng bus PCI Gen 4. Đại học Goethe đã chọn máy chủ dựa trên bộ xử lý AMD EPYC và GPU Radeon Instinct MI50 cho hệ thống HPC mới này. Sự kết hợp này cho phép một lượng lớn dữ liệu được vận chuyển đến và đi từ GPU từ CPU cực kỳ nhanh với tốc độ lên đến 64 GB / giây. Sau khi các GPU đã hoàn thành nhiệm vụ của chúng, kết quả có thể nhanh chóng được gửi trở lại CPU. Các nhà nghiên cứu của Đại học Goethe đã và đang sử dụng hệ thống mới này để theo dõi đại dịch COVID-19 trên toàn thế giới, trong số các sáng kiến nghiên cứu khác. Việc hiểu cách COVID-19 lan truyền trong dân số, cho phép các nhà chức trách đưa ra các chính sách và kế hoạch hành động để chuẩn bị cho những thách thức tương tự, tiềm tàng trong tương lai.
Mô phỏng động lực học phân tử tại Phòng thí nghiệm Quốc gia Lawrence Livermore
Tại Hoa Kỳ, Phòng thí nghiệm Quốc gia Lawrence Livermore (LLNL) gần đây đã mở rộng hệ thống HPC quy mô lớn lên hơn 11 Petaflops. Hệ thống này nhằm mục đích được sử dụng để tìm ra các phương pháp điều trị khác nhau và vắc-xin cho COVID-19. Nó cũng sẽ cho phép tận dụng khối lượng công việc tính toán trong genomics và các ngành khoa học khác. Hệ thống Corona, được đặt tên cho nhật thực toàn phần vào năm 2017, gần đây đã được trang bị một số lượng lớn các máy chủ, chứa cả CPU AMD EPYC và GPU Radeon Instinct. Ví dụ, khả năng xử lý bổ sung sẽ cho phép các nhà nghiên cứu xử lý tốt hơn các mô phỏng động lực học phân tử chuyên sâu về mặt tính toán. Đây là những điều quan trọng để hiểu, ví dụ, cấu trúc và chức năng của virus. Cuối cùng, đó là cơ sở để tìm ra phương pháp chữa trị cho COVID-19. Mô phỏng động lực học phân tử đã được thiết kế để tận dụng lợi thế của GPU, làm tăng hiệu suất của chúng một cách đáng kể.
Phá vỡ các bức tường về năng lực xử lý
HPC trong các tổ chức nghiên cứu và học thuật cho phép nhiều nhà nghiên cứu tập trung vào khoa học mới mà không bị trì hoãn bởi các máy chủ cũ và lỗi thời. GPU ngày càng được sử dụng rộng rãi để giảm thời gian hoàn thành nhiều tác vụ, cho phép các thuật toán mới được phát triển và lặp lại. Các hệ thống HPC mạnh mẽ đang được sử dụng để hiểu một loạt các vấn đề khoa học mà trước đây không thể tiếp cận được do khả năng xử lý hạn chế.
Bài viết liên quan
- Nvidia ‘đang chuẩn bị cho thời kỳ AI không dùng GPU’
- Cải thiện khả năng làm mát GPU trong hạ tầng AI
- Các chuyên gia AI của NVIDIA dự báo gì cho năm 2025
- Hyperscale computing: Làm cách nào để đạt được năng lực điện toán quy mô lớn tốt hơn
- AI trong ngành Logistics: Những lợi ích chính và ứng dụng
- Máy chủ tăng tốc cho AI thúc đẩy tăng trưởng chi tiêu cho trung tâm dữ liệu