Case Study: Thành quả triển khai hạ tầng AI NVIDIA DGX tại Trường Kỹ thuật Milwaukee
Trường Kỹ thuật Milwaukee đã triển khai Hệ thống NVIDIA DGX và Máy chủ dựa trên GPU NVIDIA để cung cấp Máy tính AI cho mọi sinh viên.
Được thành lập vào năm 1904, Trường Kỹ thuật Milwaukee (MSOE) là một trong những trường hàng đầu về kỹ thuật trong cả nước, xếp thứ 9 trong số các chương trình kỹ thuật bậc đại học tốt nhất và thứ 4 trong số các chương trình kỹ thuật máy tính tốt nhất tại Hoa Kỳ. Trường đại học nhỏ với 2.800 sinh viên này luôn cống hiến để đạt được thành tích cao như mục tiêu đề ra, được biết đến là nơi có tỷ lệ sinh viên trên giảng viên thấp, ứng dụng trong thế giới thực thông qua các khóa học thực hành và tích hợp sâu trong ngành.
Thử thách
MSOE đã thành lập chương trình cấp bằng cho ngành Khoa học Máy tính vào năm 2018, bao gồm các khóa học chuyên ngành về AI, chẳng hạn như khoa học tính toán, khoa học dữ liệu và học sâu. Kể từ thời điểm đó, trường đã nhận được một lượng lớn sinh viên theo đuổi các chuyên ngành liên quan đến máy tính. Cung cấp các dự án AI thực tế để sinh viên làm việc đòi hỏi một lượng lớn tài nguyên tính toán cùng với một ngăn xếp phần mềm được tối ưu hóa để chạy trên các cụm GPU.
Ở thời điểm ban đầu, trường cho sinh viên sử dụng máy tính xách tay của riêng họ, nhưng điều này đã dẫn đến một số vấn đề, vì hầu hết các máy tính xách tay đều có năng lực tăng tốc GPU hạn chế. Hơn nữa, rất khó khăn để đảm bảo hiệu suất chạy các gói phần mềm nhất quán trên tất cả các laptop của sinh viên. Lấy ví dụ, các thư viện AI hoặc máy tính hiệu năng cao (HPC) không nhất quán có thể dẫn đến phần mềm trên chỉ hoạt động trên một số máy này, nhưng lại không chạy trên các máy khác.
MSOE ban đầu sử dụng các cloud instance (các máy ảo chạy trên đám mây), nhưng gặp phải những hạn chế. AsDerek Riley, giáo sư MSOE và giám đốc chương trình khoa học máy tính, giải thích, “Có một đường cong học tập rất dốc để có thể thiết lập và chạy các trình tự với đúng với thư viện.” Giáo sư Rileyalso đề cập đến việc đám mây không thể cung cấp công nghệ mới nhất và tuyệt vời nhất, và các sinh viên đang trải qua hiệu suất bị hạn chế.
Một trong những mối quan tâm lớn nhất của Giáo sư Riley là điện toán đám mây hạn chế việc học của sinh viên như thế nào. “Với đám mây, bạn có một số lượng tài nguyên nhất định và khi bạn dùng hết, bạn phải trả thêm tiền,” ông nói. “Chúng tôi thực sự không muốn sinh viên của mình cảm thấy như họ sẽ phải chi nhiều tiền hơn nếu họ đang gặp khó khăn với bài tập hoặc nếu họ muốn khám phá điều gì đó xa hơn.”
Ngoài các ứng dụng mang tính tương tác, họ còn phải hỗ trợ hàng loạt các ứng dụng từ giảng viên và sinh viên, những người đôi khi cần chạy khối lượng công việc lớn hơn với bộ dữ liệu nhiều hơn trên các hệ thống có khả năng đa GPU. Điều này bắt nguồn từ các dự án nghiên cứu ở bậc đại học, các dự án phụ, sự hợp tác của giảng viên và các chuyên viên tư vấn trong ngành.
Giáo sư Riley đã xem xét một giao diện HPC cluster dựa trên Secure Shell (SSH) truyền thống nhưng bác bỏ ý tưởng này do yêu cầu học tập quá cao đối với sinh viên đại học. Môi trường cũng làm cho việc biên dịch các chương trình và liên kết các thư viện trở nên khó khăn.
Giải pháp
Vào năm 2017, Tiến sĩ Dwight Diercks, phó chủ tịch cấp cao của kỹ thuật phần mềm NVIDIA và tốt nghiệp MSOE, đã cung cấp một món quà trị giá 34 triệu đô la cho MSOE để tài trợ xây dựng một trung tâm có tên gọi Dwight & Dian Diercks Computational Science Hall. Diercks Hall khai trương vào tháng 9 năm 2018 và bao gồm các phòng thí nghiệm, lớp học và trung tâm dữ liệu.
Giáo sư Riley đã làm việc với các kiến trúc sư giải pháp của NVIDIA để thiết kế kiến trúc và phát triển một cụm máy tính hỗ trợ dễ dàng nhu cầu ngày càng tăng về các ứng dụng tương tác và theo lô (batch). “Chúng tôi muốn một hệ thống tối đa hóa hiệu suất đào tạo, nhưng đủ linh hoạt cho nhiều trường hợp sử dụng khác nhau, ”, theo Giáo sư Rileycomment. Các kiến trúc sư giải pháp NVIDIA và Microway, một nhà cung cấp trong NVIDIA Partner Network (NPN), đã hợp tác với MSOE để thiết kế.
Microway phân phối tất cả phần cứng, triển khai cụm tại trường đại học và thực hiện cấu hình phần mềm ban đầu.
Cụm con AI bao gồm ba hệ thống NVIDIA DGX, trong khi cụm con nghiên cứu và giảng dạy bao gồm 20 máy chủ, mỗi máy chủ có bốn GPU NVIDIA T4. Các node được liên kết với nhau bằng kết cấu mạng NVIDIA và chia sẻ 200 terabyte (TB) dung lượng lưu trữ mạng (NAS). Cụm lưu trữ sử dụng NetApp FAS8200, cung cấp hiệu suất tuyệt vời và tính linh hoạt để mở rộng. Và cuối cùng là các node đăng nhập (head node) và quản lý chứa bốn máy chủ cho phép dự phòng và cân bằng tải. Hệ thống siêu máy tính này được gọi là “Rosie”, cái tên này được lấy cảm hứng từ những người phụ nữ đã lập trình một trong những chiếc máy tính đầu tiên – Electronic Numerical Integrator and Computer (ENIAC) – và được ghi lại trong tài liệu Top Secret Rosies: The Female Computers of WWII.
Quản trị viên hệ thống có thể dễ dàng quản lý cụm bằng DeepOps, một bộ công cụ quản lý cụm GPU NVIDIA. Trung tâm dữ liệu NVIDIA GPUManager (DGCM) cũng đang được sử dụng để theo dõi sức khỏe và việc sử dụng GPU cùng với Ganglia, cung cấp giao diện người dùng web cung cấp khả năng hiển thị cho các hệ thống và GPU riêng lẻ.
Giáo sư Riley cũng muốn đảm bảo sinh viên, giảng viên và nhân viên dễ sử dụng. Có từng stack phần mềm riêng biệt cho từng trường hợp sử dụng: Một stack do việc dạy học sử dụng các Singularity container và Jupyter notebook và được xây dựng trên giao diện dựa trên web Open OnDemand cho sinh viên; Một stack dành cho việc nghiên cứu có các Singularity container, cung cấp giao diện dựa trên SSH và hỗ trợ lập trình trên bare-metal. Cả hai stack đều tận dụng danh mục NGC – một nền tảng trung tâm tối ưu hóa GPU của NVIDIA gồm các ứng dụng HPC và AI, bao gồm các trình điều khiển, mô hình được đào tạo trước và SDK – để đơn giản hóa việc quản lý phần mềm và thư viện.
Các giáo sư MSOE sử dụng danh mục NGC làm cơ sở cho các dự án và nhiệm vụ của lớp. Với vùng chứa NGC, sinh viên có thể chỉ cần chạy các ứng dụng HPC hay AI của họ trên cụm mà không cần xây dựng môi trường phức tạp. Sinh viên có thể theo dõi nhanh các dự án AI của mình bằng cách tinh chỉnh các mô hình được đào tạo trước từ danh mục, giúp họ tiết kiệm hàng giờ làm việc và đưa họ vào các quy trình công việc chung tồn tại để giải quyết các thách thức công nghiệp.
Kết quả đạt được
”Chúng tôi đã nhận thấy sự gia tăng đáng kể về nhu cầu đối với hệ thống do tính dễ sử dụng. Hầu hết sinh viên truy cập Rosie thông qua giao diện người dùng web Open OnDemand của chúng tôi”, Giáo sư Riley nói. “Họ có thể dễ dàng yêu cầu nguồn nhân lực cần thiết, và các hình ảnh cơ sở đã đi kèm với một bộ thư viện được cấu hình sẵn đặc biệt. Sinh viên có thể dễ dàng thực hiện các công việc GPU đơn lẻ trên phân vùng này hoặc thực hiện các công việc trên nhiều GPU hoặc hệ thống DGX. ”
Giáo sư Riley nhận xét: “Với hệ thống DGX, giờ đây chúng tôi có thể giải quyết các vấn đề lớn hơn. Và chính vì có thể giải quyết các vấn đề lớn hơn, chúng tôi đạt được kết quả học tập khác so với khi chúng tôi làm việc với các bài toán đơn giản hơn.”
Trong năm đầu tiên, chỉ có hai khóa học khác biệt sử dụng Rosie. Hôm nay, một năm sau, chín khóa học đang sử dụng Rosie. Và năm tới, hơn 15 khóa học, với nhiều phần, dự kiến sẽ sử dụng Rosie. Ngoài việc giảng dạy, Rosie còn được sử dụng nhiều trong nghiên cứu – từ các dự án từ bậc đại học đến giảng viên trong ngành khoa học máy tính, cũng như các giảng viên trong toàn trường đại học, cơ khí động lực học đến quản trị kinh doanh.
”Trước khi triển khai Rosie, chúng tôi đã sử dụng AWS, Google Colab và laptop cá nhân. Với tư cách là một giáo sư, tôi muốn giúp các sinh viên gỡ rối và tìm ra những giải pháp cho vấn đề, thay vì dành nhiều thời gian để giải quyết các thách thức về cấu hình của họ”, Giáo sư Riley nói. ”Với NVIDIA DGXsystems, sinh viên của chúng tôi có quyền truy cập vào cơ sở hạ tầng AI tốt nhất trong ngành và không còn phải lo lắng về ‘đồng hồ đo mức tiêu thụ’ của đám mây luôn chạy và hạn chế các thử nghiệm. Tám mươi phần trăm sinh viên khoa học máy tính đại học sử dụng Rosie ngày nay và mức sử dụng GPU của giảng viên đã tăng gấp 10 lần chỉ trong một năm. Ngoài ra, hệ thống đã có hơn 20.000 Slurm job cho đến nay. ”
Do đại dịch COVID-19 gần đây, hầu hết các lớp học tại MSOE đều được tổ chức trực tuyến và họ thấy dịch vụ bị gián đoạn rất ít. Tất cả sinh viên đều có thể truy cập Rosie từ xa dù họ ở đâu ngoài VPN. Có một kết nối yếu, cho dù họ đang ở vùng nông thôn chia sẻ nó với những người khác, không phải là một yếu tố hạn chế khi truy cập Rosie và sử dụng máy tính xách tay Jupyter.
Nhìn về tương lai
Vì phương châm của MSOE là cho phép sinh viên của họ học theo một cách khác biệt và cung cấp các ứng dụng thực tế thông qua các cơ hội thực hành, họ có kế hoạch tận dụng Rosie để thúc đẩy hợp tác nghiên cứu AI của trường đại học hơn nữa. MSOE đã có sự hợp tác tích cực với một số doanh nghiệp địa phương, ngoài các cơ hội đề xuất tài trợ nghiên cứu với các tổ chức thông thường. Phần cứng bảo mật bổ sung đang được lên kế hoạch để đảm bảo quyền riêng tư và bảo mật dữ liệu. “Chúng tôi có kế hoạch hỗ trợ các dự án công nghiệp trong một chặng đường dài sắp tới, vì chúng tôi cảm thấy điều này thúc đẩy rất nhiều sinh viên tham gia học tập,” Giáo sư Riley đề cập.
Bài viết liên quan