Trên cloud vs tại chỗ: Triển khai nào thực sự tốt hơn cho Deep Learning?

Ưu điểm của hệ thống Deep Learning tại chỗ (on-premise) và chi phí ẩn khi chạy chúng trên cloud

  1. Cloud cung cấp số giờ xử lý “miễn phí” để thu hút khách hàng triển khai tất cả tác vụ deep learning trên đám mây. Chi phí training nhanh chóng vượt quá tầm tay và con đường cuối cùng sẽ là đầu tư phần cứng tại chỗ.
  2. Các hệ thống tại chỗ / on-premise, chẳng hạn như các máy trạm và máy chủ Deep Learning, cung cấp sự linh hoạt và kiểm soát tối đa đối với cơ sở hạ tầng và cho phép triển khai các framework cho các thử nghiệm nâng cao.
  3. Trong nhiều trường hợp, do lo ngại về bảo mật và quyền riêng tư (thường được quy định bởi chính phủ), dữ liệu nhạy cảm phải được giữ nguyên tại chỗ hoặc có các tính chất “cách nhau bởi không khí”.

Khi nào nên chọn on-premise thay vì trên Cloud cho các ứng dụng Deep Learning của bạn?

Ở phần này chúng ta sẽ đưa ra những điểm nơi mà Cloud không phù hợp cho các ứng dụng Deep Learning.

Các nhà cung cấp dịch vụ cloud đã tạo ra một luận điểm cho rằng dịch vụ cloud “mặc nhiên” rẻ hơn & tốt hơn, mà không cần quan tâm đến việc chạy phần cứng của riêng bạn. Mặc dù đối với hầu hết các ứng dụng, điều này có thể đúng, deep learning chỉ đơn giản là một thực thể khác và có phần cứng chuyên dụng của riêng bạn, đặc biệt đối với đào tạo mạng thần kinh sâu (DNN) có thể mang lại lợi ích đáng kể – với hiệu quả chi phí chỉ là một.

Là nhà cung cấp điện toán hiệu năng cao (HPC) và các hệ thống chuyên biệt để triển khai deep learning, chúng tôi được trang bị chuyên môn trong việc xác định các tình huống trong đó tính toán tại chỗ được ưa chuộng trên đám mây về chi phí, tính linh hoạt, quyền riêng tư và / hoặc bảo mật.

Làm sao chúng ta biết được điều này?

Đơn giản – Đây là những gì khách hàng của chúng tôi nói với chúng tôi và những gì họ yêu cầu.

Một số ứng dụng rất rõ ràng (bạn hầu như không muốn dựa vào cloud cho một chiếc xe tự lái đang chạy ở tốc độ cao) trong khi những ứng dụng khác thì không.

Ví dụ: Lượng dữ liệu tuyệt đối và tính toán cần thiết để đào tạo DNN.

Một công ty ngây thơ cho rằng, đám mây trên rẻ hơn, chúng tôi sẽ chỉ trả cho những gì chúng tôi cần! Sức mạnh sẽ nhanh chóng được vận chuyển với chi phí bỏ trốn khi nhu cầu deep learning của họ bắt đầu mở rộng.

Đây là lý do tại sao cần xem xét mọi khía cạnh của nhu cầu tính toán của bạn khi quyết định giữa đám mây hoặc tính toán cục bộ cho dự án tiếp theo của bạn. Bạn thực sự không cần trung tâm dữ liệu kích thước kho của riêng mình để phù hợp với hiệu suất của các máy ảo điện toán đám mây. Một Deep Learning Workstation của Supermicro hoặc NVIDIA DGX-1 không phải chỉ có sức mạnh lớn hơn nhiều so với một máy tính cá nhân thông thường, và có lẽ có thể xử lý đào tạo DNN cho 90% các công ty “làm deep learning”.

Lưu ý, thật công bằng khi cho rằng kịch bản lý tưởng có thể là một cách tiếp cận hỗn hợp sử dụng các dịch vụ đám mây và API, với phần cứng tại chỗ cho dữ liệu và tính toán các tác vụ nặng.

Chi phí: Cẩn thận với các trường hợp GPU miễn phí của YouTube miễn phí

Ước tính so sánh chi phí cho các hệ thống đám mây so với tại chỗ thay đổi từ khoảng 2 lần so với chi phí cho các trung tâm dữ liệu nói chung và đắt hơn tới 3-4 lần trong các thiết lập cụ thể deep learning .

Các nhà cung cấp điện toán đám mây lớn có xu hướng cung cấp hàng giờ tính toán đám mây miễn phí trên nền tảng đám mây để thu hút các công ty và nhận được chúng. Bây giờ chúng tôi không nói rằng việc tận dụng các dịch vụ đám mây trong các tình huống nhất định là vô nghĩa; chỉ cần biết những gì bạn đang làm cho bản thân mình trước khi bạn kết thúc với kho deep learning đầy đủ của mình trên nền tảng đám mây và đang đào tạo các mô hình mạng thần kinh sâu, dữ liệu chuyên sâu.

Đó là một bí mật nổi tiếng rằng điện toán đám mây có thể tốn kém khi so sánh với các hệ thống chuyên dụng, đặc biệt đối với các tác vụ có nhu cầu tính toán đáng tin cậy được biết trước.

Cài đặt hệ thống deep learning tại chỗ cho phép tổ chức của bạn yêu cầu khấu hao đối với các khoản nợ thuế.

Đối với các thông số kỹ thuật của ứng dụng không loại trừ các giải pháp tại chỗ hoặc trên nền tảng đám mây, chi phí là cao. Trong trường hợp đó, đã đến lúc đặt tổng chi phí sở hữu so với thuê bao tương đương với nhà cung cấp điện toán đám mây lớn.

Hãy nhớ rằng các con số dưới đây là ước tính và các dự án dựa trên đám mây thường tích lũy thêm chi phí từ những thứ như lưu trữ và chuyển dữ liệu không rõ ràng ngay lập tức. Chi phí để chạy các phiên bản P2 và P3 của Amazon Web Services, được bán trên thị trường đặc biệt cho machine learning, được hiển thị bên dưới có và không có đăng ký 3 năm (cam kết 3 năm yêu cầu thanh toán trước một phần).

(Giả sử tổng khấu hao trong 3 năm. Chi phí bảo trì và vận hành ước tính bằng 50% chi phí mua ban đầu mỗi năm, chi phí điện (ước tính ~ $ 0,20 mỗi kW * giờ). Để biết giá cả trên đám mây mới nhất, hãy kiểm tra các trang định giá AWS EC đối với các trường hợp P2 và P3. Đáng chú ý là ngay cả với ước tính 50% chi phí bảo trì mỗi năm, các hệ thống tại chỗ với mức sử dụng 100% vẫn rẻ hơn đáng kể so với các đối tác đám mây chậm hơn. cấu hình có giá thấp hơn khoảng 50% mỗi giờ so với phiên bản AWS p2.xlund dành riêng, GPU P100 hoạt động nhanh hơn khoảng 4 lần so với GPU K80 cũ hơn trên các benchmark của Tensorflow.)

Tính linh hoạt: Lắng nghe những gì Kỹ sư của bạn muốn, Không phải Kế toán của bạn

Một trong những điểm bán hàng của điện toán đám mây là độ co giãn, tính năng hoặc khả năng quay nhanh các máy ảo bổ sung khi cần thiết. Nghe có vẻ phản trực giác, độ co giãn này không nhất thiết chuyển thành tăng tính linh hoạt khi nói đến các khung được cài đặt sẵn hoặc lựa chọn phần cứng.

Chẳng hạn, đầu tư vào các phiên bản P2 / P3 dành riêng từ Dịch vụ web của Amazon và bạn sẽ thấy mình bị giới hạn trong sự lựa chọn giữa K80 thế hệ cũ và GPU Tesla V100 có khả năng cao hơn nhưng có khả năng hơn.

Chọn một hệ thống được xây dựng tùy chỉnh cho ứng dụng deep learning của bạn cho phép linh hoạt lựa chọn GPU. Không chỉ vậy, các nhà cung cấp tại chỗ còn hỗ trợ các cấu hình phần mềm chuyên dụng vượt xa các sản phẩm nổi tiếng như TensorFlow , Torch , PyTorch , Theano , v.v. mà còn hỗ trợ nhiều gói bí truyền hơn như DL4J, Chainer và Deepchem để khám phá ma túy.

Các khung chuyên dụng mang đến sự dễ dàng linh hoạt mà không phải lúc nào cũng có sẵn từ các giải pháp phù hợp với một kích thước được cung cấp bởi các nhà cung cấp điện toán đám mây lớn, được định cấu hình với tất cả các phụ thuộc để chạy trơn tru.

Thường xuyên hơn không, thời gian của nhà phát triển / nhà nghiên cứu là tài nguyên quý giá nhất của bạn. Điện toán đám mây làm giảm nhu cầu lo lắng về việc nâng cấp và bảo trì, để bạn và nhóm của bạn có thể tập trung giải quyết các vấn đề thực sự. Điều không rõ ràng là việc cung cấp một hệ thống deep learning từ một nhà cung cấp chuyên dụng cung cấp nhiều lợi ích giống nhau, với các dịch vụ và bảo hành bạn sẽ khó có thể thực hiện được nếu không có hệ thống DIY.

An ninh và sự riêng tư

Các ứng dụng phục vụ chính phủ, thực thi pháp luật, quốc phòng và ngành y tế đều có các quy định nghiêm ngặt về duy trì bảo mật dữ liệu, thường ngăn chặn việc sử dụng các giải pháp lưu trữ của bên thứ 3.

Những cân nhắc rõ ràng về khả năng và chi phí có thể là điều đầu tiên bạn nghĩ đến khi tranh luận về quyết định của đám mây và tại chỗ, nhưng thực tế có nhiều ứng dụng mà sự lựa chọn sẽ được đưa ra cho bạn bởi yêu cầu bảo mật dữ liệu hoặc quyền riêng tư.

Là thành viên của cộng đồng, chúng tôi có thể đã quá quen với tin tức về các vi phạm an ninh trong các dịch vụ đám mây, (như thông tin cá nhân mô tả cử tri Hoa Kỳ đã đăng ký cho cuộc bầu cử năm 2016 do công ty dịch vụ dữ liệu Deep Roots Analytics để lộ trên AWS lên một dự án nghiên cứu hoặc kinh doanh với dữ liệu có khả năng nhạy cảm thì hậu quả là quá thực tế.

Sự tiện lợi của tài nguyên đám mây đến từ chi phí của các bề mặt tấn công bị phơi bày có thể dễ bị tổn thương do các vi phạm độc hại hoặc vô tình.

Các hệ thống tại chỗ giảm thiểu một số rủi ro này và có thể được cấu hình để tối ưu hóa cho an ninh, ví dụ: bằng cách xây dựng một hệ thống không khí để tránh các cuộc tấn công kênh bên . Trong các trường hợp khác, việc kiểm soát và bảo vệ dữ liệu riêng tư có thể là một thứ gì đó thuộc vùng xám, nhưng các thực tiễn tốt nhất bên trong có thể khuyến khích lưu trữ dữ liệu tại chỗ. Các ứng dụng ngân hàng, fintech hoặc bảo hiểm đều xử lý dữ liệu nhạy cảm; và ngay cả đối với các khu vực không có yêu cầu quy định rõ ràng, bảo mật dữ liệu là ưu tiên được xem xét khi vi phạm có thể gây hậu quả danh tiếng lâu dài.

Điểm mấu chốt: Đó là thời gian kiểm tra ruột cho các sáng kiến AI của bạn

Đã đến lúc thành thật với bản thân và công ty của bạn và xác định mức độ nghiêm trọng của bạn khi deep learning và AI

Nếu bạn không biết mình đang làm gì, tìm kiếm quyền khoe khoang và chỉ muốn chơi xung quanh một chút với một số mạng thần kinh, có lẽ đám mây đầy đủ là dành cho bạn. Tuy nhiên, nếu bạn THỰC SỰ muốn tìm hiểu sâu về công nghệ thay đổi trò chơi mới nhất, hãy bắt đầu nghiên cứu về AI, bạn sẽ sớm nhận ra rằng đã đến lúc đặt một số skin vào trò chơi, hãy khóa xuống và lấy một ít GPU.

Điện toán đám mây dường như có ý nghĩa đối với các yêu cầu tính toán nhỏ, chưa biết hoặc có thể thay đổi, nhưng đối với việc deep learning ở quy mô, có rất nhiều lợi thế để xem xét một hệ thống tại chỗ chuyên dụng.

Đối với các yêu cầu tính toán deep learning liên tục, quy mô lớn và dự kiến, việc tiết kiệm chi phí sử dụng các hệ thống tại chỗ chuyên dụng là rất đáng kể. Nhu cầu tính toán cho khối lượng công việc thử nghiệm nhỏ hơn hoặc nhiều hơn có thể được đáp ứng bằng máy trạm deep learning GPU GPU 4x hiệu quả nhưng có khả năng chi phí bắt đầu từ dưới 8k đô la.

À, và nếu thất bại, bạn luôn có thể cân nhắc tham gia khai thác tiền điện tử (cryptocurrency) trên các GPU mới sáng bóng của mình. Hãy thử làm điều đó với Azure hoặc AWS xem?

Nguồn Tổng hợp

Góp ý / Liên hệ tác giả