Bộ xử lý Ampere Altra ARM ra mắt với 80 cores cho điện toán đám mây

Dòng CPU ARM Ampere Altra vừa được Ampere Computing cho ra mắt. Đây là một thiết kế hoàn toàn mới được phát triển dành riêng cho các nhà cung cấp dịch vụ đám mây. Nó có đến 80 core và được thiết kế để cạnh tranh trực tiếp với bộ xử lý AMD EPYC 7002 dòng “Rome” Series cũng như với các bản nâng cấp của Intel Xeon Scalable Refresh thế hệ 2. Có vẻ như Ampere sẽ sớm được phân phối đến các đơn vị sản xuất hàng loạt. Hy vọng, chúng tôi có thể sớm có được những đánh giá chi tiết và thực tế hơn trong tương lai gần.

Ampere Altra đã làm thay đổi nhịp đặt tên và phát triển của eMAG. Thay vào đó, Ampere đã phát triển Mystique thế hệ 2021 cũng như bắt đầu làm việc trên bộ xử lý Siryn 2022 của mình. Điều này rất quan trọng vì trong một khu vực mà các nhà cung cấp các loại chip ARM, hoặc nói khác hơn là, các nhà cung cấp non-Intel, cần liên tục trình làng đến khách hàng. Có một lộ trình và các thế hệ mới đang dần xuất hiện. Có lẽ tiêu chuẩn trong một năm cuối cùng có thể là lộ trình của AMD trong khi Intel cần chứng minh nhịp độ của mình nếu Ice Lake Xeon bị trì hoãn vào năm 2021.

Ampere hàng năm
Tiến độ phát triển Ampere từng năm

Trong bài viết này, chúng tôi sẽ thảo luận về kiến ​​trúc dựa trên các tài liệu chúng tôi có và các trao đổi của chúng tôi với công ty. Chúng tôi cũng sẽ kiểm tra tuyên bố về hiệu suất và giúp độc giả phân tích một cách nghiêm túc những gì họ đang được quảng cáo từ Ampere. Sau đó chúng tôi sẽ thảo luận về các hệ thống được tiết lộ với các con chip trước khi đi đến những đánh giá cuối cùng của chúng tôi.

Giới thiệu kiến ​​trúc Ampere Altra

Dưới đây là những điểm nổi bật của Ampere Altra bao gồm tối đa 80 core và kết nối dạng lưới bộ đệm kết hợp. Người ta cũng sẽ nhận thấy rằng đây là một cái chết với kiến trúc 7nm nguyên khối. Đây vẫn là tiêu chuẩn trong khi hầu hết các công ty đang nói về phương pháp tiếp cận nhiều người trong tương lai.

Giới thiệu về AmpeGiới thiệu về Ampere

Có lẽ tính năng lớn nhất ngoài số lượng core là nó sử dụng thiết kế đa socket kết hợp bộ nhớ cache. Nói cách khác, trong khi eMAG là một thành phần single-socket, đây là một thành phần hỗ trợ dual-socket. Điều đó có ý nghĩa rất lớn. Các máy chủ dual-socket phân bổ chi phí chung trên nhiều socket hơn, điều này khiến chúng trở thành tiêu chuẩn không chính thức trong ngành. Đây là một tính năng mà Ampere cần có và họ đã cung cấp điều đó.

Ampere Altra có thể có tới 80 core 64bit ARM v8.2+ và có tính năng thực thi không theo thứ tự (out-of-order). Cách đây không lâu khi các chip ARM cố gắng cạnh tranh với dòng Xeon chính thống vẫn là theo thứ tự (in-order). Phiên bản v8.2 + ra đời bởi vì Ampere lấy các tính năng từ các bộ tính năng trong tương lai để tạo ra bộ xử lý tốt hơn hiện nay. Nếu bạn lấy 80 x 1MB/core cache cộng với 32MB làm bộ đệm mức độ cuối cùng, thì bộ nhớ sẽ nhận được 112 MB. Điều này tiếp tục xu hướng cấp độ nhớ cache cao hơn nhiều so với các CPU Xeon Scalable chính thống hiện tại đứng đầu khoảng một nửa con số đó. AMD về phần mình có bộ nhớ cache L3 256MB cho các thành phần 64-core trong thế hệ này.

Tổ hợp bộ xử lý AmpeTổ hợp vi xử lý Ampere

Tuy nhiên, Ampere đã thể hiện tới TDP 210W cho các thành phần 80 core. Chúng tôi cũng đã hỏi và chúng là các bộ phận được cắm vào, không phải BGA như thường thấy trên các máy chủ ARM khác. Thị trường thích sự linh hoạt của các bộ xử lý được cắm vào socket kể cả khi nó yêu cầu thêm về chi phí và không gian, vì vậy đây là một tính năng quan trọng Ampere cần phải có.

Có lẽ tính năng thú vị nhất là single-threaded core. Intel và AMD cung cấp core SMT (Intel gọi là Hyper-Threading / siêu phân luồng) với hai luồng trên mỗi lõi trên các thế hệ CPU Xeon và EPYC hiện tại (không bao gồm Xeon Bronze). Ampere cho rằng bằng cách loại bỏ SMT, nó có thể tăng QoS bằng cách hạ thấp tranh chấp tài nguyên, giúp kiểm soát được vấn đề hiệu năng.

Ampere đơn AltraAmpere Altra Simgle-Threaded

Ampere đang gợi mở đặc tính này như một tính năng của nhà cung cấp đám mây bằng cách nói rằng nó làm giảm hệ lụy từ các “hàng xóm ồn ào”. Intel đã phải làm rất nhiều thứ trong vấn đề này vì các chip Xeon E5 và Xeon Scalable có xu hướng tăng tốc khi một số lõi chuyển sang thực thi AVX2 / AVX-512. Các ví dụ khác là khi bộ xử lý quét bộ nhớ cache và truy cập bộ nhớ I/O. Đối với nhà cung cấp đám mây, bạn muốn một sản phẩm đồng nhất nhất có thể, vì vậy điều này có ý nghĩa từ góc độ đó.

Hàng xóm ồn àoHàng xóm ồn ào

Một lợi ích khác là không có SMT, nó cung cấp khả năng cách ly tốt hơn và khả năng bị tổn thương thấp hơn như chúng ta đã thấy với  Foreshadow / L1TF trên Intel Xeons. Một cách nhanh chóng ở đây, Marvell ThunderX2 có thể sử dụng SMT = 1, SMT = 2, SMT = 3 và SMT = 4.

Về bộ nhớ, Altra hỗ trợ DDR4-3200 với tối đa 8 kênh bộ nhớ ở chế độ 2 DPC cho bộ nhớ lên tới 4TB. Điều này tương tự với dòng AMD EPYC 7002. So với Intel Xeon Scalable Cascade Lake, nó có khe DIMM cao hơn 33% cho mỗi CPU và tốc độ xung nhịp cao hơn (3200 v. 2933.) Trong khi SKU chính của Intel hỗ trợ bộ nhớ lên tới 1TB, nó cũng có SKU L L đến 4,5TB khi sử dụng Optane DCPMM. Đã có SKU cấp độ trung bình 2TB nhưng các SKU  Intel Xeon Scalable thế hệ 2 này đã bị ngưng sử dụng .

Bộ nhớ AltereBộ nhớ Altere

Ampere cũng có một tính năng rất giống AMD EPYC 7002. Nó có 128 làn PCIe cho mỗi CPU. Sau đó, nó sử dụng 32 làn trong số đó cho hệ thống 2P bằng CCIX cho kết nối liên kết bộ nhớ cache. AMD EPYC 7002 về mặt kỹ thuật có thể hỗ trợ cấu hình PCIe lane 2P 192x này nhưng AMD chỉ chính thức hỗ trợ 160 làn PCIe (socket trên làn đường Infinity Fabric 48x) hoặc cấu hình 128 làn PCIe Gen4 (socket 64 làn đường IF). Nếu một khách hàng lớn như Google, Amazon, Facebook hoặc Microsoft yêu cầu cấu hình làn đường PCIe Gen4 192x, AMD có thể hỗ trợ điều này (chúng tôi đã thấy rằng nó hoạt động), nhưng rõ ràng yêu cầu đó chưa đến nên AMD vẫn ở mức 160x PCIe Gen4 cấu hình làn đường.

Ampere khác IOAmpere khác IO

Ampere đang sử dụng CCIX tại đây. Khi ARM tham gia CXL , dường như con đường PCIe Gen5 sẽ liên quan đến rất nhiều CXL. Tuy nhiên, ARM cho biết họ sẽ tiếp tục hỗ trợ CCIX và đây là lý do.

Ampere hỗ trợ SBSA cấp 4 cùng với nhiều tính năng quản lý quan trọng khác cho thị trường máy chủ đa dụng và máy chủ đám mây.

Bộ xử lý điều khiển khácBộ xử lý điều khiển

Nhìn chung, thật khó để không hào hứng với thiết kế mới này. Nó thực sự là một cái gì đó khác với những gì chúng ta đang thấy trong thế giới x86. Đó là những gì Ampere cần làm nếu muốn cạnh tranh vì việc cung cấp một thứ tương tự sẽ không đủ tốt để buộc thay đổi.

Câu hỏi tiếp theo là cách thức hoạt động của con chip này và cách kiểm soát TCO.

Ước tính hiệu suất của Ampere

Chúng tôi muốn nói về ước tính hiệu suất của Ampere Altra vì chúng rất quan trọng. Ampere đang công bố một số chỉ số hiệu suất tương đối. Như với bất kỳ tiết lộ hiệu suất mang tính cạnh tranh nào, điều quan trọng là phải đọc các chú thích để nắm bắt bối cảnh của nó. Nếu bạn đang đọc một bài viết về Altra và nó đang thể hiện hiệu suất mà không thảo luận về các điều kiện và giả định cơ bản, thì bạn sẽ không nhận được toàn bộ câu chuyện. Đối với mục đích tiếp thị, thông tin quan trọng được đưa vào các trang trình bày bên ngoài bản trình bày chính vì nhiều ấn phẩm không quan tâm đến việc lướt qua chúng.

Đầu tiên, Ampere đang yêu cầu hiệu suất từ ​​các thành phần của nó vượt quá AMD EPYC 7742 lõi kép với một cách biệt nhỏ. Đó là sản phẩm EPYC hiệu suất cao thứ hai của AMD sau AMD EPYC 7H12 tập trung vào HPC nhưng đây cũng là SKU chính cao cấp nhất của AMD. Ampere Altra cũng đang tuyên bố con số Specrate2017_int_base ước tính lớn hơn so với cấu hình Intel Xeon Platinum 8280 lõi kép. Intel có Xeon Gold 6258R mới, đây là điểm so sánh tốt hơn vào lúc này. Mặc dù chúng tôi hy vọng Xeon Gold 6258R sẽ hoạt động giống như Xeon Platinum 8280, nhưng những con số tương đương chưa được công bố. Ampere không sử dụng giá niêm yết của Platinum 8280 nên việc này được thực hiện tốt.

Hiệu suất của Altere Altra Specrate2017_int_baseHiệu suất của Altere Altra Specrate2017_int_base

Khi chúng ta đi đến phần chú thích, chúng ta sẽ thấy Ampere có được những con số này như thế nào. Phần Altra là một nền tảng 3,3 GHz socket kép sử dụng GCC 8.2. Ampere không tiết lộ TDP ở đây nhưng điều đó vẫn ổn vào thời điểm này. Những gì chúng tôi sẽ lưu ý là Ampere đã xếp hạng cả hai kết quả AMD EPYC 7742 và Xeon Platinum 8280 lần lượt là 16,5% và 24%. Điều này đã được thực hiện để điều chỉnh cho việc sử dụng GCC so với AOCC2.0 và ICC 19.0.1.144. Ampere tiết lộ điều này, và nó là một tác động lớn. Các máy chủ ARM có xu hướng sử dụng GCC làm trình biên dịch trong khi có nhiều trình biên dịch được tối ưu hóa hơn cho AMD và Intel. Đối với một số điểm tham chiếu đó là lý do tại sao chúng tôi đã hiển thị cả số GCC được tối ưu hóa và trong phần đánh giá và điểm chuẩn ThunderX2 trong ngày ra mắt lớn của chúng tôi .

Altere Altra End Note 1Altere Altra End Note 1

Thực hành giảm giá này đối với ICC và AOCC là phổ biến trong ngành và Ampere đã tiết lộ rõ ​​ràng. Chúng tôi sẽ lưu ý rằng mặc dù nó không đủ để vượt qua sự cân bằng về phía Xeon, nhưng điều đó có nghĩa là AMD EPYC 7742 thời đại 2019 có thể cung cấp hiệu năng cao hơn so với Ampere Altra 3.3GHz trong tương lai 2020.

Ampere trong các slide trên nói rằng Altra có turbo tối đa 3.0 GHz. Điều thú vị là họ đang sử dụng một bộ phận ở đây đang chạy ở tốc độ xung nhịp cao hơn 10%, đặc biệt là dẫn trước 4% so với AMD.

Khi nhìn vào TCO, Ampere sử dụng các bộ phận có công suất thấp hơn là AMD EPYC 7702 và Intel Xeon Gold 6238R / Xeon Platinum 8276 . Khi chúng tôi thực hiện cuộc họp ngắn của mình, đó là ngay trước khi Công thức Làm mới được công bố. Công việc tuyệt vời ở đây bởi nhóm Ampere để cập nhật phần trình bày của nó. Platinum 8276 hiện được định vị là giải pháp 4 socket và 8 socket nên nó không còn là đối thủ cạnh tranh thực tế với Altra.

Ampere Altra TCOAmpere Altra TCO

Sau đó, Ampere sử dụng TDP và giá 12,5kW để hiển thị khả năng mở rộng. TDP đã tắt so với mức tiêu thụ năng lượng thực tế giữa AMD EPYC và Intel Xeon mà đây có lẽ không phải là cách tốt nhất để so sánh. Chúng ta thà thấy Ampere sử dụng sức mạnh thực tế vì nó sẽ thay đổi kết quả khá nhiều.

Ampere khác Watts trên mỗi lõiAmpere khác Watts trên mỗi lõi

Nhìn vào các chú thích, một lần nữa, Ampere đang sử dụng hệ số chuyển đổi GCC. Một lần nữa, đây là một thực tế công nghiệp, và có những lý do tốt cho nó. Chúng tôi chỉ muốn độc giả của chúng tôi nhận thức được.

Ampere Altra End Note 2Ampere Altra End Note 2

Ampere sau đó nói rằng điều này dẫn đến mật độ tốt hơn trên mỗi giá đỡ.

Mật độ giá trị của AmpeMật độ giá trị của Ampe

Điều hoàn toàn thiếu trong tất cả các số hiệu suất là hiệu suất dấu chấm động. Người ta có thể lập luận một cách đúng đắn rằng hầu hết các khối lượng công việc trên đám mây phụ thuộc vào hiệu suất số nguyên nhiều hơn hiệu suất của dấu chấm động. Tuy nhiên, vẫn có khối lượng công việc được trộn lẫn để có vẻ như là một mảnh ghép quan trọng với cả AMD và Intel đẩy hiệu suất trong các lĩnh vực đó. Ampere sắp được công bố với các tiết lộ, nhưng không bao gồm bất kỳ số liệu hiệu suất FP nào khiến người ta tự hỏi liệu các tuyên bố về hiệu suất có tương tự nhau trong khối lượng công việc nặng và hỗn hợp không.

Hệ thống ra mắt

Ampere có hai hệ thống, nền tảng socket kép 2U và nền tảng socket đơn 2U. Nền tảng socket kép không có tên nhà cung cấp trên đó, mặc dù Lenovo có một trích dẫn trong thông cáo báo chí. Bạn có thể thấy nó trông khá khác biệt so với  Lenovo ThinkSystem SR650 mà chúng tôi đã đánh giá. Ampere từ chối đặt tên cho nhà cung cấp, nhưng chúng tôi hy vọng rằng nếu đây không phải là một hệ thống của Lenovo mà Lenovo sẽ có một lúc nào đó. Chúng tôi cũng đã nghe nói về một máy chủ Wiwynn SV328 hỗ trợ 2P Ampere Altra với tối đa 192 làn PCIe Gen4 và bộ nhớ DDR4-3200 lên đến 8TB trong 32 khe DIMM. Đối với những người không quen thuộc với Wiwynn, hãy xem Nhà cung cấp máy chủ trị giá $ 5B mà bạn có lẽ chưa bao giờ nghe nói về Wiwynn và  nơi Máy chủ đám mây đến từ Wiwynn ở Đài Bắc .

Nền tảng Altere AltraNền tảng Altere Altra

Nền tảng khác là một nền tảng socket đơn Gigabyte trông giống như nhiều cách so với Gigabyte R272-Z32 mà chúng tôi đã đánh giá . Gigabyte đã cực kỳ năng nổ với hệ thống ARM của họ. Nhiều năm trước, chúng tôi đã thấy một máy chủ lưu trữ ARM Gigabyte Annapurna Labs . Chúng tôi cũng đã sử dụng máy chủ Gigabyte trong thời đại ThunderX (1) và ThunderX2 .

Đây dường như là các hệ thống trước đó. Một số độc giả của chúng tôi sẽ lưu ý rằng nếu đó là hai nền tảng hiện tại duy nhất, thì họ không đạt được số mật độ giá đã nêu ở trên. Chúng tôi sẽ thận trọng chống lại dòng suy nghĩ này vì có nhiều khách hàng siêu quy mô không thảo luận công khai về thiết kế của họ.

Lời cuối cùng

Hãy để chúng tôi làm rõ, đây là một bước tiến lớn từ eMAG. Nó cũng là một cột mốc quan trọng đối với thị trường máy chủ ARM. Đây là một phần cạnh tranh hơn nhiều so với các lần phát hành trước. Nếu ARM lấy socket từ Intel và AMD làm CPU máy chủ chính, thì đây là một bước đi đúng hướng.

Nhìn về phía trước, AMD nói rằng kiến ​​trúc thế hệ tiếp theo của họ sẽ ra mắt vào cuối năm nay. Do AMD có các hệ thống EPYC 7002 của dòng “Rome” đã được bán ra và sự đa dạng hệ thống lớn hơn và Ampere Altra vẫn chưa được bán ra với cùng số lượng, đối thủ thực sự của Altra từ AMD sẽ là Milan.

Về phía Intel, mọi thứ phức tạp hơn. Intel đã cam kết phát hành Ice Lake Xeon với công nghệ 10nm, PCIe Gen4 và các tính năng mới vào năm 2020. Nó cũng có Cooper Lake sắp ra mắt. Nhiều khả năng chúng ta sẽ thấy Ampere cạnh tranh với Xeon thế hệ 2, Cooper Lake Xeons và Ice Lake Xeon trong 12 tháng tới. Ampere với bộ điều khiển bộ nhớ DDR4-3200 8 kênh và các làn PCIe Gen4 128x (1P) hoặc 192x (2P) cho mỗi CPU, cùng với 80 lõi nên được định vị tốt với khả năng cung cấp cạnh tranh.

Chúng tôi chắc chắn hoan nghênh đội ngũ Ampere trên cột mốc này. Đưa chip máy chủ ARM mới ra thị trường đã được chứng minh là một nhiệm vụ khó khăn trong quá khứ. Cho thấy rằng nó có thể đổi mới mang lại các tính năng mới cho thị trường và nó có một lộ trình tiến lên là điều quan trọng.

Nguồn STH

____
Bài viết liên quan
Góp ý / Liên hệ tác giả