Với hai exaflop hiệu năng, siêu máy tính Aurora do Intel cung cấp được kỳ vọng sẽ đánh bại siêu máy tính Frontier do AMD cung cấp, hiện là siêu máy tính nhanh nhất thế giới và dẫn đầu danh sách Top 500 siêu máy tính nhanh nhất. Tuy nhiên, do Intel liên tục chậm trễ trong việc cung cấp phần cứng, Aurora vẫn chưa gửi điểm chuẩn cho ủy ban Top 500 nên không công bố danh sách hôm nay. Intel đã chia sẻ thông tin chi tiết mới về hệ thống ngày hôm nay và thông báo tại hội nghị ISC rằng họ đã cung cấp ‘hơn’ 10.000 lưỡi hoạt động cho siêu máy tính Aurora — nhưng với lời cảnh báo rằng đây không phải là thật sự lưỡi cần thiết để triển khai đầy đủ. Chúng tôi sẽ bao gồm các chi tiết dưới đây.
Tuy nhiên, Intel cho biết hệ thống này sẽ hoạt động đầy đủ vào cuối năm nay và chia sẻ điểm chuẩn với Aurora đối đầu trực tiếp với các siêu máy tính do AMD và Nvidia cung cấp, khẳng định lợi thế hiệu suất gấp 2 lần so với GPU MI250X của AMD và tăng 20% so với H100 của Nvidia GPU.
Intel cho biết họ đã cung cấp silicon cho ‘hơn’ 10.000 lưỡi — cả chip Sapphire Rapids Xeon thế hệ thứ tư và GPU Ponte Vecchio — cho Cơ sở Điện toán Lãnh đạo Argonne (ALCF).
Tuy nhiên, Aurora được thiết kế để hoạt động với chip Sapphire Rapids “Xeon Max” được trang bị HBM của Intel, vốn đã bị trì hoãn vĩnh viễn. Do những sự chậm trễ đó, Intel ban đầu đã bắt đầu vận chuyển ALCF chip Sapphire Rapids không phải HBM và cơ sở này bắt đầu cung cấp cho Aurora Rapids Sapphire không phải HBM tiêu chuẩn như một biện pháp ngăn chặn khoảng cách.
Intel hiện đang cung cấp chip Xeon Max được trang bị HBM nhanh hơn cho ALCF, nhưng không phải tất cả 10.000 lưỡi mà hãng quảng cáo khi được phân phối đều có chip Max bên trong. Chúng tôi đã hỏi Intel và đại diện của công ty đã xác nhận rằng không phải tất cả các cánh quạt đều được trang bị silicon Xeon Max cuối cùng. Công ty cho chúng tôi biết rằng khoảng 75% lưỡi dao chứa phiên bản Xeon Max cuối cùng của silicon. Có lẽ, đó là nút cổ chai đang ngăn hệ thống gửi điểm chuẩn cho danh sách Top500.
Hệ thống bao gồm 166 giá đỡ với 64 lưỡi dao trên mỗi giá đỡ, tổng cộng là 10.624 lưỡi dao, do đó, ‘hơn’ 10.000 lưỡi dao được phân phối có khả năng đủ để hệ thống hoạt động — chỉ là không đạt hiệu suất tối đa.
Intel cũng chia sẻ thêm thông số kỹ thuật của siêu máy tính Aurora, bao gồm thông số kỹ thuật chi tiết mà bạn có thể xem trong slide bên trên. Với 21.248 CPU và 63.744 GPU Ponte Vecchio, Aurora sẽ đáp ứng hoặc vượt hai exaflop hiệu suất khi hoạt động trực tuyến hoàn toàn trước cuối năm nay. Hệ thống này cũng có bộ nhớ DDR5 10,9 petabyte (PB), 1,36 PB HBM được gắn vào CPU, 8,16 PB bộ nhớ GPU và 230 PB dung lượng lưu trữ cung cấp băng thông 31 TB/s (các chi tiết thú vị khác được bao gồm trong trượt ở trên).
Intel cũng tiết lộ rằng Aurora sẽ bắt đầu thực thi khối lượng công việc AI tổng quát trên một loạt khối lượng công việc. Mô hình ngôn ngữ lớn ‘Aurora GPT’ sẽ theo định hướng khoa học và có 1 nghìn tỷ tham số với nền tảng Megatron và DeepSpeed. Intel cung cấp bản tóm tắt dự án như sau:
“Các mô hình AI tổng quát cho khoa học này sẽ được đào tạo về văn bản chung, mã, văn bản khoa học và dữ liệu khoa học có cấu trúc từ sinh học, hóa học, khoa học vật liệu, vật lý, y học và các nguồn khác. Các mô hình kết quả (với tối đa 1 nghìn tỷ tham số) sẽ được sử dụng trong nhiều ứng dụng khoa học, từ thiết kế phân tử và vật liệu đến tổng hợp kiến thức từ hàng triệu nguồn để đề xuất các thí nghiệm mới và thú vị trong sinh học hệ thống, hóa học polyme và vật liệu năng lượng, khoa học khí hậu và vũ trụ học. được sử dụng để đẩy nhanh việc xác định các quá trình sinh học liên quan đến ung thư và các bệnh khác và đề xuất các mục tiêu cho thiết kế thuốc.”
Intel cũng giới thiệu một số điểm chuẩn từ hệ thống Sunspot, một phiên bản hai giá đỡ nhỏ hơn của Aurora với tổng số 128 nút. Intel đã so sánh hiệu suất của Sunspot với các con số ngoại suy đại diện cho siêu máy tính Polaris ‘có kích thước tương tự’ với GPU Nvidia A100 và siêu máy tính Crusher được cung cấp bởi GPU MI250X của AMD. Thật không may, Intel đã không cung cấp các ghi chú kiểm tra hoặc chi tiết về các cấu hình này, vì vậy hãy xem xét kết quả với nhiều điều hơn bình thường.
Trong thử nghiệm một nút duy nhất trong khối lượng công việc dự đoán lò phản ứng, Intel tuyên bố hệ thống của họ nhanh hơn 45% so với đối thủ Nvidia và nhanh hơn 12% so với hệ thống AMD. Chuyển sang các chỉ số về khả năng mở rộng, Intel tuyên bố rằng bằng cách chuẩn hóa số lượng tổng số GPU được sử dụng trong các hệ thống thử nghiệm thành 96 GPU (các nút AMD và Nvidia có bốn GPU mỗi nút, trong khi hệ thống Intel có sáu GPU trên mỗi nút), Sunspot cung cấp hơn hai lần hiệu suất của cả hệ thống AMD và Nvidia trong khối lượng công việc Monte Carlo. Đối với 90 nút trong khối lượng công việc NWChemEx, Intel tuyên bố nó nhanh hơn 72% so với hệ thống Solaris 90 nút do Nvidia cung cấp.
Siêu máy tính Aurora được công bố lần đầu tiên vào năm 2015, với ngày hoàn thành được dự đoán là vào năm 2018. Khi đó, hệ thống này được thiết kế để sử dụng bộ xử lý Knights Hill sau đó đã bị hủy bỏ. Kể từ đó, hệ thống đã trải qua nhiều lần thiết kế lại và lên lịch lại, với Aurora mới được công bố vào năm 2019 với một exaflop về hiệu suất sẽ được phân phối vào năm 2021. Tuy nhiên, một lần lên lịch lại khác vào cuối năm 2021 tuyên bố rằng hệ thống sẽ phân phối hai exaflop sau khi hoàn thành, nghĩa là bây giờ dự kiến vào cuối năm nay.
Con đường dài và quanh co vẫn tiếp tục, nhưng cuối cùng có vẻ như ít nhất là điểm cuối đã hiện ra trước mắt. Intel cho chúng tôi biết họ sẽ cung cấp tất cả các bộ xử lý Xeon Max để sớm hoàn thiện hệ thống và hệ thống sẽ hoàn thiện và gửi điểm chuẩn Top 500 đầu tiên trước cuối năm nay.