Ampere tiết lộ CPU 192 nhân, sau đó đưa ra kết quả thử nghiệm gây tranh cãi

Ampere tuần này đã giới thiệu bộ xử lý AmpereOne dành cho trung tâm dữ liệu đám mây, đây là CPU đa năng đầu tiên trong ngành có tới 132 CPU có thể được sử dụng để suy luận AI.

Các chip mới tiêu thụ nhiều năng lượng hơn so với các chip tiền nhiệm — Ampere Altra (sẽ duy trì trạng thái ổn định của Ampere trong ít nhất một thời gian) — nhưng công ty tuyên bố rằng mặc dù mức tiêu thụ điện năng cao hơn, bộ xử lý có tới 192 lõi của họ cung cấp mật độ tính toán cao hơn so với CPU từ AMD và Intel. Một số tuyên bố về hiệu suất đó có thể gây tranh cãi.

192 Lõi gốc đám mây tùy chỉnh

Bộ xử lý AmpereOne của Ampere có 136 – 192 lõi (trái ngược với 32 đến 128 lõi của Ampere Altra) chạy ở tốc độ lên tới 3,0 GHz dựa trên triển khai độc quyền của công ty về kiến ​​trúc tập lệnh Armv8.6+ (có hai vectơ 128 bit đơn vị hỗ trợ các định dạng FP16, BF16, INT16 và INT8) được trang bị bộ nhớ đệm L2 kết hợp 8 chiều thiết lập 2 MB trên mỗi lõi (tăng từ 1 MB) và được kết nối với nhau bằng mạng mech với 64 nút nhà và rình mò dựa trên thư mục lọc. Ngoài bộ đệm L1 và L2, SoC còn có bộ đệm cấp hệ thống 64MB. Các CPU mới được đánh giá ở mức 200W – 350W tùy thuộc vào SKU chính xác, tăng từ 40W – 180W đối với Ampere Altra.

(Nguồn: Ampe)

Công ty tuyên bố rằng các lõi mới của họ được tối ưu hóa hơn nữa cho khối lượng công việc trên đám mây và AI, đồng thời có các hướng dẫn ‘sức mạnh và hiệu quả’ trên mỗi lần tăng xung nhịp (IPC), điều này có thể có nghĩa là IPC cao hơn (so với Neoverse N1 của Arm được sử dụng cho Altra) mà không có sự gia tăng rõ rệt nào trong tiêu thụ điện năng và khu vực chết. Nói về diện tích khuôn, Ampere không tiết lộ nhưng nói rằng AmpereOne được sản xuất trên một trong những công nghệ xử lý cấp 5nm của TSMC.

(Nguồn: Ampe)

Mặc dù Ampere không tiết lộ tất cả các chi tiết về lõi AmpereOne của nó, nhưng nó nói rằng chúng có tính năng tìm nạp trước dữ liệu L1 có độ chính xác cao (giảm độ trễ, đảm bảo rằng CPU dành ít thời gian chờ dữ liệu hơn và giảm mức tiêu thụ năng lượng của hệ thống bằng cách giảm thiểu truy cập bộ nhớ), khôi phục dự đoán sai nhánh được tinh chỉnh (CPU có thể phát hiện dự đoán sai nhánh và khôi phục càng sớm, nó sẽ giảm độ trễ và sẽ tốn ít năng lượng hơn) và phân định bộ nhớ tinh vi (tăng IPC, giảm thiểu tắc nghẽn đường ống, tối đa hóa việc thực thi không theo thứ tự, giảm độ trễ và cải thiện khả năng xử lý nhiều yêu cầu đọc/ghi trong môi trường ảo hóa).

Chia sẻ cho bạn bè cùng đọc