AVX10 mới của Intel mang khả năng AVX-512 đến E-Core

Intel đã đăng APX mới (Tiện ích mở rộng hiệu suất nâng cao) hôm nay và cũng tiết lộ AVX10 mới [PDF] điều đó sẽ lần đầu tiên mang lại sự hỗ trợ thống nhất cho các khả năng của AVX-512 cho cả P-Core và E-Core. Sự phát triển này của tập lệnh AVX sẽ giúp Intel vượt qua các sự cố nghiêm trọng mà hãng gặp phải với kiến ​​trúc lai x86 mới có trong bộ xử lý Alder và Raptor Lake.

Tuy nhiên, AVX10 ISA mới sẽ không được hỗ trợ với các CPU thế hệ hiện tại của Intel — nó dự kiến ​​sẽ xuất hiện trong các chip trong tương lai. Intel nói rằng AVX10 sẽ là ISA véc tơ được lựa chọn trong tương lai cho cả bộ xử lý máy chủ và người tiêu dùng.

Intel AVX10 (Phần mở rộng hướng dẫn nâng cao 10)

Ở cấp độ cơ bản nhất, AVX10 sẽ cho phép các chip của Intel có cả lõi E và lõi P vẫn hỗ trợ AVX-512, mặc dù lệnh 512-bit chỉ có thể chạy trên lõi P. Trong khi đó, các lệnh AVX10 256 bit hội tụ có thể chạy trên lõi p hoặc lõi điện tử, do đó cho phép toàn bộ chip vẫn hỗ trợ các khả năng của AVX-512.

Do đó, Intel sẽ không phải vô hiệu hóa hỗ trợ cho các vectơ 512 bit như đã làm khi vô hiệu hóa AVX-512 cho cả Alder Lake và Raptor Lake.

Tìm hiểu sâu hơn, ISA AVX10 (Phần mở rộng hướng dẫn nâng cao 10) là tập hợp thay thế của AVX-512 và đi kèm với tất cả các tính năng của ISA AVX-512 dành cho bộ xử lý có cả kích thước thanh ghi véc tơ 256 bit và 512 bit.

AVX10 ISA hội tụ sẽ bao gồm “các lệnh vectơ AVX-512 với cờ tính năng AVX512VL, độ dài thanh ghi vectơ tối đa là 256 bit, cũng như tám thanh ghi mặt nạ 32 bit và các phiên bản mới của lệnh 256 bit hỗ trợ làm tròn nhúng”, và phiên bản này sẽ chạy trên cả lõi p và lõi điện tử.

Tuy nhiên, các lõi điện tử sẽ bị giới hạn ở độ dài vectơ tối đa 256 bit của AVX10 đã hội tụ, trong khi các lõi P có thể sử dụng các vectơ 512 bit. Cảm giác này giống như sự hỗ trợ của Arm đối với độ rộng vectơ thay đổi với SVE. Intel nói rằng các ứng dụng hiện tại sẽ cung cấp cùng một mức hiệu suất với AVX10 như đã làm với AVX-512, ít nhất là ở cùng độ dài vectơ. Intel cũng tuyên bố:

  • Các ứng dụng do Intel AVX2 biên dịch, được biên dịch lại thành Intel AVX10, sẽ đạt được hiệu suất tăng mà không cần điều chỉnh phần mềm bổ sung.
  • Các ứng dụng Intel AVX2 nhạy cảm với áp suất thanh ghi véc-tơ sẽ đạt hiệu suất cao nhất nhờ có thêm 16 thanh ghi véc-tơ và các lệnh mới.
  • Các ứng dụng có thể véc tơ hóa theo luồng cao có khả năng đạt được thông lượng tổng hợp cao hơn khi chạy trên bộ xử lý Intel Xeon dựa trên lõi điện tử hoặc trên các sản phẩm của Intel có kiến ​​trúc kết hợp hiệu năng.

Intel sẽ hỗ trợ AVX10 phiên bản 1 (AVX10.1) bắt đầu với chip Xeon “Granite Rapids” thế hệ thứ sáu, nhưng thế hệ đó sẽ chỉ hỗ trợ các lệnh véc-tơ 512-bit chứ không hỗ trợ các lệnh véc-tơ 256-bit hội tụ mới. Thay vào đó, thế hệ đầu tiên này sẽ đóng vai trò là chip chuyển tiếp từ AVX-512 sang AVX10.

Các chip xuất hiện sau Granite Rapids sẽ hỗ trợ AVX10.2, bổ sung hỗ trợ cho độ dài vectơ 256 bit hội tụ và các tính năng mới khác, chẳng hạn như chuyển đổi và loại dữ liệu AI mới, tối ưu hóa chuyển động dữ liệu và hỗ trợ tiêu chuẩn. Tất cả các bộ xử lý Xeon trong tương lai sẽ tiếp tục hỗ trợ đầy đủ tất cả các hướng dẫn AVX-512 để đảm bảo rằng các ứng dụng cũ hoạt động bình thường.

Để giải quyết phản hồi của nhà phát triển (rõ ràng là tiêu cực), Intel cũng có kế hoạch đơn giản hóa đáng kể các phương pháp liệt kê AVX10 của mình so với AVX-512. Intel cũng có kế hoạch đảm bảo rằng mỗi lần chuyển sang phiên bản AVX10 mới đều có đủ các hướng dẫn và khả năng mới để phù hợp với thay đổi, do đó giảm bớt sự phình to của phiên bản và số liệu liệt kê.

Intel sẽ đóng băng AVX-512 ISA khi AVX10 ra mắt và tất cả việc sử dụng hướng dẫn AVX-512 trong tương lai sẽ diễn ra thông qua AVX10 ISA. Trong khi đó, AMX mới sẽ không bị ảnh hưởng.

Intel APX (Phần mở rộng hiệu suất nâng cao)

Intel cũng đã công bố APX (Tiện ích mở rộng hiệu suất nâng cao) mới hôm nay (đừng nhầm với iAPX 432 kiểu cũ).

Intel tuyên bố mã do APX biên dịch chứa ít tải hơn 10% và lưu trữ ít hơn 20% so với mã tương tự được biên dịch cho đường cơ sở Intel 64. Intel cũng nói rằng truy cập đăng ký vừa nhanh hơn vừa tiêu thụ ít năng lượng động hơn đáng kể so với các hoạt động lưu trữ và tải phức tạp. Thật thú vị, APX mới tìm thấy cách sử dụng mới cho khu vực 128B không được sử dụng khi Intel từ bỏ MPX vào năm 2019 và tái sử dụng nó cho XSAVE.

Dưới đây là các tính năng cấp cao nhất của APX:

  • 16 thanh ghi mục đích chung bổ sung (GPR) R16–R31, còn được gọi là GPR mở rộng (EGPR) trong tài liệu này
  • Định dạng lệnh ba toán hạng với thanh ghi đích dữ liệu mới (NDD) cho nhiều lệnh số nguyên
  • Cải tiến ISA có điều kiện: Các hướng dẫn tải, lưu trữ và so sánh có điều kiện mới, kết hợp với một tùy chọn cho trình biên dịch để chặn các cờ trạng thái ghi của các hướng dẫn phổ biến
  • Tối ưu hóa hoạt động lưu / khôi phục trạng thái đăng ký
  • Hướng dẫn nhảy trực tiếp tuyệt đối 64-bit mới

Intel tuyên bố họ đã triển khai APX theo cách không ảnh hưởng đến diện tích silicon hoặc mức tiêu thụ năng lượng của lõi CPU. Bạn có thể đọc thêm về APX tại đây và Intel có danh sách tài nguyên cho cả APX và AVX10 ở cuối trang được liên kết.

APX và AVX10 xuất hiện ngay sau thông báo gần đây của Intel rằng họ đang điều tra việc giảm bớt kiến ​​trúc Intel 64 thành một phiên bản đơn giản hóa của x86 có tên là x86S.

Chia sẻ cho bạn bè cùng đọc