Lỗi buộc Intel phải tạm dừng một số lô hàng Xeon Sapphire Rapids

Intel đã xác nhận rằng họ đã tạm dừng vận chuyển một số bộ xử lý Xeon Sapphire Rapids thế hệ thứ tư do một lỗi mới được phát hiện. Chúng tôi đã nhận được thông báo rằng Intel đã tạm dừng các lô hàng và sau khi theo dõi vấn đề này, chúng tôi đã biết được một số chi tiết về vấn đề này từ Dylan Patel, Trưởng phòng phân tích tại SemiAnalysis, người cho biết các lô hàng đã bị tạm dừng đối với một số SKU nhất định kể từ giữa tháng 6. Chúng tôi đã liên hệ với Intel về vấn đề này và công ty đã đưa ra tuyên bố sau đây tới Phần cứng của Tom:

“Chúng tôi đã biết về một sự cố trên một tập hợp con của Bộ xử lý số lõi trung bình Intel Xeon thế hệ thứ 4 (SPR-MCC) có thể làm gián đoạn hoạt động của hệ thống trong một số điều kiện nhất định và đang tích cực điều tra. Sự cố này không được quan sát thấy khi chạy phần mềm có sẵn trên thị trường và các phần mềm khác Các SKU của bộ xử lý Intel Xeon thế hệ thứ 4 (tức là XCC và HBM) không có vấn đề gì. Để thận trọng, chúng tôi đã tạm thời tạm dừng một số lô hàng SPR MCC trong khi chúng tôi tin tưởng vào việc giảm thiểu phần sụn dự kiến ​​và hy vọng sẽ sớm phát hành các lô hàng còn lại .” — Người phát ngôn của Intel cho Phần cứng của Tom.

Để trả lời câu hỏi tiếp theo, Intel cũng nói với chúng tôi rằng họ không mong đợi việc giảm thiểu phần sụn sẽ ảnh hưởng đến hiệu suất.

Bộ xử lý Sapphire Rapids của Intel được tạo bằng hai loại thiết kế cơ bản: Gói XCC, sử dụng bốn ô tính toán (khuôn) để tạo ra một con chip và gói MCC, sử dụng một khuôn nguyên khối duy nhất. Như được hiển thị trong các trang trình bày ở trên, thiết kế MCC được sử dụng cho các chip có tối đa 32 lõi, đây là nguồn bán hàng số lượng lớn cho Intel, trong khi các biến thể XCC được sử dụng cho các chip halo có từ 36 đến 60 lõi.

“Intel đã phải đối mặt với một loạt vấn đề thiết kế khác liên quan đến Sapphire Rapids MCC, phiên bản có khối lượng lớn nhất của Sapphire Rapids. SKU 2 ổ cắm và 4 ổ cắm đã tạm dừng giao hàng do vấn đề thời gian kể từ giữa tháng 6,” Patel cho biết.

Intel đã không xác nhận rằng sự cố chỉ xảy ra với các SKU ổ cắm kép và bốn ổ cắm, thay vào đó phân loại sự cố này là sự cố giới hạn ở một ‘tập hợp con’ của các SKU và không cho biết thời điểm bắt đầu tạm dừng giao hàng. Intel cũng chưa xác nhận lời khẳng định của Patel rằng lỗi này liên quan đến thời gian hoặc cung cấp cho chúng tôi bất kỳ lời giải thích nào về bản chất của vấn đề.

Một vấn đề về thời gian có thể bao gồm bất kỳ số lượng khả năng nào, từ kết nối UPI đến các vấn đề về thời gian hướng dẫn, do đó, bản chất thực sự của lỗi vẫn còn mơ hồ cho đến nay. Chúng tôi biết rằng Intel có thể khắc phục sự cố bằng bản sửa lỗi chương trình cơ sở dường như vẫn đang được xác thực cho đến thời điểm hiện tại, vì vậy sự cố sẽ không yêu cầu thiết kế lại hoặc sửa đổi/bước mới để khắc phục. Ngoài ra, vì chương trình cơ sở mới là một bản sửa lỗi phù hợp, nên Intel có thể không bắt buộc phải thay thế bất kỳ bộ xử lý nào đã có trong lĩnh vực này — mặc dù điều này có thể gây đau đầu cho việc xác thực đối với khách hàng của mình.

Intel đã phải hứng chịu nhiều chỉ trích không chỉ vì những sai lầm trong công nghệ nút xử lý đã làm trì hoãn Sapphire Rapids, mà còn vì các vấn đề trong thiết kế và phương pháp xác thực dẫn đến sự chậm trễ hơn nữa và nhiều bước mới (một thiết kế lại nhỏ thường yêu cầu một phiên bản mới silicon để khắc phục sự cố). Sapphire Rapids của Intel đã vướng phải tin đồn rằng những sai lầm trong thiết kế/xác minh của nó đã dẫn đến 12 bước. Đương nhiên, điều đó dẫn đến sự chậm trễ nghiêm trọng trong sản xuất và lỡ ngày ra mắt.

Kể từ đó, công ty đã thông báo rằng họ có kế hoạch thực hiện một cách tiếp cận khác đối với quy trình thiết kế, mô phỏng và xác thực để khắc phục những vấn đề đó. Intel cho biết những điều chỉnh đó sẽ phát huy hết tác dụng trong thế hệ bộ xử lý Xeon tiếp theo.

Intel cho biết lỗi Sapphire Rapids mới này không gặp phải khi “chạy phần mềm thương mại có sẵn” và rõ ràng là nó không bị phát hiện trong quá trình xác thực. Loại tình huống này không phải là hoàn toàn chưa từng xảy ra; gần như tất cả các chip phức tạp đều có cả lỗi và lỗi đã biết và chưa biết. Các lỗi này được xử lý bằng phần mềm, trình điều khiển và giải pháp thay thế phần mềm có thể giảm thiểu hoặc loại bỏ các sự cố đó và chúng vận chuyển theo cách đó — đó chính là bản chất của thiết kế và sản xuất chất bán dẫn hiện đại.

Ví dụ: thế hệ bộ xử lý Skylake của Intel được xuất xưởng với 53 lỗi đã biết và sáu tháng sau, Intel đã liệt kê 40 lỗi khác. Một ví dụ khác là phát hiện gần đây rằng chip EPYC Rome của AMD gặp sự cố sau 1.044 ngày hoạt động. Một số lỗi đơn giản là không được sửa vì chúng không được coi là đủ nghiêm trọng để sửa hoặc chúng được sửa bằng sự kết hợp giữa chương trình cơ sở và phần mềm. Các lỗi nghiêm trọng nhất đôi khi yêu cầu một bước mới để sửa, đó là trường hợp xấu nhất. May mắn thay cho Intel, điều đó dường như không xảy ra ở đây.

Tuy nhiên, mặc dù lỗi không phải là hiếm, nhưng việc những loại lỗi đó dẫn đến việc ngừng vận chuyển là điều hiếm gặp, ngụ ý rằng đây không chỉ là lỗi của vườn giống. Intel chưa làm rõ khi nào họ có kế hoạch tiếp tục giao hàng cho Sapphire Rapids, nhưng chúng tôi sẽ cập nhật phạm vi bảo hiểm của mình khi chúng tôi tìm hiểu thêm.

Chia sẻ cho bạn bè cùng đọc