Chip Rome EPYC của AMD gặp sự cố sau 1.044 ngày hoạt động

Hướng dẫn sửa đổi bộ xử lý mới nhất của AMD dành cho chip máy chủ EPYC 7002 ‘Rome’ tiết lộ một lỗi mới thú vị (errata) có thể khiến lõi trên chip bị treo sau 1.044 ngày hoạt động (~2,93 năm), nghĩa là bạn sẽ phải thiết lập lại máy chủ để chip chạy chính xác. AMD cho biết họ sẽ không khắc phục sự cố.

Mô tả của AMD về sự cố, ảnh hưởng đến bộ xử lý EPYC thế hệ thứ hai của họ (chip Genoa thế hệ thứ tư của AMD là loại mới nhất), rất ngắn gọn, nhưng có rất nhiều điều cần giải nén.

AMD

(Nguồn: AMD)

Vấn đề bắt nguồn từ việc lõi không thoát khỏi trạng thái ngủ CC6, nhưng AMD cho biết thời điểm xảy ra lỗi có thể thay đổi dựa trên trải phổ và tần số REFCLK, tần số sau là đồng hồ tham chiếu giúp chip theo dõi thời gian.

Người dùng Reddit acid_migrain có một lý thuyết hợp lý về thời gian chính xác của hiện tượng treo lõi, nói rằng: “Bất chấp những gì họ nói, vấn đề thực sự biểu hiện sau 1042 ngày và khoảng 12 giờ. TSC đánh dấu ở 2800 MHz và 2800 * 10**6 * 1042,5 ngày gần bằng 0x380000000000000, có quá nhiều số 0 không phải là sự trùng hợp.”

Cách khắc phục rất đơn giản — khởi động lại trước 1.044 ngày hoạt động, việc này sẽ đặt lại CPU để khởi động lại “bộ hẹn giờ” 1.044 ngày của bạn hoặc vô hiệu hóa trạng thái ngủ của CC6.

Bây giờ, trong khi lỗi sự cố lõi 2,93 năm này rất thú vị, thì câu hỏi đặt ra là liệu nó có thực sự quan trọng hay không. Chắc chắn, điều đó quan trọng, mặc dù thực tế là các bản cập nhật và bảo trì bảo mật nên được thực hiện trong khoảng thời gian ngắn hơn nhiều.

Kịch bản thực tế nhất chỉ đơn giản là những kịch bản sử dụng tính năng vá lỗi trực tiếp của Linux để cập nhật mà không cần khởi động lại — điều đó chắc chắn có thể dẫn đến loại thời gian hoạt động kéo dài sẽ gây ra lỗi. Ngoài ra, các máy chủ dành cho các ứng dụng quan trọng thường có thời gian hoạt động kéo dài.

Mặc dù lỗi này rất thú vị, nhưng nó không phải là điểm nổi bật đối với phần lớn người dùng và lỗi xảy ra trong chip chắc chắn không phải là bất thường. CPU hiện đại là thiết bị phức tạp nhất do loài người chế tạo và chúng hầu như luôn được tung ra thị trường với vô số lỗi/lỗi được phát hiện trong hoặc sau khi chip đạt đến bản sửa đổi vận chuyển cuối cùng (bước).

Chip Errata là phổ biến, nhưng không tuyệt vời

Chia sẻ cho bạn bè cùng đọc