Một câu chuyện khá ngắn gọn về nhu cầu quá lớn đối với phần cứng máy tính hiệu suất cao của Nvidia tại Trung Quốc đã tiết lộ hiệu suất của GPU máy tính A800 bí ẩn của Nvidia, được sản xuất cho thị trường Trung Quốc. Theo MyDrivers, A800 hoạt động ở 70% tốc độ của GPU A100 trong khi vẫn tuân thủ các tiêu chuẩn xuất khẩu nghiêm ngặt của Hoa Kỳ vốn hạn chế lượng sức mạnh xử lý mà Nvidia có thể bán.
Hiện đã được ba tuổi, A100 của Nvidia có hiệu suất khá cao: nó cung cấp 9,7 FP64/19,5 FP64 Tensor TFLOPS cho HPC và lên đến 624 BF16/FP16 TFLOPS (với độ thưa thớt) cho khối lượng công việc AI. Ngay cả khi bị cắt giảm khoảng 30%, những con số này vẫn trông rất đáng gờm: 6,8 FP64/13,7 FP64 Tensor TFLOPS cũng như 437 BF16/FP16 (với độ thưa thớt).
Mặc dù bị ‘thiến’, (giới hạn hiệu suất) như MyDrivers đặt nó, A800 của Nvidia là đối thủ hoàn toàn chống lại các GPU tính toán BR104 và BR100 của Biren có trụ sở tại Trung Quốc về khả năng tính toán. Trong khi đó, GPU điện toán của Nvidia và kiến trúc CUDA của nó được hỗ trợ rộng rãi bởi các ứng dụng do khách hàng của họ chạy, trong khi bộ xử lý của Biren vẫn chưa được chấp nhận. Và ngay cả Biren cũng không thể vận chuyển GPU điện toán chính thức của mình đến Trung Quốc do các quy định mới nhất.
Hàng 0 – Ô 0 | Biren BR104 | Nvidia A800 | NVIDIA A100 | Nvidia H100 |
Yếu tố hình thức | Thẻ FHFL | Thẻ FHFL (?) | SXM4 | SXM5 |
Số lượng bóng bán dẫn | ? | 54,2 tỷ | 54,2 tỷ | 80 tỷ |
Nút | N7 | N7 | N7 | 4N |
Quyền lực | 300W | ? | 400W | 700W |
TFLOPS FP32 | 128 | 13.7 (?) | 19,5 | 60 |
TF32+ TFLOPS | 256 | ? | ? | ? |
TF32 TFLOPS | ? | 109/218* (?) | 156/312* | 500/1000* |
TFLOPS FP16 | ? | 56 (?) | 78 | 120 |
Tenor FP16 TFLOPS | ? | 218/437* | 312/624* | 1000/2000* |
TFLOPS BF16 | 512 | 27 | 39 | 120 |
Tenor BF16 TFLOPS | ? | 218/437* | 312/624* | 1000/2000* |
INT8 | 1024 | ? | ? | ? |
Tenor INT8 TFLOPS | ? | 437/874* | 624/1248* | 2000/4000* |
* Với sự thưa thớt
Các quy tắc xuất khẩu do Hoa Kỳ áp đặt vào tháng 10 năm 2021 cấm xuất khẩu các công nghệ của Mỹ cho phép các siêu máy tính có hiệu suất vượt quá 100 FP64 PetaFLOPS hoặc 200 FP32 PetaFLOPS trong không gian có diện tích 41.600 feet khối (1.178 mét khối) trở xuống sang Trung Quốc. Mặc dù các hạn chế xuất khẩu không giới hạn cụ thể hiệu suất của từng GPU điện toán được bán cho một thực thể có trụ sở tại Trung Quốc, nhưng chúng hạn chế thông lượng và khả năng mở rộng của chúng.
Sau khi các quy định mới có hiệu lực, Nvidia đã mất khả năng bán GPU điện toán A100 và H100 siêu cao cấp của mình cho các khách hàng ở Trung Quốc mà không có giấy phép xuất khẩu, điều này rất khó để có được. Trong nỗ lực đáp ứng nhu cầu về hiệu suất mà các siêu máy tính Trung Quốc yêu cầu, công ty đã giới thiệu một phiên bản rút gọn của GPU A100 có tên là A800. Cho đến nay, vẫn chưa rõ GPU này có khả năng như thế nào.
Khi việc sử dụng trí tuệ nhân tạo ngày càng tăng đối với cả người tiêu dùng và doanh nghiệp, sự phổ biến của phần cứng hiệu suất cao có thể xử lý khối lượng công việc phù hợp đang bùng nổ. Nvidia là một trong những người hưởng lợi chính từ siêu xu hướng AI, đó là lý do tại sao nhu cầu về GPU của họ cao đến mức ngay cả A800 giá rẻ cũng cháy hàng ở Trung Quốc.
Biren’s BR100 sẽ có sẵn ở dạng OAM và tiêu thụ công suất lên tới 550W. Con chip này hỗ trợ công nghệ BLink 8 chiều độc quyền của công ty, cho phép cài đặt tối đa tám GPU BR100 trên mỗi hệ thống. Ngược lại, BR104 300W sẽ xuất xưởng ở dạng thẻ PCIe hai chiều rộng FHFL và hỗ trợ cấu hình đa GPU lên đến 3 chiều. Cả hai chip đều sử dụng giao diện PCIe 5.0 x16 với giao thức CXL cho bộ tăng tốc ở trên cùng, báo cáo của EETTrend (thông qua VideoCardz).
Biren nói rằng cả hai con chip của họ đều được sản xuất bằng quy trình chế tạo lớp 7nm của TSMC (không nói rõ liệu nó sử dụng N7, N7+ hay N7P). BR100 lớn hơn chứa 77 tỷ bóng bán dẫn, vượt xa con số 54,2 tỷ của Nvidia A100 cũng được tạo ra bằng cách sử dụng một trong các nút N7 của TSMC. Công ty cũng nói rằng để khắc phục những hạn chế do kích thước kẻ ô của TSMC áp đặt, họ phải sử dụng thiết kế chiplet và công nghệ CoWoS 2.5D của xưởng đúc, điều này hoàn toàn hợp lý vì A100 của Nvidia đã đạt đến kích thước của một kẻ ô và BR100 được cho là đồng đều. lớn hơn với số lượng bóng bán dẫn cao hơn.
Với thông số kỹ thuật, chúng ta có thể suy đoán rằng BR100 về cơ bản sử dụng hai BR104, mặc dù nhà phát triển chưa chính thức xác nhận điều đó.
Để thương mại hóa máy gia tốc BR100 OAM của mình, Biren đã làm việc với Inspur trên một máy chủ AI 8 chiều sẽ được lấy mẫu bắt đầu từ Quý 4 năm 2022. Baidu và China Mobile sẽ là những khách hàng đầu tiên sử dụng GPU điện toán của Biren.