
CÔNG TY CỔ PHẦN DỊCH VỤ CÔNG NGHỆ DATECH
Danh sách nội dung [Ẩn]
Tăng cường hiệu suất AI với Juniper Switches và Broadcom NICs
Việc áp dụng nhanh chóng Trí tuệ nhân tạo (AI) đang chuyển đổi các ngành công nghiệp bằng cách tăng cường tự động hóa, cải thiện hiệu quả và tăng năng suất. Các tổ chức trên toàn thế giới đang tận dụng AI như một thành phần cơ bản trong các sáng kiến chiến lược của họ để thúc đẩy quá trình ra quyết định thông minh hơn, tối ưu hóa hoạt động và cung cấp thông tin chi tiết theo thời gian thực.
Khi AI trở thành nền tảng của quá trình chuyển đổi chiến lược, quy mô và độ phức tạp của các mô hình AI đang tăng trưởng với tốc độ chưa từng có. Phân phối hiệu quả khối lượng công việc hiệu suất cao trên nhiều GPU giúp giảm thời gian đào tạo và nâng cao năng suất chung. Trọng tâm của quá trình này là các hoạt động tập thể cho phép trao đổi dữ liệu liền mạch và đồng bộ hóa giữa các GPU. Các hoạt động này rất quan trọng để đẩy nhanh quá trình đào tạo và tối đa hóa hiệu quả của các cụm AI.
Để theo kịp những tiến bộ này, cơ sở hạ tầng hỗ trợ phải phát triển. Sự phát triển này đòi hỏi phải tích hợp mạng lưới siêu nhanh để thiết lập các hệ thống phụ trợ mạnh mẽ để đào tạo khối lượng công việc AI khổng lồ. Những tiến bộ như vậy đảm bảo rằng các mô hình AI quy mô lớn có thể được đào tạo hiệu quả, triển khai hiệu quả và tối ưu hóa hiệu suất, đồng thời tránh được những hạn chế tiềm ẩn.
Juniper và Broadcom đã hợp tác trong một nghiên cứu đánh giá chuẩn toàn diện, sử dụng Thư viện tập thể truyền thông ROCm (RCCL), để đánh giá mức độ hỗ trợ khối lượng công việc AI chuyên sâu của một ngăn xếp mạng hiện đại. Các thử nghiệm này được thực hiện trên cụm GPU AMD MI300x 32 nút được kết nối với Bộ chuyển mạch Juniper Networks® QFX5240 cung cấp kết nối 800 GbE mật độ cao và Thẻ giao diện mạng (NIC) P1400GD 400 GbE của Broadcom . Juniper Apstra ® đã đơn giản hóa việc triển khai thông qua Thiết kế được xác thực của Juniper (JVD) và bản thiết kế sẵn sàng cho AI, mang lại tốc độ, độ ổn định và hiệu suất được cải thiện. Kết quả nêu bật cách một cơ sở hạ tầng được tinh chỉnh có thể tăng tốc đáng kể các hoạt động RCCL và hiệu quả khối lượng công việc AI.
Nghiên cứu đánh giá chuẩn được thiết kế để đánh giá hiệu suất của các hoạt động tập thể cần thiết cho việc đào tạo AI phân tán trên một cụm GPU quy mô lớn. Bằng cách tập trung vào hiệu suất và khả năng mở rộng, nghiên cứu nhằm đánh giá mức độ hiệu quả của cơ sở hạ tầng mạng hỗ trợ trao đổi dữ liệu thông lượng cao, độ trễ thấp giữa các GPU.
Sử dụng khuôn khổ RCCL, các thử nghiệm đã đo lường tác động của Juniper QFX5240 Switch, Broadcom's P1400GD NIC và AMD MI300x GPU trên nhiều mẫu giao tiếp khác nhau. Mục tiêu là xác định các điểm nghẽn hiệu suất chính, tối ưu hóa phân phối khối lượng công việc và đảm bảo rằng các mô hình AI có thể được đào tạo nhanh hơn và hiệu quả hơn trong môi trường nhiều nút.
Các khối xây dựng mạng lưới AI tốc độ cao
Juniper QFX5240 Switch cung cấp kết nối 800 GbE tiên tiến, đáp ứng nhu cầu của các cụm AI quy mô lớn. Các tính năng chuyên biệt của nó được thiết kế riêng cho khối lượng công việc AI và ML đảm bảo độ trễ thấp và thông lượng cao, nâng cao đáng kể hiệu quả đào tạo. Điều này bao gồm:
Bộ điều hợp Ethernet 400G của Broadcom, dựa trên bộ điều khiển Ethernet BCM57608, được tối ưu hóa để đáp ứng nhu cầu hiệu suất của các ứng dụng AI, giảm thiểu độ trễ và tối đa hóa thông lượng dữ liệu. Các tính năng bổ sung được hỗ trợ bởi NIC Broadcom BCM957608-P1400GD để đảm bảo hiệu suất tối ưu cho AI bao gồm:
Ngoài ra, bộ điều hợp Ethernet AI của Broadcom là giải pháp NIC 400G có công suất thấp nhất hiện nay. Chúng giúp giảm nhu cầu điện năng tổng thể và cải thiện yêu cầu về nhiệt của mạng để cải thiện độ tin cậy và khả năng phục hồi của mạng.
Bộ tăng tốc MI300 series của AMD được thiết kế để đáp ứng các yêu cầu khắt khe của khối lượng công việc AI quy mô lớn và điện toán hiệu suất cao (HPC). Cụm 32 nút được sử dụng trong các thử nghiệm của Juniper đã chứng minh khả năng xử lý đào tạo AI phân tán, chuyên sâu của MI300x trong khi vẫn duy trì hiệu quả đặc biệt.
Để đánh giá hiệu quả của mạng trong việc hỗ trợ khối lượng công việc AI phân tán, Juniper đã sử dụng các thư viện giao tiếp RCCL, cung cấp giao tiếp GPU-to-GPU được tối ưu hóa. Đánh giá của Juniper tập trung vào bốn hoạt động tập thể thiết yếu, mỗi hoạt động mô phỏng các tình huống chính gặp phải trong quá trình đào tạo AI quy mô lớn:
Để đánh giá hiệu quả của mạng trong việc hỗ trợ khối lượng công việc AI, Juniper đã sử dụng bộ kiểm tra chuẩn RCCL để chạy các hoạt động —all to all, all_reduce, all_gather và reduce_scatter—với kích thước tin nhắn từ 16MB đến 4BG. RoCEv2 được sử dụng làm lớp vận chuyển, đảm bảo giao tiếp hiệu quả dựa trên RDMA trong suốt quá trình đánh giá. Mục tiêu là sao chép các tình huống đào tạo AI trong thế giới thực đòi hỏi thông lượng cao và độ trễ thấp.
Hiệu suất toàn diện
Trong quá trình giao tiếp All-to-All, mỗi GPU trao đổi một thông điệp duy nhất với mọi GPU khác theo định dạng điểm-đến-điểm toàn lưới. Điều này tạo ra entropy và tắc nghẽn ở mức trung bình đến cao trong mạng. Kiểm soát tắc nghẽn tốt là yếu tố chính trong hiệu suất All-to-All.
Vì All-to-All gửi dữ liệu duy nhất từ mỗi GPU, nên nó không tận dụng được lợi thế của đường ống được thực hiện trong thuật toán dựa trên vòng hoặc cây. Do đó, băng thông bus sẽ là hàm của băng thông trung bình giữa mỗi cặp GPU (giữa và trong nút). Khi quy mô tăng lên, băng thông này sẽ phản ánh băng thông của mạng mở rộng quy mô. Trong trường hợp này, băng thông mạng là ~50GB cho điểm-đến-điểm. Thực tế là băng thông mục tiêu bị vượt quá cho thấy hiệu quả tăng lên từ các tập thể. Những lợi ích đó là kết quả của các lần truyền cục bộ bên trong máy chủ và do đó không bị giới hạn bởi mạng mở rộng quy mô.
Như được hiển thị bên dưới (Hình 1), sự kết hợp giữa Juniper QFX5240 và NIC P1400GD của Broadcom có thể đạt được băng thông mục tiêu, cho thấy mạng có hiệu suất cao và được tối ưu hóa.
Hình 1: Biểu đồ hiệu suất tổng thể
Hiệu suất All-Reduce, All-Gather và Reduce-Scatter
All-Reduce, All-Gather và Reduce-Scatter được triển khai bằng cách truyền tin nhắn giữa tất cả GPU thông qua các vòng hoặc cây. Điều này cho phép một tập thể được truyền tải nhiều sử dụng toàn bộ băng thông bus (~360 GB). Khối lượng công việc này tạo ra entropy thấp và yêu cầu độ trễ thấp qua mạng. Tính năng cân bằng tải thích ứng của Juniper QFX5240 rất tuyệt vời để duy trì độ trễ thấp.
Kết quả hiển thị trong các hình bên dưới chứng minh rõ ràng rằng Juniper QFX5240, kết hợp với NIC P1400GD của Broadcom, đạt được băng thông bus mục tiêu cho cả ba thiết bị tập hợp, cho thấy hiệu suất mạng được tối ưu hóa.
Lưu ý: Ở kích thước tin nhắn nhỏ hơn, tình trạng thiếu hiệu quả vốn có trong quá trình triển khai tập thể sẽ hạn chế hiệu suất có thể đạt được.
Hình 2: Biểu đồ hiệu suất All-Reduce
Hình 3: Biểu đồ hiệu suất All-Gather
Hình 4: Biểu đồ hiệu suất giảm phân tán
Các tính năng chuyển mạch và NIC sau đây đóng vai trò quan trọng trong việc đạt được hiệu suất được nêu chi tiết ở trên. Các tính năng này không chỉ quan trọng trong việc đảm bảo mạng có thể hỗ trợ nhu cầu hiệu suất của khối lượng công việc AI mà còn quan trọng là các thành phần phải hoạt động kết hợp với nhau để tối đa hóa lợi ích tiềm năng của từng tính năng. Những kết quả này chứng minh rằng mỗi tính năng và thành phần đều được tinh chỉnh tốt để tạo ra mạng được tối ưu hóa hiệu suất.
Tác động của tính năng Juniper QFX5240:
Tác động của tính năng Broadcom P1400GD:
Hiệu suất của AMD MI300x:
Nghiên cứu đánh giá chuẩn này minh họa rằng một ngăn xếp mạng AI được tối ưu hóa, bao gồm Juniper QFX5240 Switch, Broadcom P1400GD NIC và AMD MI300x GPU, mang lại hiệu suất RCCL vượt trội. Ngăn xếp này đóng vai trò quan trọng trong việc đảm bảo các mô hình AI quy mô lớn được đào tạo hiệu quả, triển khai liền mạch và được tối ưu hóa để có hiệu suất tối đa mà không bị rơi vào tình trạng tắc nghẽn tiềm ẩn.
Khi khối lượng công việc AI ngày càng phức tạp, các tổ chức phải dựa vào các giải pháp Ethernet tốc độ cao để đáp ứng nhu cầu của các trung tâm dữ liệu hiện đại. Sự kết hợp giữa thông lượng cao, độ trễ thấp và quản lý tắc nghẽn tiên tiến đảm bảo rằng các tổ chức có thể đào tạo các mô hình AI quy mô lớn hiệu quả hơn và tiết kiệm chi phí hơn.
Để cập nhật thêm nhiều thông tin hữu ích và các sản phẩm thiết bị mạng và các sản phẩm công nghệ mạng vui lòng liên hệ với chúng tôi qua thông tin dưới đây:
CÔNG TY CỔ PHẦN DỊCH VỤ CÔNG NGHỆ DATECH