Tăng cường hiệu suất AI với Juniper Switches và Broadcom NICs

02/06/2025
Bookmark Tin tức

Tăng cường hiệu suất AI với Juniper Switches và Broadcom NICs

 

Việc áp dụng nhanh chóng Trí tuệ nhân tạo (AI) đang chuyển đổi các ngành công nghiệp bằng cách tăng cường tự động hóa, cải thiện hiệu quả và tăng năng suất. Các tổ chức trên toàn thế giới đang tận dụng AI như một thành phần cơ bản trong các sáng kiến ​​chiến lược của họ để thúc đẩy quá trình ra quyết định thông minh hơn, tối ưu hóa hoạt động và cung cấp thông tin chi tiết theo thời gian thực.

Khi AI trở thành nền tảng của quá trình chuyển đổi chiến lược, quy mô và độ phức tạp của các mô hình AI đang tăng trưởng với tốc độ chưa từng có. Phân phối hiệu quả khối lượng công việc hiệu suất cao trên nhiều GPU giúp giảm thời gian đào tạo và nâng cao năng suất chung. Trọng tâm của quá trình này là các hoạt động tập thể cho phép trao đổi dữ liệu liền mạch và đồng bộ hóa giữa các GPU. Các hoạt động này rất quan trọng để đẩy nhanh quá trình đào tạo và tối đa hóa hiệu quả của các cụm AI.

Để theo kịp những tiến bộ này, cơ sở hạ tầng hỗ trợ phải phát triển. Sự phát triển này đòi hỏi phải tích hợp mạng lưới siêu nhanh để thiết lập các hệ thống phụ trợ mạnh mẽ để đào tạo khối lượng công việc AI khổng lồ. Những tiến bộ như vậy đảm bảo rằng các mô hình AI quy mô lớn có thể được đào tạo hiệu quả, triển khai hiệu quả và tối ưu hóa hiệu suất, đồng thời tránh được những hạn chế tiềm ẩn.

Juniper và Broadcom đã hợp tác trong một nghiên cứu đánh giá chuẩn toàn diện, sử dụng Thư viện tập thể truyền thông ROCm (RCCL), để đánh giá mức độ hỗ trợ khối lượng công việc AI chuyên sâu của một ngăn xếp mạng hiện đại. Các thử nghiệm này được thực hiện trên cụm GPU AMD MI300x 32 nút được kết nối với Bộ chuyển mạch Juniper Networks® QFX5240 cung cấp kết nối 800 GbE mật độ cao và Thẻ giao diện mạng (NIC) P1400GD 400 GbE của Broadcom . Juniper Apstra ® đã đơn giản hóa việc triển khai thông qua Thiết kế được xác thực của Juniper (JVD) và bản thiết kế sẵn sàng cho AI, mang lại tốc độ, độ ổn định và hiệu suất được cải thiện. Kết quả nêu bật cách một cơ sở hạ tầng được tinh chỉnh có thể tăng tốc đáng kể các hoạt động RCCL và hiệu quả khối lượng công việc AI.

Nghiên cứu chuẩn mực: đưa hiệu suất vào thử nghiệm

Nghiên cứu đánh giá chuẩn được thiết kế để đánh giá hiệu suất của các hoạt động tập thể cần thiết cho việc đào tạo AI phân tán trên một cụm GPU quy mô lớn. Bằng cách tập trung vào hiệu suất và khả năng mở rộng, nghiên cứu nhằm đánh giá mức độ hiệu quả của cơ sở hạ tầng mạng hỗ trợ trao đổi dữ liệu thông lượng cao, độ trễ thấp giữa các GPU.

Sử dụng khuôn khổ RCCL, các thử nghiệm đã đo lường tác động của Juniper QFX5240 Switch, Broadcom's P1400GD NIC và AMD MI300x GPU trên nhiều mẫu giao tiếp khác nhau. Mục tiêu là xác định các điểm nghẽn hiệu suất chính, tối ưu hóa phân phối khối lượng công việc và đảm bảo rằng các mô hình AI có thể được đào tạo nhanh hơn và hiệu quả hơn trong môi trường nhiều nút.

Các khối xây dựng mạng lưới AI tốc độ cao

  • Juniper QFX5240: Bộ chuyển mạch Ethernet hiệu suất cao

 Juniper QFX5240 Switch cung cấp kết nối 800 GbE tiên tiến, đáp ứng nhu cầu của các cụm AI quy mô lớn. Các tính năng chuyên biệt của nó được thiết kế riêng cho khối lượng công việc AI và ML đảm bảo độ trễ thấp và thông lượng cao, nâng cao đáng kể hiệu quả đào tạo. Điều này bao gồm: 

  • Cổng mật độ cao: Tùy chọn 800 GbE và 400 GbE để triển khai AI/ML linh hoạt.
  • Khả năng chuyển mạch lớn: thông lượng đơn hướng 51,2 Tbps cho khả năng truyền thông đa nút liền mạch.
  • Độ trễ cực thấp được đo bằng nano giây để truyền dữ liệu nhanh chóng.
  • Hỗ trợ RoCEv2 cho giao tiếp hiệu quả dựa trên RDMA.
  • Quản lý tắc nghẽn nâng cao: DCQCN-PFC và ECN với chức năng tự động điều chỉnh để ngăn ngừa tình trạng tắc nghẽn mạng.
  • Cân bằng tải thích ứng: Cân bằng tải động (DLB), DLB chọn lọc và cân bằng lại đường dẫn phản ứng được sử dụng để tối ưu hóa lưu lượng truy cập.
  • Kích thước hash-bucket có thể cấu hình: Điều chỉnh theo các mẫu lưu lượng khác nhau.
  • Phòng chống bão: Chức năng giám sát PFC đảm bảo tính ổn định của mạng.
  • Cân bằng tải toàn cầu (GLB): Đảm bảo hiệu suất nhất quán trên các cụm lớn.
  • Broadcom BCM957608-P1400GD NIC: Bộ điều hợp NIC Ethernet PCIe Gen5 400Gbps

Bộ điều hợp Ethernet 400G của Broadcom, dựa trên bộ điều khiển Ethernet BCM57608, được tối ưu hóa để đáp ứng nhu cầu hiệu suất của các ứng dụng AI, giảm thiểu độ trễ và tối đa hóa thông lượng dữ liệu. Các tính năng bổ sung được hỗ trợ bởi NIC Broadcom BCM957608-P1400GD để đảm bảo hiệu suất tối ưu cho AI bao gồm:

  • RoCEv2: Cho phép truy cập bộ nhớ trực tiếp qua mạng để đạt hiệu suất tối đa
  • Thông báo tắc nghẽn lượng tử của Trung tâm dữ liệu (DCQCN p/d): Cơ chế kiểm soát tắc nghẽn đầu cuối cho RoCE cho phép NIC và bộ chuyển mạch chủ động phát hiện và phản hồi tình trạng tắc nghẽn mạng.
  • Kiểm soát luồng ưu tiên (PFC): Được RoCE sử dụng, rất cần thiết để thiết lập mạng không mất dữ liệu. Nó ngăn ngừa mất gói tin do tràn bộ đệm chuyển mạch bằng cách tạm dừng các lớp lưu lượng cụ thể trong quá trình tắc nghẽn thay vì dừng tất cả lưu lượng trên một liên kết.
  • Kiểm soát tốc độ chi tiết ở cấp độ cặp hàng đợi đảm bảo tác động cục bộ và tối thiểu của các sự kiện tắc nghẽn.

Ngoài ra, bộ điều hợp Ethernet AI của Broadcom là giải pháp NIC 400G có công suất thấp nhất hiện nay. Chúng giúp giảm nhu cầu điện năng tổng thể và cải thiện yêu cầu về nhiệt của mạng để cải thiện độ tin cậy và khả năng phục hồi của mạng.

  • AMD MI300x: Cung cấp năng lượng cho AI quy mô lớn

Bộ tăng tốc MI300 series của AMD được thiết kế để đáp ứng các yêu cầu khắt khe của khối lượng công việc AI quy mô lớn và điện toán hiệu suất cao (HPC). Cụm 32 nút được sử dụng trong các thử nghiệm của Juniper đã chứng minh khả năng xử lý đào tạo AI phân tán, chuyên sâu của MI300x trong khi vẫn duy trì hiệu quả đặc biệt.

Các mẫu giao tiếp được đánh giá

Để đánh giá hiệu quả của mạng trong việc hỗ trợ khối lượng công việc AI phân tán, Juniper đã sử dụng các thư viện giao tiếp RCCL, cung cấp giao tiếp GPU-to-GPU được tối ưu hóa. Đánh giá của Juniper tập trung vào bốn hoạt động tập thể thiết yếu, mỗi hoạt động mô phỏng các tình huống chính gặp phải trong quá trình đào tạo AI quy mô lớn:

  • Tất cả với tất cả: Mỗi GPU giao tiếp với mọi GPU khác, trao đổi dữ liệu đồng thời.
  • All-Reduce: Tổng hợp dữ liệu từ tất cả GPU và phân phối kết quả kết hợp để đào tạo đồng bộ.
  • All-Gather: Đảm bảo rằng mỗi GPU chia sẻ dữ liệu cục bộ của nó với tất cả các GPU khác.
  • Giảm-Phân tán: Kết hợp dữ liệu trên các GPU trước khi phân phối kết quả phân đoạn.

Để đánh giá hiệu quả của mạng trong việc hỗ trợ khối lượng công việc AI, Juniper đã sử dụng bộ kiểm tra chuẩn RCCL để chạy các hoạt động —all to all, all_reduce, all_gather và reduce_scatter—với kích thước tin nhắn từ 16MB đến 4BG. RoCEv2 được sử dụng làm lớp vận chuyển, đảm bảo giao tiếp hiệu quả dựa trên RDMA trong suốt quá trình đánh giá. Mục tiêu là sao chép các tình huống đào tạo AI trong thế giới thực đòi hỏi thông lượng cao và độ trễ thấp.

Kết quả hiệu suất: phân tích các số liệu

Hiệu suất toàn diện

Trong quá trình giao tiếp All-to-All, mỗi GPU trao đổi một thông điệp duy nhất với mọi GPU khác theo định dạng điểm-đến-điểm toàn lưới. Điều này tạo ra entropy và tắc nghẽn ở mức trung bình đến cao trong mạng. Kiểm soát tắc nghẽn tốt là yếu tố chính trong hiệu suất All-to-All.

Vì All-to-All gửi dữ liệu duy nhất từ ​​mỗi GPU, nên nó không tận dụng được lợi thế của đường ống được thực hiện trong thuật toán dựa trên vòng hoặc cây. Do đó, băng thông bus sẽ là hàm của băng thông trung bình giữa mỗi cặp GPU (giữa và trong nút). Khi quy mô tăng lên, băng thông này sẽ phản ánh băng thông của mạng mở rộng quy mô. Trong trường hợp này, băng thông mạng là ~50GB cho điểm-đến-điểm. Thực tế là băng thông mục tiêu bị vượt quá cho thấy hiệu quả tăng lên từ các tập thể. Những lợi ích đó là kết quả của các lần truyền cục bộ bên trong máy chủ và do đó không bị giới hạn bởi mạng mở rộng quy mô.

Như được hiển thị bên dưới (Hình 1), sự kết hợp giữa Juniper QFX5240 và NIC P1400GD của Broadcom có ​​thể đạt được băng thông mục tiêu, cho thấy mạng có hiệu suất cao và được tối ưu hóa.

Hình 1: Biểu đồ hiệu suất tổng thể

Hiệu suất All-Reduce, All-Gather và Reduce-Scatter

All-Reduce, All-Gather và Reduce-Scatter được triển khai bằng cách truyền tin nhắn giữa tất cả GPU thông qua các vòng hoặc cây. Điều này cho phép một tập thể được truyền tải nhiều sử dụng toàn bộ băng thông bus (~360 GB). Khối lượng công việc này tạo ra entropy thấp và yêu cầu độ trễ thấp qua mạng. Tính năng cân bằng tải thích ứng của Juniper QFX5240 rất tuyệt vời để duy trì độ trễ thấp.

Kết quả hiển thị trong các hình bên dưới chứng minh rõ ràng rằng Juniper QFX5240, kết hợp với NIC P1400GD của Broadcom, đạt được băng thông bus mục tiêu cho cả ba thiết bị tập hợp, cho thấy hiệu suất mạng được tối ưu hóa.

Lưu ý: Ở kích thước tin nhắn nhỏ hơn, tình trạng thiếu hiệu quả vốn có trong quá trình triển khai tập thể sẽ hạn chế hiệu suất có thể đạt được.

Hình 2: Biểu đồ hiệu suất All-Reduce

Hình 3: Biểu đồ hiệu suất All-Gather

Hình 4: Biểu đồ hiệu suất giảm phân tán

Những điểm chính

Các tính năng chuyển mạch và NIC sau đây đóng vai trò quan trọng trong việc đạt được hiệu suất được nêu chi tiết ở trên. Các tính năng này không chỉ quan trọng trong việc đảm bảo mạng có thể hỗ trợ nhu cầu hiệu suất của khối lượng công việc AI mà còn quan trọng là các thành phần phải hoạt động kết hợp với nhau để tối đa hóa lợi ích tiềm năng của từng tính năng. Những kết quả này chứng minh rằng mỗi tính năng và thành phần đều được tinh chỉnh tốt để tạo ra mạng được tối ưu hóa hiệu suất.

Tác động của tính năng Juniper QFX5240:

  • Thông lượng 800 GbE: Cho phép mở rộng đa nút hiệu quả và cải thiện hiệu quả mạng AI.
  • Cân bằng tải thích ứng: Tối ưu hóa phân bổ khối lượng công việc AI, ngăn ngừa tắc nghẽn và cải thiện quản lý lưu lượng GPU.
  • Điều chỉnh bộ đệm: Giảm thiểu tình trạng mất gói tin trong quá trình đào tạo mô hình AI hàng loạt, đảm bảo hoạt động đào tạo AI không bị gián đoạn.

Tác động của tính năng Broadcom P1400GD:

  • Thông lượng 400 GbE: Thông lượng 400 GbE đầy đủ cho phép bão hòa các liên kết GPU và rất cần thiết để đảm bảo mạng không bị tắc nghẽn.
  • Độ trễ thấp: Kiến trúc NIC được tối ưu hóa để giảm thiểu tác động của độ trễ thông qua NIC.
  • RoCEv2: Giải pháp RoCE được tăng cường với cơ chế kiểm soát tắc nghẽn nâng cao giúp cải thiện hiệu suất RCCL bằng cách cải thiện khả năng phản hồi, băng thông và độ trễ tổng thể của mạng.

Hiệu suất của AMD MI300x:

  • Đã chứng minh được hiệu quả cao đối với khối lượng công việc AI và HPC phân tán quy mô lớn, đòi hỏi khắt khe.
  • Cải thiện khả năng đồng bộ hóa trong quá trình đào tạo mô hình quy mô lớn.

Kết luận: mở rộng quy mô AI một cách tự tin

Nghiên cứu đánh giá chuẩn này minh họa rằng một ngăn xếp mạng AI được tối ưu hóa, bao gồm Juniper QFX5240 Switch, Broadcom P1400GD NIC và AMD MI300x GPU, mang lại hiệu suất RCCL vượt trội. Ngăn xếp này đóng vai trò quan trọng trong việc đảm bảo các mô hình AI quy mô lớn được đào tạo hiệu quả, triển khai liền mạch và được tối ưu hóa để có hiệu suất tối đa mà không bị rơi vào tình trạng tắc nghẽn tiềm ẩn.

Khi khối lượng công việc AI ngày càng phức tạp, các tổ chức phải dựa vào các giải pháp Ethernet tốc độ cao để đáp ứng nhu cầu của các trung tâm dữ liệu hiện đại. Sự kết hợp giữa thông lượng cao, độ trễ thấp và quản lý tắc nghẽn tiên tiến đảm bảo rằng các tổ chức có thể đào tạo các mô hình AI quy mô lớn hiệu quả hơn và tiết kiệm chi phí hơn.

Để cập nhật thêm nhiều thông tin hữu ích và các sản phẩm thiết bị mạng và các sản phẩm công nghệ mạng vui lòng liên hệ với chúng tôi qua thông tin dưới đây:

CÔNG TY CỔ PHẦN DỊCH VỤ CÔNG NGHỆ DATECH

  • Địa chỉ: Số 23E4 KĐT Cầu Diễn, Tổ 7, Phú Diễn, Bắc Từ Liêm, Hà Nội
  • Điện thoại: 02432012368
  • Hotline: 098 115 6699
  • Email: info@datech.vn
  • Website:https://datech.vn