Tin tức CÔNG TY CỔ PHẦN DỊCH VỤ CÔNG NGHỆ DATECH
Trí tuệ nhân tạo (AI) và Điện toán hiệu năng cao (HPC) đang chứng kiến sự phát triển mạnh mẽ nhờ vào những tiến bộ trong học máy, xử lý ngôn ngữ tự nhiên, AI sinh, robot và các hệ thống tự hành.
Nền tảng của những đổi mới này là các mô hình huấn luyện phân tán quy mô lớn, thường bao gồm hàng tỷ – thậm chí hàng nghìn tỷ – tham số được phân bổ trên nhiều GPU. Trong quá trình huấn luyện, các node này cần trao đổi một lượng lớn dữ liệu và gradients để đồng bộ thông qua hệ thống mạng Ethernet nền tảng AI. Tuy nhiên, mất gói tin (packet loss) có thể gây ảnh hưởng nghiêm trọng đến quá trình đồng bộ, dẫn đến việc truyền lại dữ liệu hoặc ngưng trệ giao tiếp. Điều này cuối cùng khiến độ trễ tăng lên, thời gian hoàn thành tác vụ (JCT) kéo dài hơn và tài nguyên GPU đắt tiền bị sử dụng kém hiệu quả.
Thách thức: Mất gói tin âm thầm trong hạ tầng mạng trung tâm dữ liệu AI
Thời gian hoàn thành tác vụ (JCT) là một chỉ số cực kỳ quan trọng. Các khối lượng công việc AI hiện đại – đặc biệt là các tác vụ huấn luyện và suy luận quy mô lớn – phụ thuộc vào sự đồng bộ chặt chẽ giữa các cụm máy chủ. Ngay cả một gói tin bị mất cũng có thể ảnh hưởng nghiêm trọng đến hiệu suất và làm tăng chi phí vận hành.
Ví dụ, các gói tin RoCE v2 có thể bị rớt trong hạ tầng Ethernet/IP của AI khi bộ đệm của switch bị tràn do tắc nghẽn lưu lượng. Những gói tin bị mất này cần được truyền lại, gây ra độ trễ và làm gián đoạn quá trình huấn luyện hoặc suy luận.
Mặc dù Explicit Congestion Notification (ECN) có thể báo hiệu tình trạng tắc nghẽn bằng cách đánh dấu các bit trong header IP, nhưng nó không thể xác định rõ gói tin nào đã bị mất do tắc nghẽn và cần được truyền lại.
Giải pháp: Drop Congestion Notification (DCN)
Để giải quyết vấn đề này, Juniper đã giới thiệu Drop Congestion Notification (DCN) – một cơ chế quản lý tắc nghẽn hoàn toàn mới, được tích hợp trong bản phát hành phần mềm Junos OS™ Evolved 23.4x100d40, dành cho các thiết bị QFX5240-OD và QFX5240-QD sử dụng chip Tomahawk 5 – nền tảng mạng Ethernet/IP với 64 cổng 800GbE.
Khi xảy ra tắc nghẽn, switch sẽ gửi thông báo về các gói tin bị rớt bằng cách cắt giảm payload của gói tin và chuyển thông tin này đến máy chủ đích thông qua hàng đợi ưu tiên cao (high-priority queue). Các switch trung gian trong hạ tầng mạng cũng nhận diện được các gói tin bị cắt giảm có đánh dấu DCN và sẽ đẩy chúng vào hàng đợi ưu tiên cao trên giao diện đầu ra.
Kết quả là, máy chủ đích sẽ xử lý các gói tin DCN đã bị cắt giảm, xác định chính xác gói nào đã bị rớt do tắc nghẽn, và gửi yêu cầu truyền lại ngay lập tức đối với những gói tin đó về phía máy chủ nguồn.
Tuy nhiên, các gói tin bị cắt giảm này không được ghi vào bộ nhớ của máy chủ đích, mà chỉ được sử dụng để xác định chính xác các gói tin cần được truyền lại chọn lọc – từ đó giúp tránh quy trình truyền lại mặc định lâu hơn, và do đó đạt được độ trễ đầu-cuối (end-to-end latency) tốt hơn cho việc hoàn thành tác vụ.
Hình minh họa sau đây mô tả một topo đơn giản hóa, trong đó các gói tin đi vào switch đầu tiên, khi gặp tình trạng tắc nghẽn nghiêm trọng (vượt ngưỡng ECN), sẽ không bị drop hoàn toàn mà được cắt giảm và gửi đến card NIC của máy chủ GPU đích. Trong khi switch đầu tiên thực hiện hành động cắt giảm, các switch trung gian cũng có thể nhận diện frame đã được cắt giảm và chuyển tiếp ngay lập tức qua giao diện ra bằng hàng đợi ưu tiên cao. Khi gói tin đã bị cắt giảm đến được card NIC đích, một yêu cầu truyền lại gói tin sẽ được gửi về máy chủ nguồn.

Hình 1: Drop Congestion Notification (DCN)
Trên các switch QFX5240-OD và QFX5240-QD, các gói tin liên quan đến DCN được xử lý thông qua một hàng đợi chuyên biệt, tách biệt hoàn toàn với các gói dữ liệu thông thường. Sự phân tách này cho phép người dùng quản lý độ trễ và băng thông dành riêng cho các gói tin DCN một cách hiệu quả hơn.
Ví dụ cấu hình:
set class-of-service drop-congestion-notification udp-port <0.65535> |
set class-of-service drop-congestion-notification forwarding-class |
set class-of-service interface drop-congestion-notification |
set class-of-service interface et-* drop-congestion-notification |
set class-of-service drop-congestion-notification forwarding-class dcn
set class-of-service drop-congestion-notification udp-port 13742
set class-of-service interface et-0/0/0 drop-congestion-notification |
Lệnh hiển thị thống kê gói tin DCN bị drop.
root@QFX5240# run show interfaces queue et-0/0/0 forwarding-class dcn Physical interface: et-0/0/0, up, Physical link is Down Interface index: 1205, SNMP ifIndex: 503 Forwarding classes: 12 supported, 9 in use Egress queues: 10 supported, 9 in use Queue: 7, Forwarding classes: dcn Queued: Packets : 0 0 pps Bytes : 0 0 bps Transmitted: Packets : 0 0 pps Bytes : 0 0 bps Tail-dropped packets : 0 0 pps Tail-dropped bytes : 0 0 bps RED-dropped packets : 0 0 pps RED-dropped bytes : 0 0 bps ECN-CE packets : 0 0 pps ECN-CE bytes : 0 0 bps |
Kết luận:
Việc duy trì hiệu năng ổn định và hoạt động đồng bộ là yếu tố then chốt trong hạ tầng mạng Ethernet phục vụ AI, đặc biệt khi khối lượng công việc ngày càng mở rộng trên các cụm GPU phân tán. DCN đã giải quyết một lỗ hổng quan trọng bằng cách cung cấp khả năng quan sát theo thời gian thực đối với tình trạng mất gói tin trong điều kiện tắc nghẽn nghiêm trọng. Thông qua việc thông báo kịp thời đến các điểm cuối về các gói tin bị mất, DCN giúp phục hồi nhanh hơn, giảm thiểu độ trễ ẩn, và duy trì thời gian hoàn thành tác vụ (JCT) cho AI một cách hiệu quả.
Sau cùng, DCN đóng vai trò như một cầu nối giúp lấp đầy khoảng trống về khả năng quan sát giữa hạ tầng mạng và khối lượng công việc AI, từ đó trở thành một tính năng thiết yếu để xây dựng hệ thống hạ tầng AI hiệu năng cao và có khả năng mở rộng.
Vui lòng tham khảo hướng dẫn sử dụng (user guide) để biết thêm thông tin chi tiết về các tính năng của trung tâm dữ liệu AI/ML.
Để cập nhật thêm nhiều thông tin hữu ích và các sản phẩm thiết bị mạng và các sản phẩm công nghệ mạng vui lòng liên hệ với chúng tôi qua thông tin dưới đây:
CÔNG TY CỔ PHẦN DỊCH VỤ CÔNG NGHỆ DATECH