Thông báo tắc nghẽn dạng Drop: một cách thông minh, nhanh chóng và đồng bộ để tăng tốc thời gian hoàn thành tác vụ AI

07/08/2025
Bookmark Tin tức

Trí tuệ nhân tạo (AI) và Điện toán hiệu năng cao (HPC) đang chứng kiến sự phát triển mạnh mẽ nhờ vào những tiến bộ trong học máy, xử lý ngôn ngữ tự nhiên, AI sinh, robot và các hệ thống tự hành.

Nền tảng của những đổi mới này là các mô hình huấn luyện phân tán quy mô lớn, thường bao gồm hàng tỷ – thậm chí hàng nghìn tỷ – tham số được phân bổ trên nhiều GPU. Trong quá trình huấn luyện, các node này cần trao đổi một lượng lớn dữ liệu và gradients để đồng bộ thông qua hệ thống mạng Ethernet nền tảng AI. Tuy nhiên, mất gói tin (packet loss) có thể gây ảnh hưởng nghiêm trọng đến quá trình đồng bộ, dẫn đến việc truyền lại dữ liệu hoặc ngưng trệ giao tiếp. Điều này cuối cùng khiến độ trễ tăng lên, thời gian hoàn thành tác vụ (JCT) kéo dài hơn và tài nguyên GPU đắt tiền bị sử dụng kém hiệu quả.

Thách thức: Mất gói tin âm thầm trong hạ tầng mạng trung tâm dữ liệu AI

Thời gian hoàn thành tác vụ (JCT) là một chỉ số cực kỳ quan trọng. Các khối lượng công việc AI hiện đại – đặc biệt là các tác vụ huấn luyện và suy luận quy mô lớn – phụ thuộc vào sự đồng bộ chặt chẽ giữa các cụm máy chủ. Ngay cả một gói tin bị mất cũng có thể ảnh hưởng nghiêm trọng đến hiệu suất và làm tăng chi phí vận hành.

Ví dụ, các gói tin RoCE v2 có thể bị rớt trong hạ tầng Ethernet/IP của AI khi bộ đệm của switch bị tràn do tắc nghẽn lưu lượng. Những gói tin bị mất này cần được truyền lại, gây ra độ trễ và làm gián đoạn quá trình huấn luyện hoặc suy luận.

Mặc dù Explicit Congestion Notification (ECN) có thể báo hiệu tình trạng tắc nghẽn bằng cách đánh dấu các bit trong header IP, nhưng nó không thể xác định rõ gói tin nào đã bị mất do tắc nghẽn và cần được truyền lại.

Giải pháp: Drop Congestion Notification (DCN)

Để giải quyết vấn đề này, Juniper đã giới thiệu Drop Congestion Notification (DCN) – một cơ chế quản lý tắc nghẽn hoàn toàn mới, được tích hợp trong bản phát hành phần mềm Junos OS™ Evolved 23.4x100d40, dành cho các thiết bị QFX5240-OD và QFX5240-QD sử dụng chip Tomahawk 5 – nền tảng mạng Ethernet/IP với 64 cổng 800GbE.

Khi xảy ra tắc nghẽn, switch sẽ gửi thông báo về các gói tin bị rớt bằng cách cắt giảm payload của gói tin và chuyển thông tin này đến máy chủ đích thông qua hàng đợi ưu tiên cao (high-priority queue). Các switch trung gian trong hạ tầng mạng cũng nhận diện được các gói tin bị cắt giảm có đánh dấu DCN và sẽ đẩy chúng vào hàng đợi ưu tiên cao trên giao diện đầu ra.

Kết quả là, máy chủ đích sẽ xử lý các gói tin DCN đã bị cắt giảm, xác định chính xác gói nào đã bị rớt do tắc nghẽn, và gửi yêu cầu truyền lại ngay lập tức đối với những gói tin đó về phía máy chủ nguồn.

Tuy nhiên, các gói tin bị cắt giảm này không được ghi vào bộ nhớ của máy chủ đích, mà chỉ được sử dụng để xác định chính xác các gói tin cần được truyền lại chọn lọc – từ đó giúp tránh quy trình truyền lại mặc định lâu hơn, và do đó đạt được độ trễ đầu-cuối (end-to-end latency) tốt hơn cho việc hoàn thành tác vụ.

Hình minh họa sau đây mô tả một topo đơn giản hóa, trong đó các gói tin đi vào switch đầu tiên, khi gặp tình trạng tắc nghẽn nghiêm trọng (vượt ngưỡng ECN), sẽ không bị drop hoàn toàn mà được cắt giảm và gửi đến card NIC của máy chủ GPU đích. Trong khi switch đầu tiên thực hiện hành động cắt giảm, các switch trung gian cũng có thể nhận diện frame đã được cắt giảm và chuyển tiếp ngay lập tức qua giao diện ra bằng hàng đợi ưu tiên cao. Khi gói tin đã bị cắt giảm đến được card NIC đích, một yêu cầu truyền lại gói tin sẽ được gửi về máy chủ nguồn.

Hình 1: Drop Congestion Notification (DCN)

Trên các switch QFX5240-OD và QFX5240-QD, các gói tin liên quan đến DCN được xử lý thông qua một hàng đợi chuyên biệt, tách biệt hoàn toàn với các gói dữ liệu thông thường. Sự phân tách này cho phép người dùng quản lý độ trễ và băng thông dành riêng cho các gói tin DCN một cách hiệu quả hơn.

Ví dụ cấu hình:

  • Cấu hình để thiết lập số hiệu cổng UDP lớp 4 (L4) tùy chỉnh làm số hiệu giao thức DCN, giúp switch nhận diện các gói tin DCN. Đây là cấu hình bắt buộc để kích hoạt tính năng DCN.

set class-of-service drop-congestion-notification udp-port <0.65535>

  • Cấu hình để thiết lập hàng đợi egress cho tất cả các gói tin DCN bị drop
    Đây sẽ là cấu hình toàn cục (global config). Hàng đợi được chọn phải là một trong các hàng đợi unicast, và người dùng được yêu cầu thiết lập hàng đợi này với mức ưu tiên "strict-high". Ngoài ra, khuyến nghị nên dành riêng hàng đợi này chỉ để xử lý các gói tin DCN. Tương tự như các tính năng Class of Service (CoS) khác, hàng đợi được xác định thông qua “forwarding-class”. Đây cũng là một cấu hình bắt buộc để kích hoạt DCN.

set class-of-service drop-congestion-notification forwarding-class  

  • Đối với QFX5240 khi chỉ đóng vai trò là thiết bị trung chuyển DCN (DCN transit), hai cấu hình trên (giao thức DCN và forwarding-class) là đủ. Trong ngữ cảnh này, “transit” chỉ đề cập đến việc nhận diện các gói tin DCN và truyền chúng qua hàng đợi ưu tiên cao. Tuy nhiên, để QFX5240 có thể tạo ra các gói tin DCN drop khi xảy ra tắc nghẽn, cần phải có cấu hình DCN ở cấp độ cổng (port) bên cạnh hai cấu hình đã đề cập ở trên.
  • Cấu hình để kích hoạt DCN trên từng cổng riêng lẻ, khi DCN được kích hoạt trên một cổng, nếu có lưu lượng DCN đi vào (ingress) tại cổng đó bị drop tại bộ quản lý bộ nhớ (MMU) do tắc nghẽn, thiết bị sẽ tạo ra gói tin DCN drop để thông báo.

set class-of-service interface drop-congestion-notification  

  • Nếu người dùng muốn kích hoạt DCN trên tất cả các cổng, thì bắt buộc phải sử dụng ký tự đại diện (wildcard) để áp dụng cấu hình trên.

set class-of-service interface et-* drop-congestion-notification 

  • Cấu hình DCN chỉ được hỗ trợ trên giao diện vật lý và trên giao diện cha của AE (Aggregate Ethernet).

set class-of-service drop-congestion-notification forwarding-class dcn 

 

set class-of-service drop-congestion-notification udp-port 13742 

 

set class-of-service interface et-0/0/0 drop-congestion-notification

Lệnh hiển thị thống kê gói tin DCN bị drop.

root@QFX5240# run show interfaces queue et-0/0/0 forwarding-class dcn              

Physical interface: et-0/0/0, up, Physical link is Down 

  Interface index: 1205, SNMP ifIndex: 503 

Forwarding classes: 12 supported, 9 in use 

Egress queues: 10 supported, 9 in use 

Queue: 7, Forwarding classes: dcn 

  Queued: 

    Packets              :                     0                     0 pps 

    Bytes                :                     0                     0 bps 

  Transmitted: 

    Packets              :                     0                     0 pps 

    Bytes                :                     0                     0 bps 

    Tail-dropped packets :                     0                     0 pps 

    Tail-dropped bytes   :                     0                     0 bps 

    RED-dropped packets  :                     0                     0 pps 

    RED-dropped bytes    :                     0                     0 bps 

    ECN-CE packets       :                     0                     0 pps 

    ECN-CE bytes         :                     0                     0 bps 

Kết luận:

Việc duy trì hiệu năng ổn định và hoạt động đồng bộ là yếu tố then chốt trong hạ tầng mạng Ethernet phục vụ AI, đặc biệt khi khối lượng công việc ngày càng mở rộng trên các cụm GPU phân tán. DCN đã giải quyết một lỗ hổng quan trọng bằng cách cung cấp khả năng quan sát theo thời gian thực đối với tình trạng mất gói tin trong điều kiện tắc nghẽn nghiêm trọng. Thông qua việc thông báo kịp thời đến các điểm cuối về các gói tin bị mất, DCN giúp phục hồi nhanh hơn, giảm thiểu độ trễ ẩn, và duy trì thời gian hoàn thành tác vụ (JCT) cho AI một cách hiệu quả.

Sau cùng, DCN đóng vai trò như một cầu nối giúp lấp đầy khoảng trống về khả năng quan sát giữa hạ tầng mạng và khối lượng công việc AI, từ đó trở thành một tính năng thiết yếu để xây dựng hệ thống hạ tầng AI hiệu năng cao và có khả năng mở rộng.

Vui lòng tham khảo hướng dẫn sử dụng (user guide) để biết thêm thông tin chi tiết về các tính năng của trung tâm dữ liệu AI/ML.

 

Để cập nhật thêm nhiều thông tin hữu ích và các sản phẩm thiết bị mạng và các sản phẩm công nghệ mạng vui lòng liên hệ với chúng tôi qua thông tin dưới đây:

CÔNG TY CỔ PHẦN DỊCH VỤ CÔNG NGHỆ DATECH

  • Địa chỉ: Số 23E4 KĐT Cầu Diễn, Tổ 7, Phú Diễn, Bắc Từ Liêm, Hà Nội
  • Điện thoại: 02432012368
  • Hotline: 098 115 6699
  • Email: info@datech.vn
  • Website:https://datech.vn