Mạng trung tâm dữ liệu cần AI

25/08/2025
Bookmark Dịch vụ Tin tức

Mạng trung tâm dữ liệu cần AI

Phần 1

Giám đốc AI của HPE Networking, ông Bob Friday, và tôi gần đây đã tham gia một podcast với Tech Field Day. Xuất phát điểm của buổi trò chuyện là: “Mạng trung tâm dữ liệu cần AI” — và chúng tôi hoàn toàn đồng ý với nhận định này. Trong 10 năm qua, Bob đã tiên phong đưa AIOps vào lĩnh vực mạng. Ông bắt đầu cuộc thảo luận bằng cách trình bày hành trình của HPE Networking hướng tới Self-Driving Network™ (Mạng tự vận hành), một tầm nhìn mà ông đã giải thích trong loạt blog 6 phần gần đây. Sau đó, chúng tôi đi sâu hơn vào việc AI có ý nghĩa gì đối với mạng trung tâm dữ liệu, đồng thời phác thảo một số công việc mà chúng tôi đã thực hiện trong lĩnh vực này. Đây là nội dung mà chúng tôi sẽ trình bày trong loạt blog ngắn gồm hai phần này.

Có vấn đề nào cần giải quyết không?

Mọi người thường ngại động vào mạng của mình. Nghe có vẻ phi lý, nhưng hầu hết các kỹ sư mạng đều căng thẳng trước, trong và sau mỗi lần thay đổi — cho dù đó là triển khai một dịch vụ mới, nâng cấp firmware, hay bất kỳ chỉnh sửa nào khác. Quá trình này gây áp lực lớn và nhiều người lo sợ rằng nếu đụng vào mạng, họ sẽ vô tình làm hỏng nó.

Vấn đề cốt lõi đằng sau thực trạng này trong mạng trung tâm dữ liệu chính là độ phức tạp: bảng chữ cái của hàng chục giao thức cần hiểu, hàng nghìn cấu hình thiết bị vật lý và logic, cùng vô số nhà cung cấp hạ tầng phải quản lý. Danh sách này cứ kéo dài mãi. Kết hợp độ phức tạp này với lượng dữ liệu khổng lồ mà đội vận hành phải xử lý, cộng thêm những công cụ khắc phục sự cố còn quá thiếu sót trên thị trường hiện nay, các nhóm vận hành mạng trung tâm dữ liệu thường bị quá tải. Họ dễ bị “chìm ngập” trong dữ liệu nhưng lại thiếu hụt nghiêm trọng những thông tin phân tích hữu ích.

Đây chính xác là kiểu tình huống mà AI thông minh và các thuật toán học máy có thể phát huy tác dụng: khối lượng dữ liệu khổng lồ mà con người rất khó để sàng lọc, nhưng phần lớn dữ liệu này thực ra lại được cấu trúc khá tốt.

Không phải nói về công nghệ, mà là về nhu cầu của bạn

Quá thường xuyên, các cuộc thảo luận về công nghệ bắt đầu sai hướng: tập trung vào chính công nghệ. Nhiều người trong chúng ta từng nghe những chỉ thị từ cấp trên trong tổ chức: “Công ty chúng ta phải dùng AI, nếu không sẽ bị bỏ lại phía sau.” Hoặc có thể bạn nghe điều này từ nhà cung cấp: “Bạn cần áp dụng AI vào mạng trung tâm dữ liệu của mình.” Nhưng đây là những điểm khởi đầu thiếu định hướng. Bất kỳ cuộc thảo luận nào về công nghệ cũng nên bắt đầu bằng câu hỏi: Mục tiêu của bạn là gì? Vấn đề nào bạn đang gặp phải và cần được giải quyết?

Mục tiêu của chúng tôi luôn rất rõ ràng — mang đến trải nghiệm người dùng tốt nhất có thể, dù “người dùng” đó là kỹ sư vận hành mạng trung tâm dữ liệu hay người dùng cuối đang phụ thuộc (dù có thể họ không nhận ra) vào trung tâm dữ liệu để sử dụng các ứng dụng. Trong 10 năm qua, Juniper đã phát triển và áp dụng AI rất thành công — đầu tiên cho Wi-Fi, sau đó mở rộng ra toàn bộ hệ thống mạng campus và chi nhánh. Đối với trung tâm dữ liệu, chúng tôi có lợi thế người đi sau, tận dụng toàn bộ bài học và thông tin chi tiết thu được từ hệ thống mạng campus.

Thách thức trong vận hành mạng trung tâm dữ liệu

Nếu mục tiêu là tối ưu hóa trải nghiệm người dùng, thì các thách thức mà các chuyên gia trung tâm dữ liệu phải giải quyết đòi hỏi sự hợp tác chặt chẽ với khách hàng. Chúng tôi chia những thách thức này thành ba nhóm: thiếu khả năng phân tích chuyên sâu, tốc độ xử lý chưa đủ nhanh, và độ tin cậy kém.

  • Khả năng phân tích (Insights). Trong một tình huống điển hình, trưởng nhóm mạng của một doanh nghiệp nhận được cuộc gọi từ một lãnh đạo rất tức giận, phàn nàn rằng ứng dụng CRM, hệ thống ERP hoặc một ứng dụng quan trọng nào đó bị ngừng hoạt động. Lỗi chắc chắn là ở mạng, đúng không? Thực ra, không hẳn. Nhóm mạng thường không có đủ khả năng quan sát chi tiết về các ứng dụng đang chạy trên hạ tầng mạng của họ. Nhưng cần phải làm rõ: trung tâm dữ liệu tồn tại để lưu trữ và cung cấp các ứng dụng mà người dùng cần, dù đó chỉ là một ứng dụng giải trí cho người tiêu dùng hay một ứng dụng tối quan trọng với doanh nghiệp.
  • Tốc độ (Speed). Một vấn đề khác là tốc độ hoặc tính linh hoạt chưa đủ trong việc quản lý hạ tầng CNTT. Khi xuất hiện nhu cầu kinh doanh khẩn cấp, chẳng hạn cần nhanh chóng tăng dung lượng để đáp ứng một đợt tăng đột biến ngoài dự kiến, thì các quy trình quản lý thay đổi tiêu chuẩn hoặc khung thời gian bảo trì vốn có của doanh nghiệp không thể đáp ứng được — quy trình quá chậm hoặc quá cứng nhắc.
  • Độ tin cậy (Reliability). Cuối cùng, độ tin cậy thấp và thời gian ngừng hoạt động luôn là mối lo ngại thường trực. Gần như mọi doanh nghiệp đều chỉ cách một sai sót nhỏ trong thay đổi cấu hình thủ công là đủ để làm sập toàn bộ mạng, gây ra tổn thất uy tín và tài chính nghiêm trọng cho công ty — chưa kể ảnh hưởng tiêu cực đến sự nghiệp cá nhân. Nếu không có khả năng tự động khôi phục và rollback nhanh, đáng tin cậy, có thể mất hàng giờ, thậm chí hàng ngày để khôi phục dịch vụ. Các kỹ sư vận hành mạng trung tâm dữ liệu thường xuyên phải chạy theo sự cố, loay hoay dập tắt “cháy”, thay vì tập trung vào các sáng kiến CNTT mang tính chiến lược, chủ động giúp doanh nghiệp phát triển.

Trước khi vội vàng xem AI là “thuốc chữa bách bệnh”, chúng ta phải hiểu rõ những vấn đề này và tự hỏi: AI có thể giúp giải quyết chúng không? Câu trả lời là: Chắc chắn có.

AI là cần thiết, nhưng chưa đủ

Tuy nhiên, AI không thể giải quyết mọi vấn đề NetOps mà bạn gặp phải. AI là cần thiết, nhưng chưa đủ. Chúng ta cần những hệ thống kết hợp cả AI — vốn có bản chất xác suất — và các phương pháp tất định khác như mạng định hướng mục tiêu (intent-based networking).

Liệu cấu hình mạng đúng 99% có ổn không? Hoàn toàn không — bạn cần đúng 100%, và điều đó đòi hỏi phần mềm dựa trên quy tắc, có tính tất định. Nhưng sang Ngày thứ hai — khi trung tâm dữ liệu vận hành thực tế trong môi trường đầy biến động và khó dự đoán — phép tính sẽ khác đi. Nếu bạn có một hệ thống có thể chẩn đoán nguyên nhân gốc rễ của sự cố với độ chính xác 99%, dựa trên vô số dấu hiệu, thì đó vẫn là giải pháp tốt hơn rất nhiều so với những gì bạn đang có hiện nay. Và đây chính là sức mạnh của AI — sàng lọc khối lượng dữ liệu khổng lồ và tìm ra những mối tương quan mà con người khó có thể phát hiện.

Hãy kết hợp hai công nghệ — AI và mạng định hướng mục tiêu — bạn sẽ mang đến trải nghiệm vận hành mạng vượt trội cho kỹ sư, đồng thời đảm bảo trải nghiệm ứng dụng tối ưu cho người dùng cuối.

Chúng tôi sẽ tiếp tục phân tích cách Juniper sử dụng AIOps để giải quyết những thách thức khó nhằn của mạng trung tâm dữ liệu trong phần hai, cũng là phần cuối của loạt blog này.

Phần 2

Giám đốc AI của HPE Networking, ông Bob Friday, và tôi gần đây đã tham gia một podcast với Tech Field Day. Chủ đề mở đầu của chương trình là: “Mạng trung tâm dữ liệu cần AI” — điều mà chúng tôi hoàn toàn đồng ý. Trong phần đầu của loạt blog hai phần này, chúng tôi nhấn mạnh rằng mọi cuộc thảo luận về việc có nên dùng AI và dùng như thế nào đều phải bắt nguồn từ mục tiêu cụ thể của bạn và những vấn đề bạn cần giải quyết.

Sau khi phân tích những thách thức mà các kỹ sư vận hành mạng trung tâm dữ liệu đang gặp phải, rõ ràng AI thực sự có thể giúp ích, và đây là cách…

Đổi mới AI bản địa mở rộng vị thế dẫn đầu của chúng tôi trong trung tâm dữ liệu

Những tiến bộ trong lĩnh vực AI đang diễn ra với tốc độ rất nhanh, chắc chắn sẽ trở thành một phần ngày càng lớn trong toàn bộ vòng đời trung tâm dữ liệu, từ Thiết kế (Day 0), Triển khai (Day 1) đến Vận hành liên tục (Day 2). Chúng tôi gần đây đã công bố nhiều tính năng AIOps mới dành cho mạng trung tâm dữ liệu.

  • Bảo trì dự đoán (Predictive maintenance) giúp các kỹ sư mạng xác định trước các sự cố trong tương lai và khắc phục chúng trước khi xảy ra.
    • Tình trạng hệ thống (System Health): Dự đoán thời điểm một switch sẽ gặp sự cố bằng cách phân tích dữ liệu về mức sử dụng CPU, bộ nhớ, nhiệt độ, v.v.
    • Dung lượng (Capacity): Dự đoán thời điểm cần mở rộng hạ tầng mạng dựa trên dữ liệu về mức sử dụng đường truyền, tăng trưởng lưu lượng, v.v.
    • Quang học (Optics): Dự đoán khi nào một module quang (optical transceiver) sẽ hỏng dựa trên thông số về thông lượng Tx/Rx, công suất, điện áp, v.v. Các lỗi ngầm (gray failure) trong module quang luôn là vấn đề — và chúng thậm chí còn khó phát hiện hơn so với lỗi hỏng hoàn toàn.

Với nhiều ví dụ trên, khi tính năng vừa ra mắt, nó chưa dùng AI theo cách năng động và thích ứng ngay lập tức. Ban đầu, hệ thống thường đặt một ngưỡng tĩnh để kích hoạt cảnh báo. Nhưng cũng như nho ngon làm nên rượu vang ngon, dữ liệu tốt tạo nên AI tốt. Cần có thời gian để tích lũy dữ liệu — và đây chính là lý do Juniper có lợi thế vượt trội so với đối thủ: chúng tôi đã làm AIOps suốt 10 năm qua với nền tảng Mist®. AI tốt cần thời gian để tích lũy dữ liệu, học hỏi – huấn luyện – học hỏi – huấn luyện và thích ứng, tất cả nhằm mục tiêu tối ưu hóa trải nghiệm người dùng. Trong trung tâm dữ liệu, AIOps vẫn còn ở giai đoạn sơ khai, nhưng nó đang tiến bộ rất nhanh.

  • Kỳ vọng mức dịch vụ (Service Level Expectations) bao gồm việc tổng hợp nhiều thông số mạng khác nhau, tính toán các chỉ số sức khỏe tổng hợp và phân tích các vấn đề ảnh hưởng đến những chỉ số đó trong một khoảng thời gian nhất định. Điều này giúp khách hàng có cái nhìn rõ ràng về việc mạng của họ có đáp ứng nhu cầu của chủ sở hữu ứng dụng và người dùng cuối hay không.
  • Truy vấn tài liệu (Documentation querying) là trường hợp cơ bản điển hình cho các trợ lý mạng ảo mà hầu hết các nhà cung cấp hạ tầng đã bắt đầu triển khai: kết nối một mô hình ngôn ngữ lớn (LLM) với tài liệu sản phẩm để cải thiện khả năng tìm kiếm. Tuy nhiên, những ứng dụng nâng cao hơn xuất hiện khi kết nối LLM trực tiếp với phần mềm doanh nghiệp — hoặc trong trường hợp của chúng tôi, các công cụ quản lý và tự động hóa mạng, cùng khối lượng dữ liệu khổng lồ mà chúng truy cập được. Các kỹ sư mạng có thể tương tác với công cụ theo những cách mới, khác biệt và hiệu quả hơn so với hiện tại — tất cả thông qua ngôn ngữ tự nhiên. Với Marvis™ AI Assistant, chúng tôi sở hữu trợ lý thông minh nhất trong ngành.
  • Đảm bảo hiệu năng ứng dụng (Application Assurance) là yếu tố cốt lõi, vì mục tiêu của trung tâm dữ liệu là lưu trữ và phân phối ứng dụng đến người dùng cuối. Giải pháp của chúng tôi kết hợp AIOps và mạng định hướng mục tiêu (intent-based networking). Thuật toán phát hiện bất thường xác định khi luồng lưu lượng có dấu hiệu bất thường. Thông minh này được kết hợp với sự hiểu biết tất định về ứng dụng nào đang đi qua cổng nào vào một thời điểm cụ thể — hiệu năng mạng và ứng dụng được gắn kết chặt chẽ.
  • Danh mục cuối cùng của AIOps trong trung tâm dữ liệu và có lẽ cũng quan trọng nhất, chính là thử nghiệm. Các mô hình ngôn ngữ lớn (LLM) là những cỗ máy tuyệt vời, gần như “kỳ diệu”. Ngay cả những người xây dựng chúng cũng thừa nhận rằng họ không phải lúc nào cũng hiểu rõ trực giác đằng sau cách mà chúng hoạt động.

Mọi doanh nghiệp, xét theo nghĩa rộng nhất về chuyển đổi số, nên tận dụng các mô hình ngôn ngữ lớn (LLM) nền tảng và tinh chỉnh chúng. Các doanh nghiệp nên vector hóa kho dữ liệu quý giá mà họ đang sở hữu để đưa vào mô hình AI thông qua phương pháp truy xuất tăng cường sinh (RAG – Retrieval Augmented Generation). Bất kỳ công ty nào bán phần mềm cũng nên thử nghiệm việc kết nối phần mềm đó với LLM hoặc các mô hình AI khác. Gần hơn với ngành mạng, chúng tôi kỳ vọng giao thức ngữ cảnh mô hình (MCP – Model Context Protocol) sẽ trở thành yếu tố then chốt để kích hoạt AI tác tử (agentic AI). Nếu bạn chưa xây dựng máy chủ MCP cho phần mềm doanh nghiệp của mình, hãy làm ngay bây giờ!

Một phần lớn đổi mới AI trong những năm tới sẽ do khách hàng dẫn dắt. Khi các nhà cung cấp đưa những hệ thống mở vào tay khách hàng, bạn sẽ nhận được những kết quả tuyệt vời, thậm chí bất ngờ. Trong suốt lịch sử doanh nghiệp, nhiều ngành công nghiệp đã được cách mạng hóa bởi sự đổi mới xuất phát từ người dùng cuối, chứ không phải từ nhà cung cấp.

Chúc bạn sống trong thời đại sôi động

Phần lớn chúng ta đang ngập trong thông tin về AI cùng tốc độ phát triển chóng mặt của nó. Chúng ta muốn được cập nhật, nhưng không muốn bị quá tải. Tuy nhiên, AI hiện cũng dễ tiếp cận hơn bao giờ hết. Ai cũng có thể tải về hầu hết các mô hình AI trong số hàng nghìn mô hình trên Hugging Face — hoàn toàn miễn phí! Một người mới bắt đầu cũng dễ dàng xây dựng máy chủ MCP và kết nối nó với nhiều nguồn dữ liệu khác nhau. Và nếu bạn gặp khó khăn, chỉ cần hỏi Claude để được hỗ trợ. Các LLM giờ đây bắt đầu mang cảm giác như những thực thể gần giống con người mà bạn có thể tương tác. Đây thực sự là thời điểm đầy hứng khởi để trở thành một kỹ sư mạng.

 

Để cập nhật thêm nhiều thông tin hữu ích và các sản phẩm thiết bị mạng và các sản phẩm công nghệ mạng vui lòng liên hệ với chúng tôi qua thông tin dưới đây:

CÔNG TY CỔ PHẦN DỊCH VỤ CÔNG NGHỆ DATECH

  • Địa chỉ: Số 23E4 KĐT Cầu Diễn, Tổ 7, Phú Diễn, Bắc Từ Liêm, Hà Nội
  • Điện thoại: 02432012368
  • Hotline: 098 115 6699
  • Email: info@datech.vn
  • Website:https://datech.vn