Quản Trị Sự Cố Hạ Tầng CNTT

 

Quản trị sự cố mạng liên quan chặt chẽ với quản trị dịch vụ mạng và đây là điểm giao dịch chính, duy nhất cho tất cả những người sử dụng công nghệ thông tin (IT). Khi dịch vụ mạng bị dán đoạn hoặc không cung cấp được dịch vụ, thì ưu tiên hàng đầu trong lúc này là khôi phục hoạt động cung cấp dịch vụ như lúc ban đầu càng nhanh càng tốt. Và đồng thời, người ta ưu tiên tìm kiếm những giải pháp ngăn chặn sự cố mạng lại tiếp tục xảy ra. Đây là những mục tiêu của hoạt động quản trị sự cố mạng.

Nhân sự làm việc tại bộ phận quản trị dịch vụ mạng được xác định ở mức độ hỗ trợ số 1 và công việc của họ bao gồm:

  • Xác định sự cố mạng có thể xẩy ra
  • Khoanh vùng sự cố mạng
  • Xếp loại sự cố mạng
  • Ưu tiên sử lý sự cố mạng
  • Xác định sự cố mạng
  • Chuyển sự cố mạng lên cấp độ 2 nếu thấy cần thiết
  • Tìm giải pháp xử lý sự cố mạng
  • Xứ lý sự cố mạng

Thông tin cho nhóm sử dụng dịch vụ trong suốt quá trình khắc phục sự cố.

Quản trị sự cố mạng không đòi hỏi phải phân tích tận gốc rễ nguyên nhân xảy ra sự cố để xác định vì sao sự cố lại xảy ra. Thay vào đó trọng tâm của công việc này là làm tất cả những gì có thể để khôi phục dịch vụ. Điều này thường đòi hỏi công việc khoanh vùng tạm thời hay những công việc mạng tính xoay vòng, tập trung vào xử lý sự cố mạng. Một trong những công cụ quan trọng trong việc nhận dạng sự cố mạng là hệ thống dự liệu về sự cố mạng (KEDB) và hệ thống này được vận hành bởi bộ phận quản trị vấn đề mạng. Hệ thống dữ liệu sự cố mạng có nhiệm vụ nhận diện những sự cố hay những sai sót có thể xảy ra và đã gây ra những sự cố trọng quá khứ. Đồng thời cung cấp thông tin cho các giải pháp đã từng được sử dụng để khắc phục sự cố.

Một công cụ khác cũng được bộ phận quản trị sự cố mạng sử dụng đó là mô hình quản trị sự cố mạng. Khi có những sự cố mới xảy ra tương tự như những gì đã từng xảy ra trước đây, thì mô hình này sẽ giúp nhận diện những công việc cần làm như sau:

  • Từng bước khắc phục sự cố, cung cấp những giải pháp tiếp theo và xác định những bộ phận chịu trách nhiệm giải quyết.
  • Đưa ra những cảnh báo trước khi thực hiện các bước khắc phục sự cố mạng;
  • Khung thời gian để khắc phục sự cố
  • Nâng cấp quy trình khắc phục sự cố
  • Lưu giữ những thông tin trong quá trình khắc phục sự cố
  • Mô hình khắc phục sự cố xuyên suốt toàn bộ quy trình và giảm thiểu rủi ro.

Công tác quản trị sự cố mạng có mối liên quan mật thiết và phụ thuộc lẫn nhau với các quy trình cung cấp dịch vụ mạng khác, bao gồm:

  • Quản trị sự thay đổi (change management). Giải pháp khắc phục sự cố mạng đòi hỏi phải đưa ra những yêu cầu cần phải thay đổi. Tương tự như vậy, một tỷ lệ lớn những sự cố mạng được phát hiện có nguyên do từ những sự thay đổi này và số lượng những sự cố mạng xảy ra là một chỉ số quan trọng được sử dụng trong công tác quản trị sự thay đổi.
  • Việc quản trị vấn đề mạng: Quản trị sư cố mạng như được đề cập ở phần trên được hưởng lợi từ hệ thống dữ liệu quản trị sự cố mạng (KEDB), hệ thống được bộ phận quản trị vấn đề hệ thống quản lý. Về phần mình, bộ phận quản trị vấn đề hệ thống lại phụ thuộc vào những thông tin dữ liệu được thu thập và lưu giữ chính xác về những sự cố  mạng đã từng xẩy ra trước đây để thực hiện nhiệm vụ xác định sự cố mạng.
  • Quản trị cấu hình và máy móc dịch vụ: Hệ thống quản trị cấu hình (CMC) là một công cụ sống còn trong việc tìm giải pháp khắc phục sự cố mạng vì nó giúp nhận diện các mối liên kết trong các cấu phần dịch vụ và bảo đảm tính đồng nhất của dữ liệu cấu hình với các dữ liệu sự cố mạng.
  • Quản trị mức độ dịch vụ mạng: Việc vi phạm mức độ quản trị dịch vụ mangk bản thân nó đã là một sự cố mạng và điều cũng là một lỗi thường xẩy ra trong quy trình quản trị mức độ dịch vụ mạng. Cũng như vậy, thỏa thuận mức độ dịch vụ cũng đã xác định khung thời gian và quy trình nâng cao đối với những dạng sự cố mạng khác nhau.
  • Khắc phục sự cố mạng hệ thống: Thử nghiệm tự do

Sự cố hệ thống mạng là gì?

ITIL đã định nghĩa sự cố mạng hệ thống là một sự cố gây ra dán đoạn trong việc cung cấp dịch vụ không nằm trong kế hoạch hay việc giảm chất lượng cung cấp dịch vụ thông tin. Thỏa thuận mức độ dịch vụ cũng đã xác định mức độ và chất lượng dịch vụ thông tin giữa nhà cung cấp và khách hàng.

Sự cố hệ thống mạng khác biệt với vấn đề về hệ thống và yêu cầu. Sự cố hệ thống mạng là một sự vụ làm gián đoạn việc cung cấp dịch vụ thông thường còn vấn đề hệ thống mạng là một điều kiện mà được nhận diện thông qua một loạt các lỗi hệ thống giống nhau với cùng một hiện tượng. Quản trị vấn đề hệ thống nhằm giải quyết tận gốc rễ những nguyên nhân của vấn đề; quản trị lỗi mạng là nhằm khôi phục dịch vụ IT trở lại mức độ bình thường. Yêu cầu hoàn tất những trách nhiệm này là những yêu cầu bình thường nhằm tạo ra một số thay đổi nào đấy trong quy trình. Những thay đổi này bao gồm: đào tạo; bảo mật thông tin; cài đặt phần cứng mới; cấp phép; và một số thứ khác mà dịch vụ IT đưa ra. Một yêu cầu có thể cần có sự thông qua của bộ phận IT để hoàn tất yêu cầu đó. Sự cố mạng làm gián đoạn dịch vụ như máy tính bị hỏng khi VPN không kết nối được hay máy in bị tắc giấy.  Đây là những sự cố không có trong kế hoạch và đòi hỏi có sự giúp đỡ từ nhà cung cấp dịch vụ nhằm khôi phục lại chức năng ban đầu.

Quản trị sự cố ITIL là gì?

Khi mà hầu hết mọi người nghĩ về IT, thì quản trị sự cố mạng như là một quá trình đặc trưng nằm ngay trong suy nghĩ của họ. Nó chủ yếu tập trung vào việc xử lý những sự cố ngay khi nó xảy ra nhằm khôi phục dịch vụ. Quản trị lỗi mạng không nhắm tới việc phân tích tận gốc rễ nguyên nhân hay phương thức giải quyết vấn đề. Mục đích trình của công việc này là xác định cho người khắc phục sự cố từ khâu báo cáo sự cố cho đến khấu sử lý xong sự cố.

Một khi quy trình được thiết lập nó sẽ tạo ra một giá trị bền vững cho doanh nghiệp. Nó cho phép mọi sự cố đều được khắc phục theo đúng với khung thời gian mà trước đó chưa các định được. Đối với phần lớn các tổ chức, quy trình khắc phục sự cố biến đổi từ khâu trợ giúp nhận lại email đã gửi đến hệ thống đếm số thông thường với các yêu cầu về mức độ yêu tiên, phân ngành và SLA. Một cơ cấu chính thức cần phải có thời gian để phát triển, nhưng nó tạo ra một sản phẩm đầu ra tốt hơn cho người sử dụng, nhân viên trợ giúp và doanh nghiệp. Những dữ liệu thu thập được từ việc lần tìm sự cố cho phép đưa ra những quyết định tốt hơn về mặt quản trị vấn đề và quyết định kinh doanh. Quản trị sự cố mạng cũng góp phần tạo ra mô hình sự cố mạng và mô hình này cho phép các nhân viên hỗ trợ giải quyết những sự cố một cách nhanh chóng với những quy trình xử lý sự cố được xác định. Tại một số tổ chức, một số nhân viên mẫn cán được giao chuyên trách xử lý sự cố và tại một số doanh nghiệp, những nhiệm vụ này được gắn kết với bộ phận quản trị dịch vụ, chủ doanh nghiệp, các nhà quản trị hay cố đông. Tầm bao quát của hoạt động quản trị sự cố làm cho công tác này trở nên dễ thực thi nhất vì giá trị mà nó mang lại trở nên rõ ràng đối với người sử dụng ở tất cả các cấp trong một tổ chức. Bất kỳ ai khi gặp vấn đề mà họ cần trợ giúp hay nhân viên hỗ trợ đều có thể được giải quyết một cách nhanh chóng và điều này gắn liền với nhu cầu của người sử dụng ở tất cả các cấp.

Quản trị sự cố mạng đòi hỏi một số đầu việc như sau:

  • Phải có một thỏa thuận phân cấp dịch vụ giữa nhà cung cấp dịch vụ và khách hàng và bản thỏa thuận này phải định nghĩa những ưu tiên sử lý sự cố, xử lý đường truyền, khung thời gian khắc phục/xử lý sự cố.
  • Mô hình sự cố và hệ thống thay thế tạm thời cho phép xử lý sự cố một cách nhanh chóng và hiệu quả.
  • Phân loại các dạng sự cố để phục vụ công tác thu thập dữ liệu và quản trị vấn đề mạng
  • Thỏa thuận về tình trạng, phân loại và ưu tiên xử lý sự cố.
  • Thiết lập quy trình xử lý sự cố
  • Thỏa thuận về phân công trách nhiệm quản trị sự cố.

Điểm số 5 trong quy trình nêu trên là rất quan trọng đối với công tác quản trị sự cố. Quản trị viên được giao trọng trách xử lý sự cố mà không sử lý được trong khoảng thời gian mà SLA quy định, thì như vậy nhân viên sử dụng dịch vụ cũng sẽ không giải quyết được sự cố. Do đó trong một số tổ chức, nhân viên quản trị sự cố thường là những nhân viên chuyên trách phụ trách IT hay người đứng đầu bộ phận kỹ thuật IT.

Chức năng chính của quản trị sự cố: Quản trị dịch vụ mạng.

Quản trị sự cố mạng đòi hỏi một số chức năng và chức năng quan trọng nhất là quản trị dịch vụ mạng. Quản trị dịch vụ được biết đến như một đầu mối trợ giúp. Quản trị dịch vụ mạng là đầu mối duy nhất cho người sử dụng khi họ gặp phải sự cố mạng. Không có quản trị dịch vụ mạng, thì người sử dụng sẽ liên hệ với nhân viên trợ giúp nhưng không có những giới hạn cơ cấu hay những yêu tiên công việc. Điều này có nghĩa là những sự cố có mức độ ưu tiên cao lại có thể bị bỏ qua trong khi lại tập trung vào những sự cố có mức độ ưu tiên thấp. Những sự cố có mức độ ưu tiên thấp như việc lắp đặt cài đặt hệ thống không nhất thiết phải thực hiện ngay trong khi đó thì các nhân viên trợ giúp IT lại tập trung xử lý ngay những công việc này. Dịch vụ mạng hỗ trợ nêu trợ giúp nhân viên giải quyết ngay các tình huống phát sinh và khuyến khích chuyển giao kiến thực giữa các nhân viên hỗ trợ với nhau, nhằm tạo ra một mô hình tự trợ giúp, thu thập các dữ liệu IT và trợ giúp bộ phận quản trị vấn đề một cách hiệu quả.

Hệ thống quản trị mạng được phân chia thành ba phần trợ giúp. Phần thứ nhất dùng để trợ giúp những sai sót cơ bản. 1/3 số sự cố trên mạng sẽ được cập nhật vào các mô hình sự cố mạng bởi vì chương trình tạm thời để tạo ra những sai sót đó rất dễ được tạo ra và sự cố mạng lại có thể xảy ra một lần nữa. Ví dụ, mô hình tạm thời với yêu cầu đặt lại password bao gồm việc phân loại sự cố ( ví dụ: loại tài khoản IT và dạng cài đặt lại Password). Các thông tin cài đặt tạm thời dùng để trợ giúp nhân viên cần phải hoàn tất các đường dẫn kết nối với các thiết bị kết nối bên trong và bên ngoài nhằm trợ giúp việc khắc phục sự cố. Một phần ba số sự cố có mức độ ưu tiên thấp sẽ không gây ảnh hưởng đến hoạt động của doanh nghiệp và các sự cố này có thể tự do nhân nhiên khắc phục được.

1/3 thứ hai số công việc trợ giúp sẽ liên quan đến các vấn đề đỏi hỏi có nhiều kỹ năng hơn để có thể hoàn tất được. Việc cài đặt lại RSA yêu cầu các công việc thuộc nhóm này. Một số tổ chức phân loại sự cố do các khách hàng VIP thông báo thuộc nhóm này và sử dụng những nhân viên có các kỹ năng tốt hơn. Những sự cố thuộc nhóm này được xác định ở mức độ ưu tiên trung bình và nhóm này cần phản ứng nhanh hơn khi nhận được yêu cầu của bộ phận hỗ trợ mạng.

Việc phân công công việc một cách chính xác của các nhóm xứ lý sự cố thường rơi vào nhóm thứ nhất – với mức độ ưu tiên thấp và đôi khi là vào nhóm thứ 2 và rất ít khi rơi vào nhóm thứ 3. Những sự cố đòi hỏi phải có sự chuyển nhóm khẩn cấp mới xử lý được thường lãi những sự cố lớn và những sự cố này thường đổi hỏi phải có sự kết hợp của nhiều bộ phận mới xử lý được. Những sự cố được ITIL xác định là những sự cố nghiêm trọng là những sự cố làm gián đoạn hoạt động kinh doanh của doanh nghiệp. Những sự cố này thường có mức độ ưu tiên cao và đòi hỏi phải có biện pháp khắc phục ngay lập tức và thường được chuyển lên các nhóm có mức độ ưu tiên cao hơn. Trong cơ cấu phân nhóm ưu tiên được nêu ở trên, thì những sự cố nằm trong nhóm thứ 3 thường được đánh giá là những sự cố thuộc phần quản trị vấn đề mạng.

Quy trình xử lý sự cố.

Theo ITIL, quy trình xử lý sự cố lỗi mạng xuyên suốt một số lượng công việc giữa nhà cũng cấp dịch vụ và khách hàng. ITIL khuyến nghị quy trình quản lý sự cố mạng qua những bước sau:

  • Nhận diện sự cố mạng
  • Khoanh vùng sự cố mạng
  • Phân loại sự cố mạng
  • Ưu tiên sự cố mạng
  • Xử lý khắc phục sự cố mạng
  • Nhận định ban đầu
  • Chuyển tiếp việc khắc phục sự cố lên các bộ phận phù hợp
  • Tìm hiểu nguyên nhân và nhận định phương pháp xử lý
  • Tìm giải pháp khắc phục phù hợp và khôi phục số liệu
  • Hoàn tất việc sử lý sự cố.

Quy trình sử lý sự cố mạng đòi hỏi phải có các bước xử lý hiệu quả và quy trình này đòi hỏi phải được thực hiện liên tục.

Bước thứ nhất trong quy trình xử lý sự cố là việc nhận diện sự cố mạng. Sự cố mạng xuất phát từ phía người sử dụng dưới một vài hình thức. Sự cố có thể xẩy ra bao gồm người ngoài vào văn phòng, có nhân viên sử dụng không đúng quy trình, sử dụng điện thoại, email hay các thiết bị hỗ trợ thông tin như các phần mềm giám sát hệ thống hay sao chép trên hệ thống. Bộ phận quản trị mạng sẽ phải tự quyết định xem liệu vấn đề được phát hiện chỉ là một yêu cầu sử lý hay là một sự cố mạng thực sự. Nếu là yêu cầu thì yêu cầu sử lý sẽ được chuyển tiếp và sử lý một cách hoàn toàn khác so với việc xử lý sự cố.

Một khi đã được xác định là sự cố, bộ phận quản trị mạng sẽ ghi nhận một phiếu yêu cầu xử lý sự cố và phiếu đó sẽ ghi rõ các thông tin như tên và điện thoại liên hệ của người sử dụng, mổ tả tóm tắt sự cố và ngày giờ sự cố được báo cáo. Quy trình khoanh vùng sự cố cũng sẽ bao gồm công việc phân loại sự cố, ưu tiên giải quyết và các bước xử lý sự cố.

Phân loại sự cố là một bước quan trọng trong quá trình quản trị xử lý sự cố. Quá trình này phục vụ một số mục đích trước hết nó cho phép bộ phận quản trị dịch vụ mạng phân loại các nhóm sự cố cần khắc phục. Tiếp theo quy trình này sẽ đưa ra các bước ưu tiên trong việc xử lý sự cố. Ví dụ, sự cố được báo cáo thuộc loại sự cố mạng với mức độ ưu tiên là sử lý nội mạng. Tại một số tổ chức, việc phân cấp này được coi là các sự cố có mức độ ưu tiên cao và đòi hỏi phải có biện pháp xử lý ngay. Mục đích nữa đó là cho phép việc truy tìm nguồn gốc của sự cố. Khi sự cố được nhận diện và được quy vào nhóm ưu tiên, việc tiếp theo cần làm là lượng hóa mức độ nghiêm trọng của sự cố và chuyển lên các nhóm sử lý tiếp theo.

Việc ưu tiên xử lý sự cố rất quan trọng đối với SLA. Ưu tiên xử lý sự có được xác định do tác động đối với người sử dụng đối với hoạt động của doanh nghiệp hay tính cấp bách của nó. Tính cấp bách ở đây được thể hiện là việc tìm ra giải pháp xử lý nhanh hay chậm và tác động là thước đo những thiệt hại mà sự cố đó gây ra:

Sự cố có mức ưu tiên thấp:  Là những sự cố không gây nên sự ngẵn quãng trong công việc của người sử dụng và họ vẫn có thể tự khắc phục được và dịch vụ của khách hàng vẫn được duy trì.

Sự cố có mức ưu tiên trung bình:  Tác động đến công việc của nhân viên và ở mức độ nào đó làm gián đoạn công việc. Khách hàng có một chút tác động và không thuận tiện trong công việc.

Sự cố có mức ưu tiên cao Tác động đến số lớn người sử dụng, làm gián đoạn công việc tác động đến sự việc cung cấp dịch vụ. Những sự cố này đều gây ra những thiệt hại về mặt tài chính.

Một khi đã nhận diện, phân loại và ưu tiên xử lý sự cố, bộ phận quản trị dịch vụ sẽ phải xử lý các sự cố. 5 bước xử lý sự cố bao gồm:

  • Nhận diện ban đầu: Bước này diễn ra khi người dùng mô tả sự cố gặp phải và cách thực họ nhận được thông tin xử lý sự cố.
  • Chuyển tiếp việc xứ lý sự cố lên cấp cao hơn: Bước này diễn ra khi sự cố cần phải có sự trợ giúp ở mức độ cao hơn như yêu cầu phải có sự trợ giúp của nhân viên kỹ thuật chuyên trách. Như đã được đề cập trước đó, hầu hết các sự cố nên được giải quyết bằng nhóm trợ giúp thứ nhất và không nên làm cho nó trở nên phức tạp để chuyển lên nhóm tiếp theo.
  • Nhận định và điều tra sự cố: Các bước này diễn ra trong quá trình xử lý sự cố khi những hiện tượng sự cố được xác nhận là có thật. Khi sự cố được nhận diện, các nhân viên hỗ trợ có thể áp dụng các giải pháp như thay đổi việc cài đặt phần mềm, áp dụng các gói hỗ trợ phần mềm hay yêu cầu lắp đặt phần cứng mới.
  • Giải quyết sự cố và phục hồi dữ liệu: Bước này được thực hiện khi bộ phận quản trị dịch vụ mạng xác nhận dịch vụ dành cho người sử dụng đã được phục hồi ở mức độ do SLA yêu cầu.
  • Kết thúc việc xử lý sự cố: Ở bước này, sự cố được coi như đã giải quyết song và quy trình xử lý kết thúc.

Tình trạng sự cố

Tình trạng sự cố phản ánh quy trình xử lý bao gồm:

  • Sự cố phát sinh
  • Phân công trách nhiệm xử lý
  • Khắc phục sự cố
  • Tiếp tục xử lý hay chuyển tiếp
  • Giải quyết xong
  • Kết thúc quy trình xử lý

Tình trạng sự cố phát sinh cho thấy bộ phận quản trị dịch vụ mạng đã tiếp nhận yêu cầu xử lý sự cố nhưng chưa phân công trách nhiệm xử lý sự cố.Phân công trách nhiệm xử lý sự cố có nghĩa là sự cố đã được giao cho một cá nhân phù hợp để xử lý. Sự cố đang được khắc phục cho thấy sự cố đã được giao cho bộ phận chuyên trách xử lý nhưng chưa xong. Bộ phận được giao xử lý sẽ phải liên hệ với người sự dụng để cung cấp thông tin về quá trình xử lý sự cố.Tình trạng khắc phục sự cố cho thấy để xử lý sự cố cần phải có thêm thông tin hay sự trợ giúp từ người sử dụng hay bên thứ ba. Sự cố được xếp vào tình trạng đang xử lý cho thấy những yêu cầu SLA chưa được đáp ứng và vẫn còn đang tiếp tục chờ sự trợ giúp từ phía người sử dụng hay từ nhà cung cấp.

Tình trạng giải quyết xong cho thấy bộ phận quản trị dịch vụ đã xác nhận sự cố đã được xử lý và dịch vụ của người sử dụng đã được khôi phục theo chuẩn SLA.

Tình trạng kết thúc xử lý sự cố cho thấy sự cố đã được giải quyết triệt để và không cần phải có thêm sự trợ giúp nào nữa.

Quản trị sự cố là một quy trình xuyên suốt các bước xử lý sự cố từ khâu quản trị dịch vụ mạng đến việc đưa sự vào vào các bộ phận phù hợp để xử lý. Cấu phần cuối cùng trong quy trình quản trị sự cố là khâu đánh giá các số liệu thu thập được. Các số liệu từ việc xử lý sự cố sẽ hướng dẫn các tổ chức ra quyết định nâng cấp chất lượng dịch vụ được cung cấp và giảm thiểu số lượng các sự cố phát sinh. Quản trị sự cố là một quá trình trong toàn thể quy trình vận hành dịch vụ và việc tiếp tục đọc và hiểu về ITIL là một bước nâng cấp dịch vụ (CSI).

(ST)