Quản lý sự kiện IT – IT Event Management

Hàng ngàn (hoặc hàng triệu) sự kiện xảy ra trên cơ sở hạ tầng CNTT của bạn mỗi ngày. Trong các doanh nghiệp lớn, con số có thể là hàng tỷ. Tại sao? Bởi vì một sự kiện chỉ đơn giản là sự thay đổi trạng thái của dịch vụ CNTT hoặc mục cấu hình (CI) có ý nghĩa đối với việc quản lý của nó.

Một máy chủ chuyển từ trực tuyến sang không hoạt động có thể là một sự kiện hoặc hoàn thành một kịch bản bảo trì máy chủ thông thường: Chúng đáng để biết và thậm chí có thể có một hành động bạn muốn thực hiện.

Mục tiêu của quản lý sự kiện là phát hiện các sự kiện, phân tích chúng và xác định hành động kiểm soát đúng (nếu có). Bằng cách đó, quy trình quản lý sự kiện cũng cung cấp một nền tảng vững chắc để đảm bảo dịch vụ, báo cáo và cải tiến dịch vụ.

Tuy nhiên, điều quan trọng cần biết là giám sát và quản lý sự kiện không giống nhau. Giám sát chắc chắn là một thành phần của quản lý sự kiện, trong đó nó là cách hữu ích để phát hiện các sự kiện khi chúng xảy ra. Mặt khác, quản lý sự kiện tập trung vào việc trích xuất ý nghĩa của các sự kiện, để giúp CNTT thực hiện các hành động thích hợp (khi được yêu cầu).

Phạm vi và lợi ích của quản lý sự kiện Quản lý
Sự kiện có thể được áp dụng cho bất kỳ khía cạnh nào của quản lý dịch vụ cần được kiểm soát và có thể được tự động hóa – từ mạng, máy chủ và ứng dụng cho đến các điều kiện môi trường như phát hiện và bảo mật và chữa cháy và phát hiện xâm nhập.

Vì quản lý sự kiện có thể được áp dụng cho mọi khía cạnh của quản lý dịch vụ trong tổ chức CNTT của bạn, nên lợi ích rất phổ biến. Nói chung, thực hành quản lý sự kiện hiệu quả có thể:

  • Cung cấp một nền tảng vững chắc để tự động hóa các thành phần chính của hoạt động CNTT của bạn
  • Cải thiện thời gian phát hiện và phản hồi cho các sự cố, thay đổi, ngoại lệ, v.v.
  • Giảm thời gian chết do kết quả của những điều trên

Vậy thành công trông như thế nào? Trong quản lý sự kiện, thành công là có thể phát hiện, giao tiếp và thực hiện hành động thích hợp cho mọi sự kiện (hoặc thay đổi trạng thái) có ý nghĩa đối với việc quản lý các dịch vụ CNTT của bạn và các CIs hỗ trợ.

Luồng quy trình quản lý sự kiện

Sơ đồ quy trình quản lý sự kiện

Sự khác biệt giữa các sự kiện và sự cố là gì?

Đó là một câu hỏi tuyệt vời, và câu trả lời rất đơn giản. Sự cố là sự gián đoạn không có kế hoạch hoặc giảm đáng kể chất lượng dịch vụ CNTT. Khi một sự cố xảy ra, một cái gì đó là sai. Mặt khác, các sự kiện chỉ đơn giản là những thay đổi về trạng thái dịch vụ của bạn, của CI hoặc khá nhiều thứ quan trọng trên cơ sở hạ tầng CNTT của bạn.

Vì vậy, một sự cố có thể là một sự kiện? Chắc chắn rồi. Tất cả các sự cố đều là sự kiện, vì việc ngừng hoạt động hoặc giảm chất lượng dịch vụ là sự thay đổi trạng thái của dịch vụ đó. Nhưng không phải tất cả các sự kiện đều là sự cố, vì việc sử dụng tăng lên, người dùng đăng nhập hoặc hoàn thành dịch vụ sao lưu tự động thể hiện sự thay đổi trạng thái, nhưng không làm gián đoạn hoặc suy giảm chất lượng dịch vụ.

Trên thực tế, có ba loại sự kiện được xác định bởi ITIL:

  1. Thông tin. Những sự kiện này thường không yêu cầu phản hồi dưới bất kỳ hình thức nào, vì chúng là các cập nhật trạng thái cơ bản hoặc dữ liệu được tạo để hỗ trợ báo cáo, v.v. Nhật ký và báo cáo là những ví dụ tuyệt vời.
  2. Cảnh báo. Cảnh báo là các chỉ số hoạt động nằm ngoài định mức – giống như một ngưỡng được tiếp cận. Giống như cảnh báo bão hoặc lốc xoáy, cảnh báo có nghĩa là bạn nên theo dõi các điều kiện để đảm bảo chúng không bị xấu đi – hoặc có hành động để ngăn chúng xấu đi khi thích hợp. Một ví dụ về loại sự kiện này sẽ là công suất máy chủ đạt 75% hoặc giao dịch tiêu chuẩn mất 15% thời gian để hoàn thành so với bình thường.
  3. Ngoại lệ. Các sự kiện ngoại lệ là các chỉ số cho thấy có gì đó không ổn. Các dịch vụ (doanh nghiệp họ hỗ trợ) có thể bị ảnh hưởng tiêu cực. Một mạng hoặc máy chủ không hoạt động (trái ngược với khả năng tiếp cận) là một ví dụ về ngoại lệ.

Những hoạt động khác có thể được coi là sự kiện và kích hoạt quy trình quản lý sự kiện? Khá nhiều – từ ngoại lệ đến quy trình tự động đến thay đổi trạng thái đơn giản trong máy chủ hoặc cơ sở dữ liệu.

Cuối cùng, công việc của CNTT là chỉ định loại hoạt động nào sẽ xem xét các sự kiện thông tin, sự kiện cảnh báo và sự kiện ngoại lệ. Tuy nhiên, theo nguyên tắc chung, bạn sẽ muốn phân loại một sự kiện là thông tin trên mạng khi nó sẽ hoàn toàn được sử dụng để hiểu rõ hơn và đưa ra quyết định tốt hơn. Cảnh báo trong các sự kiện thường là những sự kiện có thể yêu cầu giám sát chặt chẽ hơn hoặc thậm chí can thiệp để giúp bạn ngăn chặn các trường hợp ngoại lệ xảy ra. Ngoại lệ, có nghĩa là một cái gì đó thực sự sai mà thường đòi hỏi phải hành động ngay lập tức.

Các hoạt động chính của quản lý sự kiện

Trong giai đoạn thiết kế các dịch vụ CNTT của bạn, bạn nên xác định loại sự kiện nào cần được tạo và cách chúng sẽ được tạo, cho từng loại mục cấu hình (CI) liên quan đến việc cung cấp dịch vụ. Vòng đời sự kiện điển hình là:

  1. Sự kiện xảy raCác sự kiện xảy ra 24 x 7 x 365. Trong ITIL Event Management, là xác định các loại sự kiện có ý nghĩa đối với hoạt động của bạn và đảm bảo bạn có một hệ thống để phát hiện ra chúng.
  2. Thông báo sự kiệnThông báo thường được gửi bởi các công cụ giám sát hoặc CIs (mục cấu hình). Ở giai đoạn này, đây chỉ là những thông báo rằng một sự kiện đã xảy ra – và thường chưa được giải thích hoặc tương quan để hiểu ý nghĩa hoặc tác động.
  3. Phát hiện sự kiệnTrong bước này, một hệ thống giám sát, tác nhân tự động hoặc giải pháp quản lý hệ thống nhận được thông báo và xác định ý nghĩa của sự kiện.
  4. Sự kiện đã đăng nhậpMột bản ghi của sự kiện được tạo ra, cùng với bất kỳ hành động nào sau đó được thực hiện. Điều này có thể được thực hiện bởi giải pháp quản lý hệ thống của bạn hoặc bởi các ứng dụng / dịch vụ / phần cứng riêng lẻ đã kích hoạt sự kiện.
  5. Lọc sự kiện và tương quanSự kiện có thể được bỏ qua, hoặc nó cần phải được chuyển qua hệ thống quản lý sự kiện? Thông thường, các sự kiện thông tin được bỏ qua. Cảnh báo và ngoại lệ thường yêu cầu hành động bổ sung. Vì vậy, bước đầu tiên của quá trình này – được gọi là tương quan và lọc mức đầu tiên – chỉ đơn giản là lọc những sự kiện nào nên được bỏ qua so với chuyển qua hệ thống quản lý sự kiện.

    Ở cấp độ tương quan thứ hai, một công cụ tương quan sử dụng các quy tắc kinh doanh được xác định trước để xác định tầm quan trọng của các sự kiện cảnh báo và ngoại lệ và quyết định các bước tiếp theo phù hợp.

  6. Phản ứng sự kiện / hành động tiếp theoHãy nhớ rằng, tất cả các sự kiện (và phản hồi) nên được ghi lại. Ngoài ra, dựa trên loại sự kiện và mức độ nghiêm trọng, công cụ tương quan có thể xác định mức độ phù hợp để nâng cấp sự kiện cho nhóm hoặc cá nhân hoặc trong trường hợp cảnh báo và ngoại lệ nghiêm trọng hơn, thậm chí tự động tạo ra sự cốhoặc thay đổi .
  7. Kết thúc sự kiệnNếu một sự kiện dẫn đến sự cốhoặc thay đổi được tạo, việc đóng sự kiện phải được xử lý thông qua các quy trình tương ứng đó. Chúng có thể được đóng kín trong hệ thống quản lý sự kiện bằng cách đảm bảo sự kiện được ghi lại đúng cách cũng như các hành động tiếp theo được thực hiện và bao gồm một liên kết đến sự cốhoặc yêu cầu thay đổi tương ứng.

    Giống như hầu hết các quy trình ITIL khác, quản lý sự kiện tồn tại, mặc dù quản lý sự kiện chủ yếu giao diện với sự cốvà quản lý thay đổi (để xử lý các trường hợp ngoại lệ), nó cũng giao diện với:

    • Quản lý năng lực và tính sẵn sàng để hiểu tầm quan trọng của các sự kiện, ngưỡng, v.v.
    • Quản lý tài sản để quản lý trạng thái tài sản
    • Quản lý cấu hình, để quản lý trạng thái của các CIs.

Đo lường hiệu quả của bạn

Để giúp bạn đánh giá hiệu quả và hiệu quả của quy trình Quản lý sự kiện, đây chỉ là một vài trong sốcác KPI bạn có thể theo dõi.

  • Sốlượng hoặc tỷ lệ phần trăm của các sự kiện trở thành sự cố.
  • Các CIs tạo ra nhiều sự kiện nhất
  • Có bao nhiêu sự kiện được báo cáo bởi các công cụ giám sát của bạn và sự cố theo danh mục sự kiện
  • Tổng phần trăm các sự kiện trở thành sự cố (hoặc xen kẽ dẫn đến thay đổi) và cụ thể hơn, có bao nhiêu sự cố được báo cáo bởi các hệ thống tự động của bạn.