Thứ ba, 05/12/2017 | 00:00 GMT+7

Giới thiệu về Chỉ số, Giám sát và Cảnh báo

Hiểu được trạng thái của cơ sở hạ tầng và hệ thống của bạn là điều cần thiết đảm bảo độ tin cậy và ổn định của các dịch vụ của bạn. Thông tin về tình trạng và hiệu suất triển khai của bạn không chỉ giúp group của bạn phản ứng với các vấn đề mà còn cung cấp cho họ sự an toàn để tự tin áp dụng các thay đổi . Một trong những cách tốt nhất để đạt được thông tin chi tiết này là sử dụng một hệ thống giám sát mạnh mẽ thu thập các chỉ số, trực quan hóa dữ liệu và cảnh báo cho người vận hành khi mọi thứ dường như bị hỏng.

Trong hướng dẫn này, ta sẽ thảo luận về các chỉ số, giám sát và cảnh báo là gì. Ta sẽ nói về lý do tại sao chúng quan trọng, những loại cơ hội mà chúng cung cấp và loại dữ liệu bạn có thể cần theo dõi. Ta sẽ giới thiệu một số thuật ngữ chính trong quá trình này và sẽ kết thúc bằng một bảng chú giải ngắn về một số thuật ngữ khác mà bạn có thể gặp khi khám phá không gian này.

Số liệu, Giám sát và Cảnh báo là gì?

Đo lường, giám sát và cảnh báo là tất cả các khái niệm có liên quan với nhau, cùng tạo thành cơ sở của một hệ thống giám sát. Họ có khả năng cung cấp khả năng hiển thị về tình trạng hệ thống của bạn, giúp bạn hiểu xu hướng sử dụng hoặc hành vi và hiểu tác động của những thay đổi bạn thực hiện. Nếu các chỉ số nằm ngoài phạm vi dự kiến của bạn, các hệ thống này có thể gửi thông báo để nhắc nhà điều hành xem xét và sau đó có thể hỗ trợ hiển thị thông tin để giúp xác định các nguyên nhân có thể xảy ra.

Trong phần này, ta sẽ xem xét các khái niệm riêng lẻ này và cách chúng phù hợp với nhau.

Các chỉ số là gì và tại sao ta thu thập chúng?

Các chỉ số đại diện cho các phép đo thô về việc sử dụng tài nguyên hoặc hành vi có thể được quan sát và thu thập trong toàn bộ hệ thống của bạn. Đây có thể là các bản tóm tắt mức sử dụng cấp thấp do hệ điều hành cung cấp hoặc chúng có thể là các loại dữ liệu cấp cao hơn gắn với chức năng hoặc công việc cụ thể của một thành phần, như các yêu cầu được phân phát mỗi giây hoặc tư cách thành viên trong group web server . Một số chỉ số được trình bày liên quan đến tổng công suất, trong khi những chỉ số khác được biểu thị dưới dạng tỷ lệ cho biết “mức độ bận rộn” của một thành phần.

Thông thường, các số liệu dễ dàng nhất để bắt đầu là những số liệu đã được hệ điều hành của bạn hiển thị để thể hiện việc sử dụng các tài nguyên vật lý cơ bản. Dữ liệu về dung lượng ổ đĩa, tải CPU, sử dụng swap , v.v. đã có sẵn, cung cấp giá trị ngay lập tức và có thể được chuyển tiếp đến hệ thống giám sát mà không cần thực hiện thêm nhiều thao tác. Nhiều web server , server database và phần mềm khác cũng cung cấp các số liệu của riêng chúng để có thể được chuyển tiếp.

Đối với các thành phần khác, đặc biệt là các ứng dụng của bạn , bạn có thể phải thêm mã hoặc giao diện để hiển thị các chỉ số mà bạn quan tâm. Thu thập và hiển thị các số liệu đôi khi được gọi là thêm thiết bị đo đạc vào dịch vụ của bạn.

Các chỉ số hữu ích vì chúng cung cấp thông tin chi tiết về hành vi và sức khỏe của hệ thống , đặc biệt khi được phân tích tổng hợp. Chúng đại diện cho nguyên liệu thô được hệ thống giám sát của bạn sử dụng để xây dựng một cái nhìn tổng thể về môi trường của bạn, tự động hóa phản ứng với các thay đổi và cảnh báo con người khi được yêu cầu.Chỉ số là các giá trị cơ bản được sử dụng để hiểu các xu hướng lịch sử, tương quan các yếu tố đa dạng và đo lường các thay đổi về hiệu suất, mức tiêu thụ hoặc tỷ lệ lỗi của bạn.

Giám sát là gì?

Mặc dù các chỉ số đại diện cho dữ liệu trong hệ thống của bạn, nhưng giám sát là quá trình thu thập, tổng hợp và phân tích các giá trị đó để cải thiện nhận thức về các đặc điểm và hành vi của các thành phần của bạn. Dữ liệu từ các phần khác nhau trong môi trường của bạn được thu thập vào một hệ thống giám sát chịu trách nhiệm lưu trữ, tổng hợp, hiển thị và bắt đầu phản hồi tự động khi các giá trị đáp ứng các yêu cầu cụ thể.

Nói chung, sự khác biệt giữa số liệu và giám sát phản ánh sự khác biệt giữa dữ liệu và thông tin. Dữ liệu bao gồm các dữ kiện thô, chưa qua xử lý, trong khi thông tin được tạo ra bằng cách phân tích và tổ chức dữ liệu để xây dựng ngữ cảnh cung cấp giá trị. Giám sát lấy dữ liệu chỉ số, tổng hợp và trình bày theo nhiều cách khác nhau cho phép con người extract thông tin chi tiết từ tập hợp các phần riêng lẻ.

Hệ thống giám sát thực hiện nhiều chức năng liên quan. Trách nhiệm đầu tiên của họ là chấp nhận và lưu trữ dữ liệu đến và dữ liệu lịch sử. Mặc dù các giá trị đại diện cho thời điểm hiện tại là hữu ích, nhưng hầu như luôn hữu ích hơn nếu xem những con số đó liên quan đến các giá trị trong quá khứ để cung cấp bối cảnh xung quanh các thay đổi và xu hướng. Điều này nghĩa là một hệ thống giám sát phải có khả năng quản lý dữ liệu theo khoảng thời gian, có thể liên quan đến việc lấy mẫu hoặc tổng hợp dữ liệu cũ hơn.

Thứ hai, các hệ thống giám sát thường cung cấp trực quan hóa dữ liệu. Mặc dù các chỉ số có thể được hiển thị và hiểu dưới dạng các giá trị hoặc bảng riêng lẻ, nhưng con người giỏi hơn nhiều trong việc nhận biết xu hướng và hiểu cách các thành phần phù hợp với nhau khi thông tin được tổ chức theo cách trực quan có ý nghĩa. Hệ thống giám sát thường đại diện cho các thành phần mà chúng đo lường bằng biểu đồ và console có thể cấu hình . Điều này giúp bạn có thể hiểu được sự tương tác của các biến hoặc thay đổi phức tạp trong hệ thống bằng cách nhìn lướt qua màn hình.

Một chức năng bổ sung mà hệ thống giám sát cung cấp là tổ chức và tương quan dữ liệu từ các đầu vào khác nhau. Để các số liệu trở nên hữu ích, administrator cần có khả năng nhận ra các mẫu giữa các tài nguyên khác nhau và giữa các group server . Ví dụ: nếu một ứng dụng gặp phải tỷ lệ lỗi tăng đột biến, administrator có thể sử dụng hệ thống giám sát để phát hiện xem sự kiện đó có trùng hợp với việc cạn kiệt dung lượng của tài nguyên liên quan hay không.

Cuối cùng, các hệ thống giám sát thường được sử dụng như một nền tảng để xác định và kích hoạt các cảnh báo, mà ta sẽ nói đến tiếp theo.

Alerting là gì?

Cảnh báo là thành phần đáp ứng của hệ thống giám sát thực hiện các hành động dựa trên những thay đổi về giá trị chỉ số. Định nghĩa cảnh báo bao gồm hai thành phần: điều kiện hoặc ngưỡng dựa trên số liệu và hành động cần thực hiện khi giá trị nằm ngoài điều kiện có thể chấp nhận được.

Trong khi hệ thống giám sát cực kỳ hữu ích cho việc giải thích và điều tra tích cực, một trong những lợi ích chính của hệ thống giám sát hoàn chỉnh là cho phép administrator tách khỏi hệ thống. Cảnh báo cho phép bạn xác định các tình huống phù hợp để chủ động quản lý, đồng thời dựa vào giám sát thụ động của phần mềm để theo dõi các điều kiện thay đổi.

Mặc dù thông báo cho các bên chịu trách nhiệm là hành động phổ biến nhất để cảnh báo, nhưng một số phản hồi có lập trình cũng có thể được kích hoạt dựa trên vi phạm ngưỡng. Ví dụ: một cảnh báo cho biết rằng bạn cần thêm CPU để xử lý tải hiện tại có thể được phản hồi bằng một tập lệnh tự động điều chỉnh lớp đó của ứng dụng của bạn. Mặc dù đây không hoàn toàn là một cảnh báo vì nó không dẫn đến thông báo, nhưng cơ chế hệ thống giám sát tương tự thường cũng được dùng để khởi động các quá trình này.

Tuy nhiên, mục đích chính của cảnh báo vẫn là thu hút sự chú ý của con người về tình trạng hiện tại của hệ thống . Tự động hóa phản hồi là một cơ chế quan trọng đảm bảo rằng các thông báo chỉ được kích hoạt trong các tình huống cần sự cân nhắc của một người có kiến thức. Bản thân cảnh báo phải chứa thông tin về những gì sai và nơi cần đến để tìm thêm thông tin. Sau đó, cá nhân phản hồi cảnh báo có thể sử dụng hệ thống giám sát và công cụ liên quan như file log để điều tra nguyên nhân của vấn đề và thực hiện chiến lược giảm thiểu.

Cơ sở hạ tầng có mức độ phức tạp vừa phải đòi hỏi phải có sự phân biệt về mức độ nghiêm trọng cảnh báo để các group hoặc cá nhân chịu trách nhiệm có thể được thông báo bằng các phương pháp phù hợp với quy mô của vấn đề. Ví dụ: việc sử dụng tăng dung lượng lưu trữ có thể đảm bảo một phiếu công việc hoặc email, trong khi tỷ lệ lỗi do khách hàng gặp phải hoặc không phản hồi tăng có thể yêu cầu gửi một trang cho nhân viên trực.

Loại thông tin nào là quan trọng để theo dõi?

Các loại giá trị bạn theo dõi và thông tin bạn theo dõi có thể sẽ thay đổi khi cơ sở hạ tầng của bạn phát triển. Vì các hệ thống thường hoạt động theo thứ bậc, với nhiều lớp phức tạp hơn được xây dựng trên cơ sở hạ tầng sơ khai hơn, có thể hữu ích khi nghĩ về các chỉ số có sẵn ở các cấp khác nhau này khi lập kế hoạch chiến lược giám sát của bạn.

Chỉ số dựa trên server

Ở cuối hệ thống phân cấp của các chỉ số ban đầu là các chỉ số dựa trên server . Đây sẽ là bất cứ thứ gì liên quan đến việc đánh giá tình trạng hoặc hiệu suất của một máy riêng lẻ, không tính đến thời điểm các dịch vụ và ứng dụng của nó. Chúng chủ yếu bao gồm việc sử dụng hoặc hiệu suất của hệ điều hành hoặc phần cứng, như:

  • CPU
  • Ký ức
  • Dung lượng đĩa
  • Quy trình

Những điều này có thể cho bạn biết các yếu tố có thể ảnh hưởng đến khả năng duy trì ổn định hoặc thực hiện công việc của một máy tính.

Số liệu ứng dụng

Danh mục số liệu tiếp theo mà bạn có thể cần xem là số liệu ứng dụng. Đây là các chỉ số liên quan đến các đơn vị xử lý hoặc công việc phụ thuộc vào các tài nguyên cấp server , như dịch vụ hoặc ứng dụng. Các loại chỉ số cụ thể cần xem xét phụ thuộc vào những gì dịch vụ đang cung cấp, nó có những phụ thuộc nào và nó tương tác với những thành phần nào khác. Các chỉ số ở cấp độ này là các chỉ báo về tình trạng, hiệu suất hoặc tải của một ứng dụng:

  • Tỷ lệ lỗi và thành công
  • Lỗi dịch vụ và khởi động lại
  • Hiệu suất và độ trễ của phản hồi
  • Sử dụng tài nguyên

Các chỉ số này giúp xác định xem một ứng dụng có đang hoạt động chính xác và hiệu quả hay không.

Chỉ số Mạng và Kết nối

Đối với hầu hết các loại cơ sở hạ tầng, các chỉ số mạng và kết nối sẽ là một tập dữ liệu khác đáng để khám phá. Đây là những thước đo quan trọng về tính khả dụng hướng ra bên ngoài, nhưng cũng rất cần thiết trong việc đảm bảo các dịch vụ có thể truy cập được đối với các máy khác đối với bất kỳ hệ thống nào trải dài hơn một máy.Giống như các chỉ số khác mà ta đã thảo luận cho đến nay, các mạng phải được kiểm tra về tính chính xác chức năng tổng thể và khả năng mang lại hiệu suất cần thiết của chúng bằng cách xem:

  • Kết nối
  • Tỷ lệ lỗi và mất gói
  • Độ trễ
  • Sử dụng băng thông

Giám sát lớp mạng của bạn có thể giúp bạn cải thiện tính khả dụng và khả năng đáp ứng của cả các dịch vụ bên trong và bên ngoài của bạn.

Số liệu group server

Khi xử lý cơ sở hạ tầng theo tỷ lệ theo chiều ngang, một lớp cơ sở hạ tầng khác mà bạn cần thêm số liệu là group server . Mặc dù các số liệu về các server riêng lẻ rất hữu ích, nhưng ở quy mô lớn, một dịch vụ được thể hiện tốt hơn bằng khả năng của một tập hợp các máy để thực hiện công việc và đáp ứng đầy đủ các yêu cầu. Loại số liệu này theo nhiều cách chỉ là phép ngoại suy cấp cao hơn của số liệu ứng dụng và server , nhưng tài nguyên trong trường hợp này là các server đồng nhất thay vì các thành phần cấp máy. Một số dữ liệu bạn có thể cần theo dõi là:

  • Sử dụng tài nguyên tổng hợp
  • Các chỉ báo điều chỉnh tỷ lệ
  • Phiên bản bị xuống cấp

Thu thập dữ liệu tóm tắt tình trạng của các bộ sưu tập server là rất quan trọng để hiểu khả năng thực tế của hệ thống để xử lý tải và phản hồi với các thay đổi.

Chỉ số phụ thuộc bên ngoài

Các chỉ số khác mà bạn có thể cần thêm vào hệ thống của bạn là những chỉ số liên quan đến các yếu tố phụ thuộc bên ngoài. Thông thường, các dịch vụ cung cấp các trang trạng thái hoặc một API để phát hiện tình trạng ngừng hoạt động của dịch vụ, nhưng việc theo dõi các trang này trong hệ thống của bạn — cũng như các tương tác thực tế của bạn với dịch vụ — có thể giúp bạn xác định các vấn đề với nhà cung cấp có thể ảnh hưởng đến hoạt động của bạn. Một số mục có thể áp dụng để theo dõi ở cấp độ này là:

  • Tình trạng dịch vụ và tính khả dụng
  • Tỷ lệ thành công và lỗi
  • Tốc độ chạy và chi phí vận hành
  • Tài nguyên cạn kiệt

Có nhiều loại số liệu khác có thể hữu ích để thu thập. Khái niệm hóa thông tin quan trọng nhất ở các mức độ trọng tâm khác nhau có thể giúp bạn xác định các chỉ số hữu ích nhất để dự đoán hoặc xác định vấn đề. Lưu ý các chỉ số có giá trị nhất ở các cấp cao hơn có thể là tài nguyên do các lớp thấp hơn cung cấp.

Các yếu tố ảnh hưởng đến những gì bạn chọn để theo dõi

Để yên tâm, trong một thế giới lý tưởng, bạn sẽ theo dõi mọi thứ liên quan đến hệ thống của bạn ngay từ đầu trong trường hợp một ngày nào đó một mục có thể liên quan đến bạn. Tuy nhiên, có nhiều lý do tại sao điều này có thể không thực hiện được hoặc thậm chí là mong muốn.

Một số yếu tố có thể ảnh hưởng đến những gì bạn chọn để thu thập và hành động là:

  • Các nguồn lực có sẵn để theo dõi : Tùy thuộc vào nguồn nhân lực, cơ sở hạ tầng và ngân sách của bạn, bạn sẽ phải giới hạn phạm vi những gì bạn theo dõi thành những gì bạn có thể đủ khả năng thực hiện và quản lý hợp lý.
  • Độ phức tạp và mục đích của ứng dụng : Độ phức tạp của ứng dụng hoặc hệ thống của bạn có thể có tác động lớn đến những gì bạn chọn theo dõi. Các mục có thể là nhiệm vụ quan trọng đối với một số phần mềm có thể không quan trọng chút nào đối với những phần mềm khác.
  • Môi trường triển khai : Trong khi giám sát mạnh mẽ là quan trọng nhất đối với hệ thống production , hệ thống dàn dựng và thử nghiệm cũng được hưởng lợi từ việc giám sát, mặc dù có thể có sự khác biệt về mức độ nghiêm trọng, mức độ chi tiết và các chỉ số tổng thể được đo lường.
  • Khả năng số liệu hữu ích : Một trong những yếu tố quan trọng nhất ảnh hưởng đến việc một thứ gì đó được đo lường là khả năng giúp ích của nó trong tương lai.Mỗi chỉ số được theo dõi bổ sung làm tăng độ phức tạp của hệ thống và chiếm tài nguyên. Mức độ cần thiết của dữ liệu cũng có thể thay đổi theo thời gian, đòi hỏi phải đánh giá lại định kỳ.
  • Mức độ ổn định cần thiết như thế nào : Nói một cách đơn giản, sự ổn định và thời gian hoạt động có thể không phải là ưu tiên cho một số loại dự án cá nhân hoặc giai đoạn đầu.

Các yếu tố ảnh hưởng đến quyết định của bạn sẽ phụ thuộc vào các nguồn lực sẵn có của bạn, thời gian trưởng thành của dự án và mức độ dịch vụ bạn yêu cầu.

Các phẩm chất quan trọng của hệ thống đo lường, giám sát và cảnh báo

Mặc dù mỗi ứng dụng hoặc dịch vụ giám sát sẽ có điểm mạnh và điểm yếu, nhưng các tùy chọn tốt nhất thường có chung một số phẩm chất quan trọng. Dưới đây là một số đặc điểm quan trọng hơn cần tìm khi đánh giá hệ thống giám sát.

Độc lập với hầu hết các cơ sở hạ tầng khác

Một trong những yêu cầu cơ bản nhất của một hệ thống giám sát thích hợp là phải được bên ngoài các dịch vụ khác. Mặc dù đôi khi hữu ích khi group các dịch vụ lại với nhau, nhưng trách nhiệm cốt lõi của hệ thống giám sát, tính hữu ích của nó trong việc chẩn đoán sự cố và mối quan hệ của nó với các hệ thống được theo dõi nghĩa là hệ thống giám sát của bạn có thể truy cập độc lập. Hệ thống giám sát của bạn chắc chắn sẽ có một số ảnh hưởng đến hệ thống mà nó giám sát, nhưng bạn nên cố gắng giữ điều này ở mức tối thiểu để giảm tác động của việc theo dõi lên hiệu suất và tăng độ tin cậy của việc giám sát trong trường hợp có các sự cố hệ thống khác.

Đáng tin cậy và tin cậy

Một yêu cầu cơ bản khác là độ tin cậy. Vì một hệ thống giám sát chịu trách nhiệm thu thập, lưu trữ và cung cấp quyền truy cập vào thông tin có giá trị cao, điều quan trọng là bạn phải tin tưởng hệ thống đó hoạt động chính xác hàng ngày. Các chỉ số bị giảm, dịch vụ ngừng hoạt động và cảnh báo không tin cậy đều có thể có tác động có hại ngay lập tức đến khả năng quản lý cơ sở hạ tầng của bạn một cách hiệu quả. Điều này không chỉ áp dụng cho độ tin cậy của phần mềm cốt lõi mà còn cho cấu hình bạn bật, vì những sai lầm như cảnh báo không chính xác có thể dẫn đến mất niềm tin vào hệ thống.

Chế độ xem tóm tắt và chi tiết dễ sử dụng

Khả năng hiển thị tóm tắt cấp cao và yêu cầu chi tiết hơn theo yêu cầu là một tính năng quan trọng đảm bảo rằng dữ liệu chỉ số hữu ích và có thể tiêu thụ được đối với người vận hành. Thiết kế trang tổng quan trình bày dữ liệu thường được xem nhất theo cách dễ hiểu ngay lập tức có thể giúp user hiểu nhanh trạng thái hệ thống. Nhiều dạng xem console khác nhau có thể được tạo cho các chức năng công việc hoặc lĩnh vực quan tâm khác nhau.

Điều quan trọng không kém là khả năng đi sâu từ bên trong các màn hình tóm tắt để hiển thị thông tin phù hợp nhất với nhiệm vụ hiện tại. Điều chỉnh động quy mô của biểu đồ, tắt các chỉ số không cần thiết và chồng chéo thông tin từ nhiều hệ thống là điều cần thiết để làm cho công cụ hữu ích tương tác cho các cuộc điều tra hoặc phân tích nguyên nhân root rễ.

Chiến lược hiệu quả để duy trì dữ liệu lịch sử

Hệ thống giám sát hữu ích nhất khi nó có lịch sử dữ liệu phong phú có thể giúp cài đặt các xu hướng, mô hình và tính nhất quán trong các mốc thời gian dài. Mặc dù về mặt lý tưởng, tất cả thông tin sẽ được lưu giữ vô thời hạn ở mức độ chi tiết ban đầu, nhưng các hạn chế về chi phí và tài nguyên đôi khi có thể khiến việc lưu trữ dữ liệu cũ hơn ở độ phân giải giảm.Các hệ thống giám sát với tính linh hoạt để làm việc với dữ liệu ở mức độ chi tiết đầy đủ và ở định dạng được lấy mẫu cung cấp nhiều tùy chọn hơn về cách xử lý lượng dữ liệu ngày càng tăng.

Một tính năng hữu ích liên quan là khả năng dễ dàng nhập các tập dữ liệu hiện có. Nếu giảm mật độ thông tin của các chỉ số lịch sử của bạn không phải là một lựa chọn hấp dẫn, thì việc giảm tải dữ liệu cũ sang giải pháp lưu trữ dài hạn có thể là một giải pháp thay thế tốt hơn. Trong trường hợp này, bạn không cần phải duy trì dữ liệu cũ hơn trong hệ thống, nhưng bạn cần có thể reload hàng loạt khi muốn phân tích hoặc sử dụng.

Có khả năng tương quan các yếu tố từ các nguồn khác nhau

Hệ thống giám sát có trách nhiệm cung cấp cái nhìn tổng thể về toàn bộ cơ sở hạ tầng của bạn, vì vậy nó cần có khả năng hiển thị thông tin liên quan, ngay cả khi nó đến từ các hệ thống khác nhau hoặc có các đặc điểm khác nhau. Administrator phải có thể kết hợp thông tin với nhau từ các phần khác nhau trong hệ thống của họ theo ý muốn để hiểu các tương tác tiềm năng và trạng thái tổng thể trên toàn bộ cơ sở hạ tầng. Đảm bảo rằng đồng bộ hóa thời gian được cấu hình trên các hệ thống của bạn là yêu cầu để có thể tương quan dữ liệu từ các hệ thống khác nhau một cách tin cậy .

Dễ dàng bắt đầu theo dõi các chỉ số hoặc cơ sở hạ tầng mới

Để hệ thống giám sát của bạn là đại diện chính xác cho hệ thống của bạn, bạn cần có khả năng thực hiện các điều chỉnh khi máy móc và cơ sở hạ tầng thay đổi. Một lượng ma sát tối thiểu khi thêm máy móc bổ sung sẽ giúp bạn làm như vậy. Điều quan trọng không kém là khả năng dễ dàng loại bỏ các máy đã ngừng hoạt động mà không phá hủy dữ liệu được thu thập liên quan đến chúng. Hệ thống phải làm cho các hoạt động này đơn giản nhất có thể để khuyến khích cài đặt giám sát như một phần của quy trình cấp phép hoặc nghỉ hưu đối tượng.

Một khả năng liên quan quan trọng là sự dễ dàng trong đó hệ thống giám sát có thể được cài đặt để theo dõi các chỉ số hoàn toàn mới. Điều này phụ thuộc vào cách mà các chỉ số được xác định trong cấu hình giám sát cốt lõi cũng như sự đa dạng và chất lượng của các cơ chế có sẵn để gửi dữ liệu chỉ số tới hệ thống. Việc xác định chỉ số mới thường phức tạp hơn so với việc thêm máy móc bổ sung, nhưng việc giảm độ phức tạp của việc thêm hoặc điều chỉnh chỉ số sẽ giúp group của bạn đáp ứng các yêu cầu thay đổi trong một khung thời gian thích hợp.

Cảnh báo linh hoạt và mạnh mẽ

Một trong những khía cạnh quan trọng nhất của hệ thống giám sát để đánh giá là khả năng cảnh báo của nó. Bên cạnh các yêu cầu rất nghiêm ngặt về độ tin cậy, hệ thống cảnh báo cần phải đủ linh hoạt để thông báo cho người vận hành thông qua nhiều phương tiện và đủ mạnh để có thể soạn các trình kích hoạt thông báo có thể hành động và chu đáo. Nhiều hệ thống trì hoãn trách nhiệm thực sự gửi thông báo cho các bên khác bằng cách cung cấp tích hợp với các dịch vụ phân trang hoặc ứng dụng nhắn tin hiện có. Điều này giảm thiểu trách nhiệm của chức năng cảnh báo và thường cung cấp các tùy chọn linh hoạt hơn vì plugin chỉ cần sử dụng một API bên ngoài.

Tuy nhiên, phần mà hệ thống giám sát không thể trì hoãn là xác định các thông số cảnh báo.Cảnh báo được xác định dựa trên các giá trị nằm ngoài phạm vi có thể chấp nhận được, nhưng các định nghĩa có thể yêu cầu một số sắc thái để tránh cảnh báo quá mức. Ví dụ, đột biến nhất thời thường không phải là mối quan tâm, nhưng tải trọng nâng cao liên tục có thể đòi hỏi sự chú ý của người vận hành. Có thể xác định rõ ràng các tham số cho một cảnh báo là một yêu cầu để tạo ra một bộ điều kiện cảnh báo mạnh mẽ, tin cậy .

Thuật ngữ bổ sung

Khi khám phá hệ sinh thái giám sát, bạn sẽ bắt đầu gặp phải một tập hợp các thuật ngữ dùng chung thường được sử dụng để thảo luận về các đặc điểm của hệ thống giám sát, dữ liệu đang được xử lý và các đánh đổi khác nhau cần được xem xét. Mặc dù không có cách nào đầy đủ, danh sách dưới đây có thể giúp giới thiệu cho bạn một số thuật ngữ mà bạn có nhiều khả năng gặp phải nhất.

  • Khả năng quan sát : Mặc dù không được định nghĩa chặt chẽ, khả năng quan sát là một thuật ngữ chung được sử dụng để mô tả các quy trình và kỹ thuật liên quan đến việc tăng cường nhận thức và khả năng hiển thị vào hệ thống. Điều này có thể bao gồm giám sát, đo lường, trực quan hóa, truy tìm và phân tích log .
  • Tài nguyên : Trong bối cảnh hệ thống phần mềm và giám sát, tài nguyên là bất kỳ dependencies có thể sử dụng được hoặc giới hạn. Những gì được coi là tài nguyên có thể thay đổi rất nhiều dựa trên một phần của hệ thống đang được thảo luận.
  • Độ trễ : Độ trễ là thước đo thời gian cần thiết để hoàn thành một hành động. Tùy thuộc vào thành phần, đây có thể là thước đo thời gian xử lý, phản hồi hoặc di chuyển.
  • Thông lượng : Thông lượng biểu thị tốc độ xử lý hoặc truyền tải tối đa mà hệ thống có thể xử lý. Điều này có thể phụ thuộc vào thiết kế phần mềm hoặc phần cứng. Thông thường có một sự khác biệt quan trọng giữa thông lượng lý thuyết và thông lượng quan sát thực tế.
  • Hiệu suất : Hiệu suất là thước đo chung để đánh giá mức độ hiệu quả của hệ thống đang hoàn thành công việc. Hiệu suất là một thuật ngữ chung thường bao gồm các yếu tố công việc như thông lượng, độ trễ hoặc tiêu thụ tài nguyên.
  • Độ bão hòa : Độ bão hòa là thước đo dung lượng đang được sử dụng. Độ bão hòa đầy đủ cho biết rằng 100% dung lượng hiện đang được sử dụng.
  • Trực quan hoá : Trực quan hoá là quá trình trình bày dữ liệu số liệu ở một định dạng cho phép giải thích nhanh chóng, trực quan thông qua đồ thị hoặc biểu đồ.
  • Tổng hợp log : Tổng hợp log là hành động biên dịch, tổ chức và lập index các file log để cho phép quản lý, tìm kiếm và phân tích dễ dàng hơn. Mặc dù tách biệt với giám sát, log tổng hợp được dùng cùng với hệ thống giám sát để xác định nguyên nhân và điều tra các hư hỏng.
  • Điểm dữ liệu : Điểm dữ liệu là một phép đo đơn lẻ của một chỉ số.
  • Tập dữ liệu : Tập dữ liệu là tập hợp các điểm dữ liệu cho một chỉ số.
  • Đơn vị : Đơn vị là bối cảnh cho một giá trị đo được. Một đơn vị xác định độ lớn, phạm vi hoặc số lượng của phép đo để hiểu mức độ và cho phép so sánh.
  • Đơn vị phần trăm : Đơn vị phần trăm là các phép đo được thực hiện như một phần của tổng thể hữu hạn. Đơn vị phần trăm cho biết giá trị nằm trong tổng số tiền có thể có.
  • Đơn vị tỷ lệ : Đơn vị tỷ lệ biểu thị độ lớn của một số liệu trong một khoảng thời gian không đổi.
  • Chuỗi thời gian : Dữ liệu chuỗi thời gian là một chuỗi các điểm dữ liệu đại diện cho những thay đổi theo thời gian.Hầu hết các chỉ số được biểu thị tốt nhất bằng chuỗi thời gian vì các điểm dữ liệu đơn lẻ thường đại diện cho một giá trị tại một thời điểm cụ thể và chuỗi điểm kết quả được sử dụng để hiển thị các thay đổi theo thời gian.
  • Tốc độ lấy mẫu : Tốc độ lấy mẫu là phép đo tần suất một điểm dữ liệu đại diện được thu thập thay cho việc thu thập liên tục. Tỷ lệ lấy mẫu cao hơn thể hiện chính xác hơn hành vi được đo, nhưng yêu cầu nhiều tài nguyên hơn để xử lý các điểm dữ liệu bổ sung.
  • Độ phân giải : Độ phân giải đề cập đến mật độ của các điểm dữ liệu tạo nên một tập dữ liệu. Các bộ sưu tập có độ phân giải cao hơn trong cùng một khung thời gian cho thấy tỷ lệ mẫu cao hơn và chế độ xem chi tiết hơn về cùng một hành vi.
  • Công cụ đo đạc : Công cụ đo lường là khả năng theo dõi hành vi và hiệu suất của phần mềm. Điều này được thực hiện bằng cách thêm mã và cấu hình vào phần mềm để xuất dữ liệu mà sau đó hệ thống giám sát có thể sử dụng.
  • Hiệu ứng người quan sát : Hiệu ứng người quan sát là tác động của chính hệ thống giám sát đối với hiện tượng được quan sát. Vì hoạt động giám sát chiếm nhiều nguồn lực nên hoạt động đo lường hành vi và hiệu suất sẽ làm thay đổi các giá trị được tạo ra. Các hệ thống giám sát tìm cách tránh thêm chi phí không cần thiết để giảm thiểu tác động này.
  • Giám sát quá mức : Giám sát quá mức xảy ra khi số lượng chỉ số và cảnh báo được cấu hình có liên quan nghịch với mức độ hữu ích của chúng. Giám sát quá mức có thể gây căng thẳng cho cơ sở hạ tầng, khó tìm dữ liệu liên quan và khiến các group mất tin tưởng vào hệ thống giám sát và cảnh báo của họ.
  • Cảnh báo mệt mỏi : Cảnh báo mệt mỏi là phản ứng của con người về sự mất nhạy cảm do các cảnh báo thường xuyên, không tin cậy hoặc được ưu tiên không chính xác. Cảnh báo mệt mỏi có thể khiến người vận hành bỏ qua các vấn đề nghiêm trọng và thường là dấu hiệu cho thấy tình trạng cảnh báo cần được đánh giá lại.
  • Ngưỡng : Khi cảnh báo, ngưỡng là ranh giới giữa các giá trị có thể chấp nhận và không thể chấp nhận được sẽ kích hoạt cảnh báo nếu vượt quá. Thông thường, các cảnh báo được cấu hình để kích hoạt khi giá trị vượt quá ngưỡng trong một khoảng thời gian nhất định, nhằm tránh gửi cảnh báo về mức tăng đột biến tạm thời.
  • Tập dữ liệu : Lượng tử là một điểm phân chia được sử dụng để tách tập dữ liệu thành các group riêng biệt dựa trên giá trị của chúng. Các file lượng tử được sử dụng để đưa các giá trị vào " group " đại diện cho các phân đoạn của tập hợp dữ liệu. Thông thường, điều này được sử dụng để tách các giá trị chung khỏi các giá trị ngoại lai để hiểu rõ hơn điều gì tạo nên các trường hợp đại diện và cực đoan.
  • Xu hướng : Xu hướng là hướng chung mà một bộ giá trị đang chỉ ra. Xu hướng tin cậy hơn các giá trị đơn lẻ trong việc xác định trạng thái chung của thành phần đang được theo dõi.
  • Giám sát hộp trắng: Giám sát hộp trắng là một thuật ngữ được sử dụng để mô tả việc giám sát dựa trên quyền truy cập vào trạng thái bên trong của các thành phần được đo. Giám sát hộp trắng có thể cung cấp hiểu biết chi tiết về trạng thái hệ thống và hữu ích cho việc xác định nguyên nhân của sự cố.
  • Giám sát hộp đen: Giám sát hộp đen là giám sát quan sát trạng thái bên ngoài của hệ thống hoặc thành phần bằng cách chỉ xem xét các đầu vào, kết quả và hành vi của nó. Loại giám sát này có thể phù hợp chặt chẽ với trải nghiệm của user về hệ thống, nhưng ít hữu ích hơn cho việc tìm ra nguyên nhân của sự cố.

Kết luận

Thu thập số liệu, thành phần giám sát và cấu hình cảnh báo là một phần thiết yếu của việc cài đặt và quản lý cơ sở hạ tầng production . Có thể biết những gì đang xảy ra trong hệ thống của bạn, những tài nguyên nào cần chú ý và những gì đang gây ra sự chậm lại hoặc ngừng hoạt động là vô giá. Mặc dù thiết kế và triển khai cài đặt giám sát của bạn có thể là một thách thức, nhưng đây là khoản đầu tư có thể giúp group của bạn sắp xếp thứ tự ưu tiên cho công việc của họ, giao trách nhiệm giám sát cho một hệ thống tự động và hiểu tác động của cơ sở hạ tầng và phần mềm đối với sự ổn định và hiệu suất của bạn .


Tags:

Các tin liên quan