Thứ tư, 28/09/2016 | 00:00 GMT+7

Giới thiệu về các khái niệm và thuật ngữ dữ liệu lớn

Dữ liệu lớn là một thuật ngữ chung để chỉ các chiến lược và công nghệ phi truyền thống cần thiết để thu thập, tổ chức, xử lý và thu thập thông tin chi tiết từ các tập dữ liệu lớn. Mặc dù vấn đề làm việc với dữ liệu vượt quá khả năng tính toán hoặc khả năng lưu trữ của một máy tính không phải là mới, nhưng sức lan tỏa, quy mô và giá trị của loại máy tính này đã mở rộng rất nhiều trong những năm gần đây.

Trong bài viết này, ta sẽ nói về dữ liệu lớn ở cấp độ cơ bản và xác định các khái niệm phổ biến mà bạn có thể gặp khi nghiên cứu chủ đề này. Ta cũng sẽ xem xét cấp cao một số quy trình và công nghệ hiện đang được sử dụng trong không gian này.

Dữ liệu lớn là gì?

Khó định nghĩa chính xác về “dữ liệu lớn” vì các dự án, nhà cung cấp, người hành nghề và chuyên gia kinh doanh sử dụng nó khá khác nhau. Với suy nghĩ đó, nói chung, dữ liệu lớn là:

  • bộ dữ liệu lớn
  • danh mục các chiến lược và công nghệ tính toán được sử dụng để xử lý các tập dữ liệu lớn

Trong ngữ cảnh này, “tập dữ liệu lớn” nghĩa là tập dữ liệu quá lớn để xử lý hoặc lưu trữ một cách hợp lý bằng công cụ truyền thống hoặc trên một máy tính duy nhất. Điều này nghĩa là quy mô chung của các bộ dữ liệu lớn liên tục thay đổi và có thể thay đổi đáng kể giữa các tổ chức.

Tại sao các hệ thống dữ liệu lớn lại khác nhau?

Các yêu cầu cơ bản để làm việc với dữ liệu lớn cũng giống như các yêu cầu để làm việc với tập dữ liệu ở bất kỳ kích thước nào. Tuy nhiên, quy mô lớn, tốc độ nhập và xử lý cũng như các đặc tính của dữ liệu phải được xử lý ở mỗi giai đoạn của quá trình đưa ra những thách thức mới đáng kể khi thiết kế các giải pháp. Mục tiêu của hầu hết các hệ thống dữ liệu lớn là hiển thị thông tin chi tiết và kết nối từ dung lượng lớn dữ liệu không đồng nhất mà nếu sử dụng các phương pháp thông thường không thể thực hiện được.

Năm 2001, Doug Laney của Gartner lần đầu tiên trình bày thứ được gọi là “ba chữ V của dữ liệu lớn” để mô tả một số đặc điểm khiến dữ liệu lớn khác với các xử lý dữ liệu khác:

Âm lượng

Quy mô tuyệt đối của thông tin được xử lý giúp xác định hệ thống dữ liệu lớn. Các bộ dữ liệu này có thể là các đơn hàng có độ lớn lớn hơn các bộ dữ liệu truyền thống, đòi hỏi nhiều suy nghĩ hơn ở mỗi giai đoạn của vòng đời xử lý và lưu trữ.

Thông thường, vì các yêu cầu công việc vượt quá khả năng của một máy tính, điều này trở thành một thách thức đối với việc tổng hợp, phân bổ và điều phối tài nguyên từ các group máy tính. Quản lý cụm và các thuật toán có khả năng chia nhiệm vụ thành nhiều phần nhỏ hơn ngày càng trở nên quan trọng.

Vận tốc

Một cách khác mà dữ liệu lớn khác biệt đáng kể so với các hệ thống dữ liệu khác là tốc độ thông tin di chuyển trong hệ thống. Dữ liệu thường xuyên chảy vào hệ thống từ nhiều nguồn và thường được mong đợi sẽ được xử lý theo thời gian thực để có được thông tin chi tiết và cập nhật hiểu biết hiện tại về hệ thống.

Sự tập trung vào phản hồi gần như tức thì này đã khiến nhiều người thực hành dữ liệu lớn rời xa phương pháp tiếp cận theo hướng hàng loạt và tiến gần hơn đến hệ thống phát trực tuyến thời gian thực. Dữ liệu liên tục được bổ sung, tổng hợp, xử lý và phân tích để theo kịp dòng thông tin mới và sớm đưa ra thông tin có giá trị khi nó có liên quan nhất.Những ý tưởng này yêu cầu hệ thống mạnh mẽ với các thành phần sẵn có cao để bảo vệ chống lại các lỗi dọc theo đường ống dữ liệu.

Đa dạng

Các vấn đề về dữ liệu lớn thường là duy nhất vì phạm vi rộng của cả nguồn được xử lý và chất lượng tương đối của chúng.

Dữ liệu có thể được nhập từ các hệ thống nội bộ như log ứng dụng và server , từ nguồn cấp dữ liệu mạng xã hội và các API bên ngoài khác, từ cảm biến thiết bị vật lý và từ các nhà cung cấp khác. Dữ liệu lớn tìm cách xử lý dữ liệu hữu ích tiềm năng dù dữ liệu đó đến từ đâu bằng cách hợp nhất tất cả thông tin vào một hệ thống duy nhất.

Các định dạng và loại phương tiện cũng có thể thay đổi đáng kể. Đa phương tiện như hình ảnh, file video và bản ghi âm được nhập cùng với file văn bản, log có cấu trúc, v.v. Trong khi các hệ thống xử lý dữ liệu truyền thống hơn có thể mong đợi dữ liệu đi vào đường dẫn đã được gắn nhãn, định dạng và tổ chức, các hệ thống dữ liệu lớn thường chấp nhận và lưu trữ dữ liệu gần với trạng thái thô của nó. Lý tưởng nhất là bất kỳ chuyển đổi hoặc thay đổi nào đối với dữ liệu thô sẽ xảy ra trong bộ nhớ tại thời điểm xử lý.

Các đặc điểm khác

Nhiều cá nhân và tổ chức khác nhau đã đề xuất mở rộng ba chữ V ban đầu, mặc dù những đề xuất này có xu hướng mô tả những thách thức hơn là chất lượng của dữ liệu lớn. Một số bổ sung phổ biến là:

  • Tính xác thực : Sự đa dạng của các nguồn và sự phức tạp của quá trình xử lý có thể dẫn đến những thách thức trong việc đánh giá chất lượng của dữ liệu (và do đó, chất lượng của kết quả phân tích)
  • Tính thay đổi : Sự thay đổi trong dữ liệu dẫn đến sự thay đổi lớn về chất lượng. Có thể cần các tài nguyên bổ sung để xác định, xử lý hoặc lọc dữ liệu chất lượng thấp để làm cho dữ liệu hữu ích hơn.
  • Giá trị : Thách thức cuối cùng của dữ liệu lớn là cung cấp giá trị. Đôi khi, các hệ thống và quy trình tại chỗ đủ phức tạp để sử dụng dữ liệu và extract giá trị thực tế có thể trở nên khó khăn.

Chu kỳ sống của dữ liệu lớn trông như thế nào?

Vậy thực tế dữ liệu được xử lý như thế nào khi xử lý một hệ thống dữ liệu lớn? Mặc dù các cách tiếp cận triển khai khác nhau, nhưng có một số điểm chung trong các chiến lược và phần mềm mà ta có thể nói chung. Mặc dù các bước được trình bày dưới đây có thể không đúng trong mọi trường hợp, nhưng chúng được sử dụng rộng rãi.

Các loại hoạt động chung liên quan đến xử lý dữ liệu lớn là:

  • Chuyển dữ liệu vào hệ thống
  • Duy trì dữ liệu trong bộ nhớ
  • Tính toán và phân tích dữ liệu
  • Hình dung kết quả

Trước khi xem xét chi tiết bốn loại quy trình làm việc này, ta sẽ dành một chút thời gian để nói về tính toán phân cụm , một chiến lược quan trọng được hầu hết các giải pháp dữ liệu lớn sử dụng. Cài đặt một cụm máy tính thường là nền tảng cho công nghệ được sử dụng trong mỗi giai đoạn của vòng đời.

Máy tính theo cụm

Do đặc tính của dữ liệu lớn, các máy tính cá nhân thường không đủ khả năng xử lý dữ liệu ở hầu hết các giai đoạn. Để giải quyết tốt hơn nhu cầu lưu trữ và tính toán cao của dữ liệu lớn, các cụm máy tính phù hợp hơn.

Phần mềm phân cụm dữ liệu lớn kết hợp tài nguyên của nhiều máy nhỏ hơn, tìm cách cung cấp một số lợi ích:

  • Tổng hợp tài nguyên : Kết hợp không gian lưu trữ có sẵn để chứa dữ liệu là một lợi ích rõ ràng, nhưng việc gộp CPU và bộ nhớ cũng cực kỳ quan trọng.Xử lý tập dữ liệu lớn đòi hỏi một lượng lớn của cả ba tài nguyên này.
  • Tính sẵn sàng cao : Các cụm có thể cung cấp các mức độ chịu lỗi khác nhau và đảm bảo tính khả dụng để ngăn các lỗi phần cứng hoặc phần mềm ảnh hưởng đến việc truy cập vào dữ liệu và xử lý. Điều này ngày càng trở nên quan trọng khi ta tiếp tục nhấn mạnh tầm quan trọng của phân tích thời gian thực.
  • Khả năng mở rộng dễ dàng : Các cụm giúp dễ dàng mở rộng quy mô theo chiều ngang bằng cách thêm các máy bổ sung vào group . Điều này nghĩa là hệ thống có thể phản ứng với những thay đổi về yêu cầu tài nguyên mà không cần mở rộng tài nguyên vật lý trên máy.

Việc sử dụng các cụm yêu cầu một giải pháp để quản lý tư cách thành viên cụm, điều phối chia sẻ tài nguyên và lên lịch công việc thực tế trên các node riêng lẻ. Thành viên cụm và phân bổ tài nguyên có thể được xử lý bởi phần mềm như Hadoop's YARN (viết tắt của Yet Another Resource Negotiator) hoặc Apache Mesos .

Cụm máy tính tập hợp thường hoạt động như một nền tảng mà các phần mềm khác giao diện với để xử lý dữ liệu. Các máy liên quan đến cụm máy tính cũng thường liên quan đến việc quản lý hệ thống lưu trữ phân tán, điều này ta sẽ nói đến khi ta thảo luận về tính ổn định của dữ liệu.

Chuyển dữ liệu vào hệ thống

Nhập dữ liệu là quá trình lấy dữ liệu thô và thêm vào hệ thống. Độ phức tạp của thao tác này phụ thuộc nhiều vào định dạng và chất lượng của nguồn dữ liệu và dữ liệu ở trạng thái mong muốn trước khi xử lý.

Một cách để dữ liệu có thể được thêm vào hệ thống dữ liệu lớn là các công cụ nhập chuyên dụng. Các công nghệ như Apache Sqoop có thể lấy dữ liệu hiện có từ database quan hệ và thêm nó vào hệ thống dữ liệu lớn. Tương tự, Apache FlumeApache Chukwa là các dự án được thiết kế để tổng hợp và nhập log ứng dụng và server . Các hệ thống xếp hàng như Apache Kafka cũng được dùng làm giao diện giữa các trình tạo dữ liệu khác nhau và hệ thống dữ liệu lớn. Các khuôn khổ nhập như Gobblin có thể giúp tổng hợp và chuẩn hóa kết quả kết quả của các công cụ này ở cuối quy trình nhập.

Trong quá trình nhập, một số cấp độ phân tích, sắp xếp và ghi nhãn thường diễn ra. Quá trình này đôi khi được gọi là ETL, viết tắt của extract , biến đổi và tải. Trong khi thuật ngữ này thường dùng để chỉ các quy trình lưu trữ dữ liệu kế thừa, một số khái niệm tương tự áp dụng cho dữ liệu đi vào hệ thống dữ liệu lớn. Các thao tác điển hình có thể bao gồm sửa đổi dữ liệu đến để định dạng, phân loại và gắn nhãn dữ liệu, lọc ra dữ liệu không cần thiết hoặc dữ liệu xấu hoặc có khả năng xác thực rằng dữ liệu đó tuân theo các yêu cầu nhất định.

Với những khả năng đó, lý tưởng nhất là dữ liệu đã thu thập nên được giữ ở dạng thô nhất có thể để có tính linh hoạt cao hơn trong quá trình hoạt động.

Duy trì dữ liệu trong bộ nhớ

Các quy trình nhập thường giao dữ liệu cho các thành phần quản lý bộ nhớ, để dữ liệu có thể được lưu vào đĩa một cách tin cậy . Mặc dù điều này có vẻ như là một hoạt động đơn giản, nhưng data volumes đến, các yêu cầu về tính khả dụng và lớp tính toán phân tán làm cho các hệ thống lưu trữ phức tạp hơn trở nên cần thiết.

Điều này thường nghĩa là tận dụng một hệ thống file phân tán để lưu trữ dữ liệu thô.Các giải pháp như hệ thống file HDFS của Apache Hadoop cho phép ghi số lượng lớn dữ liệu qua nhiều nút trong cụm. Điều này đảm bảo dữ liệu có thể được truy cập bằng tài nguyên máy tính, có thể được tải vào RAM của cụm cho các hoạt động trong bộ nhớ và có thể xử lý các lỗi thành phần một cách duyên dáng. Các hệ thống file phân tán khác được dùng thay thế cho HDFS bao gồm CephGlusterFS .

Dữ liệu cũng có thể được nhập vào các hệ thống phân tán khác để truy cập có cấu trúc hơn. Database phân tán, đặc biệt là database NoSQL, rất thích hợp cho role này vì chúng thường được thiết kế với các cân nhắc về khả năng chịu lỗi giống nhau và có thể xử lý dữ liệu không đồng nhất. Có nhiều loại database phân tán khác nhau để lựa chọn tùy thuộc vào cách bạn muốn tổ chức và trình bày dữ liệu. Để tìm hiểu thêm về một số tùy chọn và mục đích chúng phục vụ tốt nhất, hãy đọc hướng dẫn so sánh NoSQL của ta .

Tính toán và phân tích dữ liệu

Sau khi có dữ liệu, hệ thống có thể bắt đầu xử lý dữ liệu để hiển thị thông tin thực tế. Lớp tính toán có lẽ là phần đa dạng nhất của hệ thống vì các yêu cầu và cách tiếp cận tốt nhất có thể thay đổi đáng kể tùy thuộc vào loại thông tin chi tiết mong muốn. Dữ liệu thường được xử lý lặp lại, lặp đi lặp lại bởi một công cụ duy nhất hoặc bằng cách sử dụng một số công cụ để hiển thị các loại thông tin chi tiết khác nhau.

Xử lý hàng loạt là một phương pháp tính toán trên một tập dữ liệu lớn. Quá trình này bao gồm việc chia nhỏ công việc thành các phần nhỏ hơn, lập lịch trình cho từng phần trên một máy riêng lẻ, cấu hình lại dữ liệu dựa trên các kết quả trung gian, sau đó tính toán và tập hợp kết quả cuối cùng. Các bước này thường được gọi riêng lẻ là tách, ánh xạ, xáo trộn, giảm và lắp ráp, hoặc gọi chung là thuật toán giảm bản đồ phân tán. Đây là chiến lược được sử dụng bởi MapReduce của Apache Hadoop . Xử lý hàng loạt hữu ích nhất khi xử lý các bộ dữ liệu rất lớn đòi hỏi tính toán khá nhiều.

Trong khi xử lý hàng loạt phù hợp với một số loại dữ liệu và tính toán nhất định, các dung lượng công việc khác yêu cầu xử lý thời gian thực nhiều hơn. Xử lý thời gian thực yêu cầu thông tin được xử lý và sẵn sàng ngay lập tức và yêu cầu hệ thống phản ứng khi có thông tin mới. Một cách để đạt được điều này là xử lý stream , hoạt động trên một stream dữ liệu liên tục bao gồm các mục riêng lẻ. Một đặc điểm chung khác của bộ xử lý thời gian thực là tính toán trong bộ nhớ, hoạt động với các biểu diễn dữ liệu trong bộ nhớ của cụm để tránh phải ghi lại vào đĩa.

Apache Storm , Apache FlinkApache Spark cung cấp các cách khác nhau để đạt được quá trình xử lý thời gian thực hoặc gần thời gian thực. Mỗi công nghệ này đều có những đánh đổi, có thể ảnh hưởng đến cách tiếp cận nào là tốt nhất cho bất kỳ vấn đề riêng lẻ nào. Nói chung, xử lý thời gian thực là phù hợp nhất để phân tích các phần nhỏ dữ liệu đang thay đổi hoặc được thêm vào hệ thống một cách nhanh chóng.

Các ví dụ trên đại diện cho các khuôn khổ tính toán. Tuy nhiên, có nhiều cách khác để tính toán hoặc phân tích dữ liệu trong một hệ thống dữ liệu lớn. Các công cụ này thường cắm vào các khuôn khổ trên và cung cấp các giao diện bổ sung để tương tác với các lớp bên dưới.Ví dụ: Apache Hive cung cấp giao diện repodata cho Hadoop, Apache Pig cung cấp giao diện truy vấn cấp cao, trong khi các tương tác giống SQL với dữ liệu có thể đạt được với các dự án như Apache Drill , Apache Impala , Apache Spark SQLPresto . Đối với học máy, các dự án như Apache SystemML , Apache MahoutMLlib của Apache Spark có thể hữu ích. Đối với lập trình phân tích thẳng có sự hỗ trợ rộng rãi trong hệ sinh thái dữ liệu lớn, cả RPython đều là những lựa chọn phổ biến.

Hình dung kết quả

Do loại thông tin được xử lý trong hệ thống dữ liệu lớn, việc nhận biết các xu hướng hoặc thay đổi trong dữ liệu theo thời gian thường quan trọng hơn bản thân các giá trị. Trực quan hóa dữ liệu là một trong những cách hữu ích nhất để phát hiện xu hướng và hiểu được một số lượng lớn các điểm dữ liệu.

Xử lý thời gian thực thường được sử dụng để trực quan hóa các chỉ số ứng dụng và server . Dữ liệu thay đổi thường xuyên và các khoảng chênh lệch lớn trong các chỉ số thường chỉ ra những tác động đáng kể đến sức khỏe của hệ thống hoặc tổ chức. Trong những trường hợp này, các dự án như Prometheus có thể hữu ích để xử lý các stream dữ liệu dưới dạng database chuỗi thời gian và trực quan hóa thông tin đó.

Một cách phổ biến để trực quan hóa dữ liệu là với Elastic Stack , trước đây được gọi là ELK stack. Bao gồm Logstash để thu thập dữ liệu, Elasticsearch để lập index dữ liệu và Kibana để hiển thị, ngăn xếp Elastic được dùng với các hệ thống dữ liệu lớn để giao diện trực quan với các kết quả tính toán hoặc số liệu thô. Một ngăn xếp tương tự có thể đạt được bằng cách sử dụng Apache Solr để lập index và một nhánh Kibana có tên là Banana để hiển thị. Ngăn xếp được tạo ra bởi những thứ này được gọi là Silk .

Một công nghệ trực quan khác thường được sử dụng cho công việc khoa học dữ liệu tương tác là “sổ ghi chép” dữ liệu. Các dự án này cho phép khám phá tương tác và trực quan hóa dữ liệu ở định dạng có lợi cho việc chia sẻ, trình bày hoặc cộng tác. Các ví dụ phổ biến về kiểu giao diện trực quan này là Jupyter NotebookApache Zeppelin .

Bảng chú giải thuật ngữ dữ liệu lớn

Mặc dù ta đã cố gắng xác định các khái niệm như ta đã sử dụng chúng trong suốt hướng dẫn, nhưng đôi khi sẽ hữu ích nếu bạn có các thuật ngữ chuyên ngành ở một nơi:

  • Dữ liệu lớn : Dữ liệu lớn là một thuật ngữ chung cho các tập dữ liệu không thể được xử lý một cách hợp lý bởi các máy tính hoặc công cụ truyền thống do dung lượng , tốc độ và sự đa dạng của chúng. Thuật ngữ này cũng thường được áp dụng cho các công nghệ và chiến lược để làm việc với loại dữ liệu này.
  • Xử lý hàng loạt : Xử lý hàng loạt là một chiến lược tính toán liên quan đến việc xử lý dữ liệu trong các tập hợp lớn. Điều này thường lý tưởng cho công việc không nhạy cảm về thời gian hoạt động trên các bộ dữ liệu rất lớn. Quá trình được bắt đầu và một lúc sau, kết quả sẽ được hệ thống trả về.
  • Tính toán theo cụm : Tính toán theo cụm là thực hành tập hợp các tài nguyên của nhiều máy và quản lý khả năng chung của chúng để hoàn thành nhiệm vụ. Các cụm máy tính yêu cầu một lớp quản lý cụm xử lý giao tiếp giữa các node riêng lẻ và điều phối việc phân công công việc.
  • Hồ dữ liệu : Hồ dữ liệu là một thuật ngữ để chỉ một repository lớn dữ liệu được thu thập ở trạng thái tương đối thô.Điều này thường được sử dụng để chỉ dữ liệu được thu thập trong một hệ thống dữ liệu lớn có thể không có cấu trúc và thường xuyên thay đổi. Điều này khác với các repodata (được định nghĩa bên dưới).
  • Khai phá dữ liệu : Khai phá dữ liệu là một thuật ngữ rộng để chỉ việc cố gắng tìm ra các mẫu trong các bộ dữ liệu lớn. Đó là quá trình cố gắng tinh chỉnh một dung lượng lớn dữ liệu thành một tập hợp thông tin dễ hiểu và mount hơn.
  • Kho dữ liệu : Kho dữ liệu là repodata lớn, có thứ tự, được dùng để phân tích và báo cáo. Ngược lại với hồ dữ liệu , repodata bao gồm dữ liệu đã được làm sạch, tích hợp với các nguồn khác và nói chung là có thứ tự tốt. Kho dữ liệu thường được nói đến liên quan đến dữ liệu lớn, nhưng thường là thành phần của các hệ thống thông thường hơn.
  • ETL : ETL là viết tắt của extract , biến đổi và tải. Nó đề cập đến quá trình lấy dữ liệu thô và chuẩn bị cho việc sử dụng hệ thống. Theo truyền thống, đây là một quy trình liên kết với các repodata , nhưng các đặc điểm của quy trình này cũng được tìm thấy trong các đường ống dẫn nhập của các hệ thống dữ liệu lớn.
  • Hadoop : Hadoop là một dự án Apache là dự án open-souce ban đầu thành công trong dữ liệu lớn. Nó bao gồm một hệ thống file phân tán được gọi là HDFS, với bộ lập lịch tài nguyên và quản lý cụm ở trên cùng được gọi là YARN (Yet Another Resource Negotiator). Khả năng xử lý hàng loạt được cung cấp bởi công cụ tính toán MapReduce. Các hệ thống tính toán và phân tích khác có thể được chạy cùng với MapReduce trong các triển khai Hadoop hiện đại.
  • Điện toán trong bộ nhớ : Điện toán trong bộ nhớ là một chiến lược liên quan đến việc di chuyển các tập dữ liệu đang hoạt động hoàn toàn trong bộ nhớ chung của một cụm. Các phép tính trung gian không được ghi vào đĩa và thay vào đó được lưu trong bộ nhớ. Điều này mang lại cho các hệ thống điện toán trong bộ nhớ như Apache Spark lợi thế lớn về tốc độ so với các hệ thống liên kết I / O như MapReduce của Hadoop.
  • Học máy : Học máy là nghiên cứu và thực hành thiết kế các hệ thống có thể học hỏi, điều chỉnh và cải tiến dựa trên dữ liệu được cung cấp cho chúng. Điều này thường liên quan đến việc triển khai các thuật toán dự đoán và thống kê có thể liên tục khắc phục hành vi và thông tin chi tiết “đúng” khi có nhiều dữ liệu chảy qua hệ thống.
  • Giảm bản đồ (thuật toán dữ liệu lớn) : Giảm bản đồ (thuật toán dữ liệu lớn, không phải công cụ tính toán MapReduce của Hadoop) là một thuật toán để lập lịch làm việc trên một cụm máy tính. Quá trình này bao gồm việc chia nhỏ vấn đề đã cài đặt (ánh xạ nó đến các node khác nhau) và tính toán chúng để tạo ra các kết quả trung gian, xáo trộn các kết quả để căn chỉnh như các tập hợp, sau đó giảm kết quả bằng cách xuất ra một giá trị duy nhất cho mỗi tập hợp.
  • NoSQL : NoSQL là một thuật ngữ rộng dùng để chỉ các database được thiết kế bên ngoài mô hình quan hệ truyền thống. Database NoSQL có những đánh đổi khác nhau so với database quan hệ, nhưng thường rất phù hợp với các hệ thống dữ liệu lớn do tính linh hoạt và kiến trúc phân tán ưu tiên thường xuyên.
  • Xử lý stream : Xử lý stream là thực hành tính toán trên các mục dữ liệu riêng lẻ khi chúng di chuyển qua một hệ thống. Điều này cho phép phân tích thời gian thực về dữ liệu được cung cấp cho hệ thống và hữu ích cho các hoạt động nhạy cảm với thời gian bằng cách sử dụng các chỉ số tốc độ cao.

Kết luận

Dữ liệu lớn là một chủ đề rộng lớn, phát triển nhanh chóng. Mặc dù nó không phù hợp với tất cả các loại máy tính, nhưng nhiều tổ chức đang chuyển sang dữ liệu lớn cho một số loại tải công việc nhất định và sử dụng nó để bổ sung cho các công cụ phân tích và kinh doanh hiện có của họ. Hệ thống dữ liệu lớn phù hợp duy nhất để làm nổi bật các mẫu khó phát hiện và cung cấp cái nhìn sâu sắc về các hành vi không thể tìm thấy thông qua các phương tiện thông thường. Bằng cách triển khai chính xác các hệ thống xử lý dữ liệu lớn, các tổ chức có thể thu được giá trị đáng kinh ngạc từ dữ liệu đã có sẵn.


Tags:

Các tin liên quan