Quản lí chất lượng dữ liệu

Chất lượng dữ liệu là gì?
Tổng quan về làm sạch dữ liệu
Quản lí quy trình làm sạch dữ liệu
► Làm giàu dữ liệu
Dữ liệu mô tả trạng thái của tổ chức, cũng giống nhưng vai trò của nó trong 1 hệ thống thông tin. Dựa trên báo cáo phân tích dữ liệu, nhà quản lí đưa ra quyết định cho các hoạt động kinh doanh của tổ chức.
Có 4 loại dữ liệu chính:
  • Cơ sở dữ liệu nội bộ : Đây là nguồn dữ liệu có liên quan và đáng tin cậy nhất của tổ chức. Chúng thường có định dạng có cấu trúc và thường ghi lại dữ liệu từ các ứng dụng nội bộ khác nhau như ERP (Lập kế hoạch nguồn lực doanh nghiệp), CRM (Quản lý quan hệ khách hàng) và HCM (Quản lý nguồn nhân lực).
  • Flat files : Tệp là một trong những nguồn dữ liệu được sử dụng nhiều nhất cho một tổ chức. Tệp phát sinh từ các nguồn bên ngoài tổ chức hoặc phát sinh khi không có cơ chế thích hợp để tổng hợp từ các nguồn dữ liệu nội bộ. Ví dụ:
    • Một nhà cung cấp có thể định kỳ gửi các tệp tới cơ sở dữ liệu nội bộ của tổ chức.
    • Trong trường hợp hai hoặc nhiều ứng dụng không thể trao đổi dữ liệu với nhau(cơ sở dữ liệu 2 bên không thể trực tiếp tương tác qua dblink hoặc không cùng db zone), các tệp sẽ hoạt động như một phương tiện để trao đổi dữ liệu.
Hầu hết thời gian, dữ liệu trong một tệp được coi là không đáng tin cậy và một số kiểm tra phải được thực hiện để xác minh và xác thực dữ liệu. Trong thực tế đối với các ứng dụng có sự trao đổi thông tin, viêc nâng cấp ứng dụng có thể phát sinh các lỗi đối với các tệp được trao đổi. Thậm chí, bản thân tệp có thể bị thay đổi trên đường truyền.
  • Web Service và API : Các dịch vụ Web là một phương tiện được ưu tiên cao cho giao tiếp và trao đổi dữ liệu giữa các ứng dụng khác nhau. Chúng cung cấp một chuẩn giao tiếp và trao đổi dữ liệu. Chúng đáng tin cậy và việc xác thực cũng như xử lý sự cố dữ liệu có thể được nhúng dễ dàng.
  • Các nguồn khác như dữ liệu từ tạp chí truyền thông, bài đăng blog, âm thanh và video đang dần trở thành nguồn thông tin quan trọng cần được lưu trữ và phân tích.
Tuy nhiên, không phải tất cả dữ liệu đều hữu ích hoặc phục vụ một nhu cầu nhất định. Ví dụ: giả sử tôi đang tìm mua nhà. Tuy nhiên, tôi nhận được dữ liệu cung cấp các xu hướng lịch sử mua nhà từ một khu vực khác với nơi tôi đang xem xét. Điều này không phù hợp với nhu cầu thông tin của tôi. Dữ liệu sẽ không phục vụ mục đích trừ khi thông tin đủ tốt.
Dữ liệu phù hợp với mục đích sử dụng được gọi là dữ liệu hữu ích. Dữ liệu xấu, bẩn ngăn cản, gây nhiễu quá trình phân tích. Tìm một tập dữ liệu đáng tin cậy ngay lập tức là rất khó khăn. Chúng ta phải xây dựng và nuôi dưỡng dữ liệu, duy trì dữ liệu sạch, có ích. Trong bài này, chúng tôi sẽ thảo luận về các kỹ thuật khác nhau để quản lý, theo dõi và cải thiện chất lượng dữ liệu trong một tổ chức.

ĐỊNH NGHĨA

Dữ liệu chất lượng cao có 3 thuộc tính cơ bản sau:
  • Phù hợp để sử dụng – chính xác(đã được kiểm tra và duy trì kiểm tra liên tục) và đầy đủ(mô tả đầy đủ vòng đời của thực thể, với các hình thái tồn tại của nó).
  • Mô tả đúng về thế giới thực mà nó đề cập đến(vd dữ liệu sai: Dữ liệu thống kê về hệ sinh thái lạc đà tại đảo quốc philippin).
  • Có thể sử dụng(không phải là bức tranh hoặc 1 đoạn thơ), nhất quán(dữ liệu từ các nguồn khác nhau phải giống nhau) và dễ tiếp cận(có cấu trúc và được phân loại).

CÔNG CỤ ĐỊNH LƯỢNG

Căn cứ trên các thuộc tính cơ bản, chất lượng dữ liệu có thể được đo dựa trên các tiêu chí cụ thể sau:
  • Đầy đủ : Có dữ liệu bị thiếu hoặc không sử dụng được không?
  • Sự phù hợp : Dữ liệu có tuân theo định dạng chuẩn không?
  • Tính nhất quán : Các giá trị dữ liệu có cung cấp thông tin nhất quán hoặc cung cấp thông tin mâu thuẫn không?
  • Độ chính xác : Dữ liệu có chính xác hoặc lỗi thời không?
  • Trùng lặp : Các bản ghi hoặc thuộc tính dữ liệu được lặp đi lặp lại khi chúng không được lặp lại?
  • Tính toàn vẹn : Dữ liệu có thể tham chiếu hoặc thiếu các ràng buộc không?
Tất cả các tiêu chí này phải được rà soát và lập lịch kiểm tra định kỳ. Quá trình rà soát phải được lập hồ sơ lưu trữ và quản lí như là một quy trình trong chính sách quản lí chất lượng dữ liệu.

HÀNH ĐỘNG

Để duy trì 1 hệ thống dữ liệu chất lượng, giải pháp thực hiện phải dựa trên hai hướng nhìn chính, nhằm xác định chất lượng dữ liệu:

Tính có ích của dữ liệu đối với mục tiêu khai thác

Tính có ích có nghĩa là dữ liệu có thể đóng góp thông tin liên quan cần thiết cho một tác vụ khai thác cụ thể.
Ví dụ: Dữ liệu về độ tuổi hoặc vị trí của khách hàng có thể đóng góp tốt cho chương trình giữ chân khách hàng cho ngành hàng tiêu dùng. Tuy nhiên, dữ liệu về thời tiết hoặc chất lượng đất của khách hàng có thể không sử dụng được. Măc dù vậy, thời tiết hoặc dữ liệu chất lượng đất này có thể hữu ích cho khách hàng với mục tiêu là trồng hoa.
Vì vậy, mức độ có ích thực tế của dữ liệu tạo ra 1 đối ứng(ảnh hưởng 2 chiều) với quyết định phương án thực hiện / tầm nhìn giải pháp cho tác vụ cụ thể, dữ liệu cần phải là mô tả cụ thể, chính xác hiện trạng nghiệp vụ thực tế và phù hợp với mục tiêu khai thác.
Khi dữ liệu có ý nghĩa tương tự nhau có mặt tại nhiều vị trí trong cơ sở dữ liệu, hoặc tại nhiều cơ sở dữ liệu và kho dữ liệu khác nhau, chúng cần được đồng bộ hóa, chuẩn hóa để có cùng nhất quán biểu diễn thông tin.

Số lượng dữ liệu

Số lượng dữ liệu nghĩa là tổng lượng dữ liệu cần thiết cho một tác vụ phân tích. Việc ước tính và định lượng dữ liệu là tiền đề quan trong cho chiến lược quản lí chất lượng dữ liệu, nó là cơ sở cho 1 hệ thống khỏe mạnh. Chúng ta có quá ít hoặc quá nhiều dữ liệu cần thiết không? Tổng số mẫu dữ liệu cần có(nature) cho tác vụ khảo sát và khai thác? Những hạn chế khi không có nhiều dữ liệu là gì? Đây là những câu hỏi có thể giúp chúng ta định hướng, quyết định các công cụ và kỹ thuật cần thiết để quản lí và tăng chất lượng dữ liệu.
Kiểm tra thủ công dữ liệu để đảm bảo nó phù hợp và có ích, là cách tốt nhất để đảm bảo chất lượng dữ liệu. Cách này khả thi khi số lượng dữ liệu đủ nhỏ. Tuy nhiên, thông thường với khối lượng dữ liệu chúng ta hiện có, việc này trở nên nặng nhọc và nhiều rủi ro nếu chỉ dựa vào quy trình thủ công. Để loại bỏ lỗi của con người và làm giảm dữ liệu không chính xác, chúng ta phải sử dụng công nghệ và các kỹ thuật khác nhau. Chúng ta cần phải làm theo một chiến lược chất lượng dữ liệu cụ thể, để đảm bảo dữ liệu có chất lượng cao. Có các giai đoạn khác nhau cần phải thực hiện nhằm cung cấp khả năng quản lý, theo dõi và cải thiện chất lượng dữ liệu như được nêu dưới đây:
  • Parsing and Standardization: Một quy trình trích xuất các phần từ dữ liệu để xác thực nếu nó tuân theo một format cụ thể. Nếu nó không phù hợp format, dữ liệu được chuẩn hóa, định dạng lại để nhất quán.
  • Generalized cleansing: Một quá trình để loại bỏ các lỗi dữ liệu và mâu thuẫn trong dữ liệu.
  • Matching: Quy trình so sánh, định danh dữ liệu hoặc đồng bộ(làm khớp) các thực thể liên quan, tương tự nhau, nằm ở hai hoặc nhiều bộ dữ liệu.
  • Profiling: Một quy trình thực hiện hồ sơ hóa quá trình phân tích nội dung dữ liệu để xác thực tính chính xác, nhất quán và tính duy nhất của dữ liệu.
  • Monitoring: Một quy trình liên tục giám sát dữ liệu, vận hành các quy trình quản lí chất lượng, thực hiện truy cập và đánh giá dữ liệu để đảm bảo dữ liệu phù hợp và có ích với mục đích khai thác.
  • Enrichment: Quy trình này được cố ý đặt cuối cùng, nguyên do không hẳn tất cả các giải pháp quản lí chất lượng dữ liệu đều cần làm giàu dữ liệu. Quá trình này nâng cao chất lượng dữ liệu bằng cách tổ hợp, bổ xung dữ liệu sử dụng dữ liệu tham chiếu từ các nguồn nội bộ và các nguồn bên ngoài khác nhau.
Bài viết này tham khảo từ Refcardz được viết bởi Sibanjan Das (Oracle Product co-development team)

Nhận xét

Bài đăng phổ biến từ blog này

Open Source CMS Ecommerce in .Net Core

What is an Application Specialist?

Sharding, Snowflake Instagram trong bài toán đối soát dữ liệu