Quản lí quy trình làm sạch dữ liệu

► Chất lượng dữ liệu là gì?
► Tổng quan về làm sạch dữ liệu
► Quản lí quy trình làm sạch dữ liệu
► Làm giàu dữ liệu
LẬP HỒ SƠ (Profiling)
Hồ sơ hóa dữ liệu là tiến trình của phân tích dữ liệu nhằm xác thực tính chính xác, nhất quán và tính duy nhất của dữ liệu. Quá trình này được thực hiện bằng cách sử dụng một số kỹ thuật phân tích thống kê để chiết xuất thông tin tóm tắt về dữ liệu, từ đó cung cấp cái nhìn sâu, chi tiết đối với chất lượng dữ liệu. Dưới đây là một số phân tích được thực hiện:
  • Phân tích đầy đủ(Completeness analysis): Được sử dụng để kiểm tra tính đúng của dữ liệu. Tập trung phân tích từng thuộc tính dữ liệu, xác định các giá trị bị thiếu hoặc null từ đó kiểm soát các vấn đề tiềm ẩn về dữ liệu. Các câu hỏi như tần suất dữ liệu được phân bổ so với tần suất dữ liệu trắng hoặc null có thể giúp ước lượng được các vấn đề sảy ra với cơ sở dữ liệu đích của chúng ta.
  • Phân tích phân tán(Distribution analysis): Kỹ thuật này tốt để xác định sự phân tán giá trị của một thuộc tính. Nó giúp chúng ta định vị các ngoại lệ có thể bóp méo, hiểu sai tổng thể phân bố dữ liệu. Các ngoại lệ là các giá trị của một thuộc tính, nó khác với phần lớn các giá trị trong cột cụ thể được phân tích.
  • Phân tích đặc thù(Uniqueness analysis): Giúp xác định nhóm bản ghi có đặc điểm duy nhất, bởi một thuộc tính hoặc một nhóm thuộc tính. Điều này hỗ trợ trong việc xác định bản ghi trùng lặp và cũng như định vị các liên kết tiềm năng giữa các tập dữ liệu.
  • Phân tích thống kê(Statistical analysis): Phân tích phạm vi có thể được thực hiện trên các loại dữ liệu số và ngày để xác định phạm vi giá trị thích hợp. Tính thống kê tóm tắt khác nhau cho tập dữ liệu (chẳng hạn như giá trị tối thiểu và tối đa của thuộc tính, giá trị trung bình, mô hình, độ lệch chuẩn, 5 giá trị phổi biến và năm giá trị max và 5 giá trị min) có thể cung cấp thông tin chi tiết về chất lượng của tập dữ liệu.
Tất cả các hành động này này là một phần của các công cụ hồ sơ hóa quy trình phân tích dữ liệu, các chức năng là một phần của các kỹ thuật dưới đây:
  • Column profiling: Kỹ thuật lược tả giúp chúng ta phân tích sự phân bố dữ liệu của các cột bao gồm phân tích ngoại lệ, cũng như phân tích thống kê và tính duy nhất. Một số công cụ cũng giúp đề xuất các ràng buộc có thể được thêm vào cột.
  • Mid-stream profiling: Như tên cho thấy, việc lược tả dữ liệu có thể được thực hiện đối với dữ liệu trong luồng dữ liệu(đang trao đổi) mà không cần tạo mapping với dữ liệu đã lưu trữ.
  • Join profiling: Kỹ thuật Join profiling được sử dụng để xác định chồng chéo dữ liệu giữa hai hoặc nhiều tập dữ liệu và phân tích tính toàn vẹn thông qua tham chiếu giữa các bộ dữ liệu, ví dụ: xác thực khóa chính và khóa ngoài giữa hai hoặc nhiều điều kiện join.
GIÁM SÁT (Monitoring)
Giám sát dữ liệu là một quá trình liên tục truy cập và đánh giá dữ liệu để đảm bảo dữ liệu phù hợp với mục đích khai thác. Nó giúp theo dõi các hành vi dữ liệu bất thườngn hoặc phi chuẩn và làm thay đổi chất lượng dữ liệu. Giám sát dữ liệu được thực hiện để đảm bảo rằng tất cả dữ liệu hiện có và dữ liệu đến đáp ứng các ràng buộc nghiệp vụ. Thông qua giám sát dữ liệu đang diễn ra, nó cung cấp khả năng đảm bảo rằng chúng ta có điều kiện thuận lợi nhất đáp các yêu cầu thông tin và các tiêu chuẩn dữ liệu chất lượng cao đang được duy trì tốt. Nếu chúng ta không thể giám sát dữ liệu, chúng ta không thể quản lý dữ liệu đó.
Bước đầu tiên trong giám sát thường là thu thập dữ liệu. Dựa trên dữ liệu, các thông số khác nhau được thiết lập để được theo dõi. Ví dụ: "không thể có giá trị null lớn hơn 20% trong thuộc tính tiền lương của nhân viên" có thể là thông số được thiết lập để được theo dõi.
Một trong những kỹ thuật khác là tạo đường cơ sở, định chuẩn hiệu xuất và so sánh kết quả thu thập theo thời gian. Giá trị của thông số được gọi là ngưỡng dữ liệu.
Khi dữ liệu được thu thập, nó được so sánh với giá trị ngưỡng của chỉ số để đảm bảo số liệu đáp ứng tiêu chí thiết lập. Nếu dữ liệu không đáp ứng tiêu chí giá trị ngưỡng, điều đó cho thấy dữ liệu yếu và không đáp ứng các yêu cầu về chất lượng dữ liệu.

Bài viết này tham khảo từ Refcardz được viết bởi Sibanjan Das (Oracle Product co-development team)

Nhận xét

Bài đăng phổ biến từ blog này

Open Source CMS Ecommerce in .Net Core

What is an Application Specialist?

Sharding, Snowflake Instagram trong bài toán đối soát dữ liệu