Quản lí quy trình làm sạch dữ liệu
► Chất lượng dữ liệu là gì? ► Tổng quan về làm sạch dữ liệu ► Quản lí quy trình làm sạch dữ liệu ► Làm giàu dữ liệu LẬP HỒ SƠ (Profiling) Hồ sơ hóa dữ liệu là tiến trình của phân tích dữ liệu nhằm xác thực tính chính xác, nhất quán và tính duy nhất của dữ liệu. Quá trình này được thực hiện bằng cách sử dụng một số kỹ thuật phân tích thống kê để chiết xuất thông tin tóm tắt về dữ liệu, từ đó cung cấp cái nhìn sâu, chi tiết đối với chất lượng dữ liệu. Dưới đây là một số phân tích được thực hiện: Phân tích đầy đủ(Completeness analysis): Được sử dụng để kiểm tra tính đúng của dữ liệu. Tập trung phân tích từng thuộc tính dữ liệu, xác định các giá trị bị thiếu hoặc null từ đó kiểm soát các vấn đề tiềm ẩn về dữ liệu. Các câu hỏi như tần suất dữ liệu được phân bổ so với tần suất dữ liệu trắng hoặc null có thể giúp ước lượng được các vấn đề sảy ra với cơ sở dữ liệu đích của chúng ta. Phân tích phân tán(Distribution analysis): Kỹ thuật này tốt để xác định sự phân tá...