Bài đăng

Đang hiển thị bài đăng từ Tháng 9, 2018

Quản lí quy trình làm sạch dữ liệu

►  Chất lượng dữ liệu là gì? ►  Tổng quan về làm sạch dữ liệu ► Quản lí quy trình làm sạch dữ liệu ► Làm giàu dữ liệu LẬP HỒ SƠ (Profiling) Hồ sơ hóa dữ liệu là tiến trình của phân tích dữ liệu nhằm xác thực tính chính xác, nhất quán và tính duy nhất của dữ liệu. Quá trình này được thực hiện bằng cách sử dụng một số kỹ thuật phân tích thống kê để chiết xuất thông tin tóm tắt về dữ liệu, từ đó cung cấp cái nhìn sâu, chi tiết đối với chất lượng dữ liệu. Dưới đây là một số phân tích được thực hiện: Phân tích đầy đủ(Completeness analysis): Được sử dụng để kiểm tra tính đúng của dữ liệu. Tập trung phân tích từng thuộc tính dữ liệu, xác định các giá trị bị thiếu hoặc null từ đó kiểm soát các vấn đề tiềm ẩn về dữ liệu. Các câu hỏi như tần suất dữ liệu được phân bổ so với tần suất dữ liệu trắng hoặc null có thể giúp ước lượng được các vấn đề sảy ra với cơ sở dữ liệu đích của chúng ta. Phân tích phân tán(Distribution analysis): Kỹ thuật này tốt để xác định sự phân tán giá trị của

Tổng quan làm sạch dữ liệu

►  Chất lượng dữ liệu là gì? ► Tổng quan về làm sạch dữ liệu ►  Quản lí quy trình làm sạch dữ liệu ► Làm giàu dữ liệu TỔNG QUAN Làm sạch là một quá trình điều chỉnh dữ liệu để đáp ứng các yêu cầu chất lượng dựa trên các rule nghiệp vụ của hệ thống. Chúng ta có thể thay đổi titlecase của một lá thư để hỗ trợ tìm kiếm hoặc thay thế bất kỳ phần nào của một chuỗi mà vẫn giữ nguyên giá trị của dữ liệu. Dưới đây là một số hoạt động chung thường được sử dụng cho 'làm sạch': Thêm hoặc xóa dấu chấm câu. Mở rộng hoặc làm rõ từ viết tắt (ví dụ: NC thành Bắc Carolina). Case-folding: Chuyển đổi tất cả các ký tự trong đoạn tài liệu thành một kiểu, thành tất cả chữ hoa hoặc tất cả chữ thường, để tăng tốc độ so sánh trong quá trình lập chỉ mục. Thay thế một phần của chuỗi. Rà soát valid dữ liệu bằng cách tạo các biểu thức khái quát thông qua tổ hợp và so sánh các giá trị(dữ liệu) khác nhau. Sử dụng biểu thức chính quy để trích xuất thuật ngữ từ văn bản và giảm các từ trong

Quản lí chất lượng dữ liệu

► Chất lượng dữ liệu là gì? ► Tổng quan về làm sạch dữ liệu ► Quản lí quy trình làm sạch dữ liệu ► Làm giàu dữ liệu Dữ liệu mô tả trạng thái của tổ chức, cũng giống nhưng vai trò của nó trong 1 hệ thống thông tin. Dựa trên báo cáo phân tích dữ liệu, nhà quản lí đưa ra quyết định cho các hoạt động kinh doanh của tổ chức. Có 4 loại dữ liệu chính: Cơ sở dữ liệu nội bộ  : Đây là nguồn dữ liệu có liên quan và đáng tin cậy nhất của tổ chức. Chúng thường có định dạng có cấu trúc và thường ghi lại dữ liệu từ các ứng dụng nội bộ khác nhau như ERP (Lập kế hoạch nguồn lực doanh nghiệp), CRM (Quản lý quan hệ khách hàng) và HCM (Quản lý nguồn nhân lực). Flat files  : Tệp là một trong những nguồn dữ liệu được sử dụng nhiều nhất cho một tổ chức. Tệp phát sinh từ các nguồn bên ngoài tổ chức hoặc phát sinh khi không có cơ chế thích hợp để tổng hợp từ các nguồn dữ liệu nội bộ. Ví dụ: Một nhà cung cấp có thể định kỳ gửi các tệp tới cơ sở dữ liệu nội bộ của tổ chức. Trong trường hợp hai hoặc

MySQL hay PostgreSQL, db nào bây giờ?

DB nào nhẹ, và hiệu quả? MySQL query với 10M records mất thời gian lâu hơn PostgreSQL. Đối với RDBMS open source thì MariaDB dùng có vẻ tốt hơn, giống MySQL nhưng MariaDB có  perf tốt hơn (mariadb forked từ mysql), sau đó là PostgreSQL. PostgreSQL admin giờ cũng có web portal nên thuận tiện chả kém gì MySQL . Đặc biệt function của PostgreSQL viết bằng C nên perf khá cao, khả năng lưu trữ large objects cũng khá tốt.  Đối với NoSQL thì document base nên dùng MongoDB, với realtime thì dùng InfluxDB. Có thể dùng Cassandra vì nó có kiến trúc ring và customize đươc write/read perf nhưng operation của nó quá cao nên đó là điểm hạn chế.  Db cho việc search nhiều thì dùng Elasticsearch nhưng hạn chế đó là write big data của Elasticsearch cực chậm. Đối với timeseries, InfluxDB tốt hơn cả vì khả năng write perf (tham khảo https://www.influxdata.com/.../influxdb-is-27x-faster-vs...) . Qua sử dụng nhiều loại db cho timeseries rồi nhưng cuối cùng Raycad.Sun đã chọn InfluxDB , nó c