Data science

Lược sử về chất lượng dữ liệu

Thuật ngữ “Chất lượng dữ liệu” chủ yếu tập trung vào mức độ chính xác của dữ liệu, nhưng cũng bao gồm các phẩm chất khác như khả năng truy cập và tính hữu ích. Một số dữ liệu hoàn toàn không chính xác, do đó, sẽ thúc đẩy việc ra quyết định tồi. Một số tổ chức thúc đẩy kiểm tra thực tế và Quản trị dữ liệu, và do đó, đưa ra các quyết định mang lại lợi thế cho họ. Mục đích của việc đảm bảo dữ liệu chính xác là hỗ trợ việc ra quyết định tốt trong cả ngắn hạn (phản hồi của khách hàng trong thời gian thực) và dài hạn (thông tin kinh doanh). Dữ liệu được coi là có chất lượng cao khi nó thể hiện chính xác thực tế. Với ý nghĩ này, các giám đốc điều hành và những người ra quyết định phải xem xét chất lượng dữ liệu của họ và sự mâu thuẫn tiềm ẩn có thể dẫn đến những thông tin chi tiết về kinh doanh không đáng tin cậy. Ví dụ: khi làm việc với phân tích dự đoán, các dự báo phải dựa trên dữ liệu chính xác và đầy đủ. Khi dữ liệu không chính xác và đầy đủ, các dự báo sẽ chỉ có giá trị giới hạn và các giả định sai có thể gây thiệt hại nghiêm trọng cho tổ chức. Các vấn đề cần xem xét trong Chất lượng dữ liệu bao gồm: Khả năng truy cậpCó đầy đủ Tính năng Những hành vi này sẽ là một phần của chương trình Quản trị dữ liệu tốt. Nguồn gốc của chất lượng dữ liệu Vào năm 1865, Giáo sư Richard Millar Devens đã thiết lập thuật ngữ “kinh doanh thông minh” (viết tắt là BI) trong cuốn Cyclopædia về Giai thoại Thương mại và Kinh doanh của mình. Ông sử dụng thuật ngữ này để mô tả cách Ngài Henry Furnese thu thập thông tin, và sau đó hành động dựa trên thông tin đó trước khi đối thủ của ông thực hiện, để tăng lợi nhuận của mình. Rất lâu sau đó, trong 1958, Hans Peter Luhn đã viết một bài báo mô tả tiềm năng thu thập BI bằng công nghệ. Phiên bản hiện đại của Business Intelligence sử dụng công nghệ để thu thập và phân tích dữ liệu, đồng thời chuyển nó thành thông tin hữu ích. Thông tin này sau đó được sử dụng “trước cuộc thi” để mang lại lợi thế đáng kể. Về cơ bản, thông tin kinh doanh hiện đại tập trung vào việc sử dụng công nghệ để đưa ra các quyết định sáng suốt một cách nhanh chóng và hiệu quả. Trong 1968, những người có kỹ năng cực kỳ chuyên sâu là những người duy nhất có thể chuyển dữ liệu có sẵn thành thông tin hữu ích. Vào thời điểm đó, dữ liệu lấy từ nhiều nguồn thường được lưu trữ trong các silo. Nghiên cứu loại dữ liệu này thường liên quan đến việc làm việc với thông tin bị phân mảnh, rời rạc và tạo ra các báo cáo có vấn đề. Edgar Codd đã nhận ra vấn đề này và đưa ra giải pháp trong 1970, giải pháp đã thay đổi cách mọi người nghĩ về cơ sở dữ liệu. Giải pháp của ông đề xuất tạo ra một “mô hình cơ sở dữ liệu quan hệ”, mô hình này đã trở nên phổ biến rộng rãi và được áp dụng trên toàn thế giới. Hệ thống quản lý cơ sở dữ liệu Hệ thống hỗ trợ quyết định (DSS) được mô tả là hệ quản trị cơ sở dữ liệu sớm nhất. Nhiều nhà sử học đã gợi ý Business Intelligence hiện đại được thành lập trên cơ sở dữ liệu DSS. Trong 1980, số lượng nhà cung cấp BI đã tăng lên đáng kể. Các nhà kinh doanh đã khám phá ra giá trị của Dữ liệu lớn và Trí tuệ kinh doanh hiện đại. Nhiều loại công cụ đã được tạo ra và phát triển trong thời gian này, tập trung vào các mục tiêu truy cập và tổ chức dữ liệu theo những cách hiệu quả hơn và đơn giản hơn. Hệ thống thông tin điều hành, OLAP và kho dữ liệu là những ví dụ về một số công cụ được phát triển. Tầm quan trọng của Chất lượng Dữ liệu đã giúp khơi dậy các cơ sở dữ liệu quan hệ phát triển. Chất lượng dữ liệu như một dịch vụ (DQaaS) Trong 1986, trước khi lưu trữ dữ liệu rẻ tiền, các máy tính lớn lớn đã được duy trì có chứa tên và dữ liệu địa chỉ được sử dụng cho các dịch vụ chuyển phát. Điều này cho phép thư được chuyển đến đích thích hợp của nó. Các máy tính lớn này được thiết kế để sửa lỗi chính tả và lỗi phổ biến trong tên và địa chỉ, đồng thời theo dõi những khách hàng đã chết, chuyển nhà, đi tù, ly hôn hoặc kết hôn. Đây cũng là thời điểm các cơ quan chính phủ cung cấp dữ liệu bưu chính cho “các công ty dịch vụ” để tham khảo chéo với cơ quan đăng ký NCOA (Thay đổi địa chỉ quốc gia). Quyết định này đã tiết kiệm cho một số công ty lớn hàng triệu đô la, vì việc chỉnh sửa thủ công dữ liệu khách hàng không còn cần thiết và tránh được chi phí bưu phí lãng phí. Nỗ lực ban đầu này nhằm cải thiện độ chính xác / chất lượng dữ liệu ban đầu được bán như một dịch vụ. Internet cung cấp một lượng lớn dữ liệu vào cuối 1980 và sớm 1990 s, nhiều tổ chức bắt đầu nhận ra giá trị của dữ liệu và khai thác dữ liệu. Các CEO và những người ra quyết định ngày càng phụ thuộc vào phân tích dữ liệu. Ngoài ra, các quy trình kinh doanh đã tạo ra lượng dữ liệu ngày càng lớn từ các bộ phận khác nhau cho các mục đích khác nhau. Sau đó, trên hết, Internet trở nên phổ biến. Trong 1990, internet trở nên cực kỳ phổ biến và các cơ sở dữ liệu quan hệ thuộc sở hữu của các tập đoàn lớn không thể theo kịp với luồng dữ liệu khổng lồ có sẵn để họ. Những vấn đề này được kết hợp bởi sự đa dạng của các loại dữ liệu và dữ liệu phi quan hệ được phát triển trong thời gian này. Cơ sở dữ liệu phi quan hệ, thường được gọi là NoSQL, ra đời như một giải pháp. Cơ sở dữ liệu NoSQL có thể dịch nhiều loại dữ liệu khác nhau một cách nhanh chóng và tránh sự cứng nhắc của cơ sở dữ liệu SQL bằng cách loại bỏ lưu trữ “có tổ chức” và cung cấp tính linh hoạt hơn. Cơ sở dữ liệu phi quan hệ được phát triển để đáp ứng dữ liệu internet, nhu cầu xử lý dữ liệu phi cấu trúc và mong muốn xử lý nhanh hơn. Các mô hình NoSQL dựa trên hệ thống cơ sở dữ liệu phân tán, sử dụng nhiều máy tính. Các hệ thống không quan hệ nhanh hơn, tổ chức dữ liệu bằng cách tiếp cận đặc biệt và xử lý một lượng đáng kể các kiểu dữ liệu khác nhau. Đối với nghiên cứu chung, NoSQL là lựa chọn tốt hơn khi làm việc với các tập dữ liệu lớn, phi cấu trúc (dữ liệu lớn) hơn là cơ sở dữ liệu quan hệ vì tốc độ và tính linh hoạt của chúng. Thuật ngữ “dữ liệu lớn” đã trở thành chính thức trong 2005. Ba điều cơ bản để kiểm soát chất lượng dữ liệu Hiện tại có ba phương pháp cơ bản để đạt được Chất lượng dữ liệu thực. Chúng giúp đáng kể trong việc cung cấp dữ liệu chính xác có thể được sử dụng để thu thập thông tin kinh doanh hữu ích và đưa ra các quyết định đúng đắn. Các phương pháp tiếp cận để phát triển và duy trì Chất lượng Dữ liệu là: Lập hồ sơ dữ liệu là quá trình đánh giá tính toàn vẹn và tình trạng của dữ liệu. Nó thường được công nhận là bước đầu tiên quan trọng trong việc kiểm soát Chất lượng Dữ liệu của tổ chức. Quy trình này nhấn mạnh tính minh bạch của dữ liệu, bao gồm siêu dữ liệu và nguồn. Data Stewardship quản lý vòng đời dữ liệu từ khi quản lý đến khi ngừng hoạt động. Quản lý dữ liệu xác định và duy trì các mô hình dữ liệu, ghi lại dữ liệu, xóa dữ liệu và xác định các quy tắc và chính sách của nó. Các bước này giúp cung cấp dữ liệu chất lượng cao cho cả ứng dụng và người dùng cuối. Chuẩn bị dữ liệu bao gồm việc làm sạch, chuẩn hóa, làm giàu và / hoặc chuyển đổi dữ liệu. Các công cụ chuẩn bị dữ liệu cung cấp quyền truy cập tự phục vụ hiện đang được sử dụng để hoàn thành các nhiệm vụ mà trước đây các chuyên gia dữ liệu thường làm. Quản trị dữ liệu Theo 2010, khối lượng và độ phức tạp của dữ liệu tiếp tục được mở rộng và để đáp lại, các doanh nghiệp trở nên tinh vi hơn trong việc sử dụng dữ liệu. Họ đã phát triển các phương pháp kết hợp, thao tác, lưu trữ và trình bày thông tin. Đây là sự khởi đầu của Quản trị dữ liệu. Các công ty có tư duy tiến bộ đã thành lập các tổ chức quản trị để duy trì dữ liệu của doanh nghiệp và phát triển các quy trình hợp tác để sử dụng dữ liệu cần thiết cho hoạt động kinh doanh. Nhưng quan trọng hơn, họ đã phát triển “cách tiếp cận lấy chính sách làm trung tâm” đối với các tiêu chuẩn Chất lượng dữ liệu, mô hình dữ liệu và bảo mật dữ liệu. Những nhóm ban đầu này đã bỏ qua tầm nhìn về các kho lưu trữ ngày càng lớn và phức tạp hơn, và tập trung vào các chính sách xác định, triển khai và thực thi các quy trình thông minh cho dữ liệu. Một quy trình giúp cho việc lưu trữ cùng một loại dữ liệu ở nhiều nơi được chấp nhận, miễn là nó tuân thủ các chính sách giống nhau. Do đó, các doanh nghiệp ngày càng chịu nhiều trách nhiệm hơn đối với nội dung dữ liệu của họ. Dữ liệu hiện được công nhận rộng rãi như một tài sản quý giá của doanh nghiệp. Quản trị dữ liệu bao gồm việc quản lý tổng thể dữ liệu về khả năng sử dụng, tính toàn vẹn, tính khả dụng và bảo mật. Một chương trình Quản trị Dữ liệu tốt đã tổ chức một cơ quan quản lý gồm những cá nhân có đầy đủ thông tin và phát triển các phản ứng cho các tình huống khác nhau. Các hành vi Quản trị dữ liệu phải được xác định rõ ràng để giải thích hiệu quả cách dữ liệu sẽ được xử lý, lưu trữ, sao lưu và nói chung là được bảo vệ khỏi sai lầm, trộm cắp và tấn công. Các thủ tục phải được phát triển để xác định cách dữ liệu được sử dụng và nhân sự nào. Hơn nữa, phải áp dụng một loạt các thủ tục kiểm soát và kiểm toán để đảm bảo tuân thủ liên tục các chính sách dữ liệu nội bộ và các quy định bên ngoài của chính phủ, đồng thời đảm bảo dữ liệu được sử dụng một cách nhất quán trên nhiều ứng dụng của doanh nghiệp. Học máy đã trở thành một cách phổ biến để thực hiện Quản trị dữ liệu. Quản trị dữ liệu phản ánh chiến lược của tổ chức, với các nhóm Quản trị dữ liệu được tổ chức để thực hiện các chính sách và thủ tục mới khi xử lý dữ liệu. Các nhóm này có thể bao gồm người quản lý dữ liệu và người quản lý doanh nghiệp, cũng như khách hàng sử dụng dịch vụ của tổ chức. Các hiệp hội cam kết thúc đẩy các thực tiễn tốt nhất liên quan đến các quy trình Quản trị dữ liệu bao gồm DAMA International (Hiệp hội Quản lý Dữ liệu), Viện Quản trị Dữ liệu và Tổ chức Chuyên gia Quản trị Dữ liệu. Công cụ Chất lượng Dữ liệu Các công cụ Chất lượng Dữ liệu độc lập thường sẽ cung cấp cách khắc phục cho một tình huống, nhưng sẽ không giải quyết được nhiều vấn đề trong một thời gian dài. Việc tìm kiếm và sử dụng kết hợp các công cụ Chất lượng Dữ liệu phù hợp là rất quan trọng để tối đa hóa Chất lượng Dữ liệu và hiệu quả chung của tổ chức. Việc tìm kiếm các công cụ Chất lượng Dữ liệu thích hợp nhất có thể là một thách thức. Việc chọn các công cụ Chất lượng dữ liệu thông minh và hướng theo quy trình làm việc, tốt nhất là với các kiểm soát chất lượng được nhúng, sẽ thúc đẩy hệ thống tin cậy “mở rộng quy mô”. Sự đồng thuận chung là một công cụ Chất lượng Dữ liệu đơn lẻ, độc lập sẽ không cung cấp kết quả tối ưu. Hình ảnh được sử dụng theo giấy phép từ Shutterstock.com

  • Trang chủ
  • CRM
  • Email doanh nghiệp
  • Email marketing
  • Marketing News
  • Marketing tổng thể
  • SEO
  • Thiết kế Website
  • Web Hosting
  • Chatbot
  • Data science
  • Back to top button