20  Оцінки якості даних


author: Юрій Клебан


Матеріали розділу описують інформацію про виміри оцінки якості даних, підходи до визначення та обробки пропущених значень, а також розглядаються способи боротьби зі статистичними викидами.

20.1 Що таке валідація даних?

Валідація даних відноситься до процесу забезпечення точності та якості даних. Він реалізується шляхом вбудовування кількох перевірок у систему або звітування для забезпечення логічної узгодженості введених і збережених даних.


Якість даних залежить від очищення та коригування даних, які відсутні, некоректні, недійсні або нечитабельні. Для забезпечення достовірності даних важливо зрозуміти ключові аспекти якості даних, щоб оцінити, наскільки дані погані/хороші.

На перший погляд, очевидно, що перетворення даних до якісних полягає в очищенні поганих даних – даних, які відсутні, неправильні або якимось чином недійсні. Але щоб переконатися, що дані заслуговують довіри, важливо розуміти ключові виміри якості даних, щоб оцінити, наскільки дані є «поганими».

Окремі компанії мають внутрішні документи, що визначають виміри оцінки якості даних та порядок його проведення - Data Validation Framework або Data Quality Framework.

Коли говорять про якість даних, то мається на увазі їх оцінка у кількох вимірах. Розглянемо коротко ці виміри:


20.2 Правильність / (Accuracy)

Правильність — це ступінь, до якого дані правильно відображають реальний об’єкт АБО описувану подію.

Приклади: - [x] Реальною вартістю є ціна продажу одиниці товару. - [x] Адреса співробітника в базі даних співробітників є справжньою адресою.

Запитання, які ви можете задати собі:

Ці проблеми можуть вплинути на результатати аналітичних звітів, наприклад, неправильні середні значення певних показників.


20.3 Повнота / (Completeness)

Повнота визначається як очікувана всебічність. Дані можуть бути повними, навіть якщо додаткові дані відсутні. Поки дані відповідають очікуванням, вони вважаються повними.

Наприклад, ім’я та прізвище замовника є обов’язковими, але прізвище необов’язково; тому запис можна вважати повним, навіть якщо прізвища не існує.

Питання, які ви можете задати собі:


20.4 Узгодженість / Consistency

Узгодженість означає, що дані в усіх системах/таблицях відображають однакову інформацію та синхронізовані між собою.

Приклади: - [x] Статус бізнес-підрозділу “закритий”, але є продажі для цього підрозділу. - [x] Статус працівника “звільнено”, але статус випалати заробіної плати містить суму відмінну від 0 за той самий період. - [x] Зафіксовано, що клієнт має у банку депозити, але у даних про депозити записи по клієнту відсутні.

Запитання, які ви можете поставити собі:


20.5 Відповідність / Conformity

Відповідність означає, що дані відповідають набору стандартних визначень даних, як-от тип даних, розмір і формат. Наприклад, дата народження клієнта у форматі dd/mm/yyyy або відстань у км числом 100, а не записом 100км.

Запитання, які ви можете задати собі: - [x] Чи відповідають значення даних зазначеним форматам? - [x] Якщо так, то чи всі значення даних відповідають цим форматам?

Важливо підтримувати відповідність конкретним форматам.


20.6 Цілісність / Integrity

Цілісність означає достовірність даних у взаємозв’язках і гарантує, що всі дані в базі даних можна відстежити та з’єднати з іншими даними.

Наприклад, у базі даних клієнтів має бути дійсний клієнт, адреси та відношення/зв’язки між ними. Якщо є дані про зв’язок адреси без клієнта, то ці дані недійсні й вважаються загубленим записом.

Запитайте себе: - [x] Чи є якісь дані без важливих зв’язків?

Неможливість пов’язати записи разом може призвести до дублювання у ваших системах.


20.7 Своєчасність / Timeliness

Своєчасність показує, чи є інформація доступною, коли вона очікується та потрібна. Своєчасність даних дуже важлива.

Це відображається в: - [x] Компанії, які зобов’язані публікувати свої квартальні результати протягом певного періоду часу - [x] Обслуговування клієнтів надає клієнтам актуальну інформацію - [x] Кредитна система перевіряє активність рахунку кредитної картки в режимі реального часу

Своєчасність залежить від очікувань користувача. Доступність даних в Інтернеті може знадобитися для системи розподілу номерів у сфері готельного бізнесу.

Як бачите, якість даних є важливим питанням, яке слід враховувати, починаючи від етапу визначення цілей проекту, аж до впровадження, обслуговування та використання готово рішення у виробничі процесі підприємства.


20.8 Набори даних

  1. https://github.com/kleban/r-book-published/tree/main/datasets/untitled.csv
  2. https://github.com/kleban/r-book-published/tree/main/datasets/badtitled.csv
  3. https://github.com/kleban/r-book-published/tree/main/datasets/cleaned_titled.csv
  4. https://github.com/kleban/r-book-published/tree/main/datasets/cleaned_titled2.csv
  5. https://github.com/kleban/r-book-published/tree/main/datasets/river_eco.csv

20.9 Використані та додаткові джерела

  1. KPMG Virtual Internship
  2. An introduction to data cleaning with R / Edwin de Jonge, Mark van der Loo, 2013
  3. Anomaly Detection in R
  4. K-nearest Neighbor: The maths behind it, how it works and an example
  5. Quantile. Wikipedia