La qualità dei dati viene valutata in base a diverse dimensioni, che possono variare a seconda della fonte delle informazioni. Queste dimensioni vengono utilizzate per categorizzare le metriche della qualità dei dati: Completezza: rappresenta la quantità di dati utilizzabili o completi. Un'alta percentuale di valori mancanti (missing values) può portare a un'analisi distorta o fuorviante se i dati non sono rappresentativi di un campione tipico. Unicità: questo aspetto riguarda la quantità di dati duplicati in un set di dati. Ad esempio, quando si esaminano i dati dei clienti, ci si dovrebbe aspettare che ogni cliente abbia un ID cliente univoco. Validità: questa dimensione misura la quantità di dati che corrispondono al formato richiesto per qualsiasi business rules. La formattazione include in genere i metadati, ad esempio tipi di dati validi, intervalli, modelli e altro ancora. Tempestività: questa dimensione si riferisce alla disponibilità dei dati in un arco di tempo previsto. Ad esempio, i clienti si aspettano di ricevere un numero d'ordine subito dopo aver effettuato un acquisto e che i dati devono essere generati in tempo reale. Accuratezza: questa dimensione si riferisce alla correttezza dei valori dei dati in base alla "fonte affidabile" concordata. Poiché possono esserci più fonti che riportano la stessa metrica, è importante designare una fonte di dati primaria; altre fonti di dati possono essere utilizzate per confermare l'accuratezza di quella primaria. Ad esempio, gli strumenti possono verificare che ogni fonte di dati abbia una tendenza nella stessa direzione per rafforzare la fiducia nell'accuratezza dei dati. Coerenza: questa dimensione valuta i record di dati provenienti da due serie di dati diverse. Come accennato in precedenza, è possibile identificare più fonti per generare rapporti su una singola metrica. L'utilizzo di diverse fonti per verificare tendenze e comportamenti coerenti dei dati consente alle organizzazioni di affidarsi a tutte le informazioni fruibili derivanti dalle loro analisi. Questa logica può essere applicata anche alle relazioni tra dati. Ad esempio, il numero di dipendenti in un reparto non deve superare il numero totale di dipendenti in un'azienda. Idoneità allo scopo: infine, l'idoneità allo scopo aiuta a garantire che l'asset di dati soddisfi un'esigenza aziendale. Questa dimensione può essere difficile da valutare, in particolare con i nuovi set di dati emergenti. Queste metriche aiutano i team a condurre valutazioni della qualità dei dati all'interno delle loro organizzazioni per valutare il livello di informazione e utilità dei dati per un determinato scopo. (责任编辑:) |