Há processos de qualidade de dados no Big Data da sua empresa?

Há processos de qualidade de dados no Big Data da sua empresa?

18/01/2018 Big Data Data Governance Data Quality 0

Como citado no artigo sobre Big Data Governance: http://tarks.com.br/info/big-data-governanca/, a Governança de dados é imprescindível para garantia da confiabilidade dos ambientes de Big Data. A confiabilidade nas análises extraídas dos ambientes de Big Data provém da confiança nos dados contidos nesses ambientes e só poderá ser obtida se houver meios para rastrear a origem da informação, identificar os processos e transformações aplicadas, garantir privacidade dos dados, para contextualizar os dados com o Negócio da empresa e, principalmente, a confiabilidade dependerá do nível de qualidade dos dados utilizados para alimentar o ambiente.

No momento em que os processos de captura, integração e ingestão dos dados estão implantados, os ambientes de Big Data rapidamente passam a processar grande volume de dados e os dados com problemas de qualidade são também rapidamente inseridos e afetam os resultados e análises extraídos do ambiente. Com resultados e análises defeituosas, as áreas de Negócios começam a perder a confiança em todo o ambiente e os investimentos financeiros, pessoas e tempo empregados para desenvolvê-lo são colocados em risco. Para mitigar, processos consolidados de Qualidade de Dados devem ser implantados junto aos processos de ingestão no ambiente Big Data.

A Qualidade de Dados é a etapa da Governança de Dados focada em garantir que haja padronização dos dados, enriquecimento e melhoria dos dados recebidos, filtro de dados com problemas, priorização dos dados e origens e composição de registros mais completos, acompanhamento do nível de qualidade das origens.

A padronização dos dados pode ser feita em dados como Nomes, Datas, Endereços, Emails, Telefones e permitirá que os dados provenientes das mais diversas origens sejam sempre ingeridos no ambiente seguindo os padrões estabelecidos e necessários a empresa.

Os processos de enriquecimento de dados permitem que sejam feitas melhorias nos dados recebidos das origens, pode-se por exemplo incluir a informação de Bairro em um endereço, incluir precisamente o CEP, adicionar uma informação sobre a situação do CPF ou CNPJ, incluir informação sobre risco de crédito, adicionar informação sobre contato ou tentativo de contato em um Telefone, entre outros. O acompanhamento dos enriquecimentos feitos nos dados da origem pode ser utilizado para auxiliar a classificação e atribuição do grau de qualidade e confiabilidade de cada origem.

Com o grau de qualidade e confiabilidade de cada origem definido os processos de priorização dos dados podem fazer ordenação dos registros e composição de registros mais completos para serem utilizados nos processos de análises dos dados.

Comparativos de grau de qualidade e confiabilidade devem ser incluídos para que seja feito o acompanhamento do nível de qualidade das origens. O acompanhamento permite ajustes nos processos de padronização dos dados, melhoria dos processos de enriquecimento, ajustes nos processos de priorização e consequentemente ajustes nos graus de qualidade e confiabilidade das origens, o que possibilita melhoria contínua dos processos de qualidade de dados.

Dessa forma, a implantação de processos de Qualidade de Dados nos ambientes de Big Data, permite que a confiabilidade no ambiente de Big Data seja alcançada e melhorada continuamente.

Caso haja interesse em saber mais detalhes sobre como a tarks pode acelerar o desenvolvimento e implantação dos processos de Qualidade de Dados no ambiente de Big Data da sua empresa, entre em contato conosco: contato@tarks.com.br .

 

Diogo Horta
Fundador & CEO da tarks

Compartihe no: