Governança de dados: o coração das iniciativas de IA

10 min readJan 21, 2024

Um dos principais desafios para as iniciativas de IA é a disponibilidade de dados, em volume, variedade e qualidade. Algoritmos sofisticados não darão certo se não puderem ser treinados de forma adequada. Para isso são necessários dados. Dados são o sistema circulatório de qualquer sistema de IA. Um dos princípios fundamentais da “data science” diz “os dados e capacidade de extrair conhecimento útil a partir deles, devem ser considerados importantes ativos estratégicos”. Ou de forma resumida “No data, no ML”.

A carência de dados em volume, variedade e veracidade é que faz muitos projetos de IA naufragarem. Sem dados, os algoritmos não são treinados adequadamente e isso faz com que a solução proposta não seja validada. Por isso, antes de entrar em projetos de IA planeje e desenvolva uma estratégia de dados.

Uma estratégia de dados deve conter pelo menos seis componentes:

1. Aquisição e processamento: obter e processar os dados necessários para desenvolver protótipos e algoritmos. Os dados podem vir de diversas fontes, sejam internas, como sistemas da empresa ou externas. Lembre-se que muitas vezes os ERPS são uma boa fonte de dados, mas em torno deles existem muitos outros sistemas que têm muitos dados a oferecer. Como dados externos temos desde base de dados públicas, como de imagens ou as disponibilizadas por órgãos públicos ou empresas especializadas. Além disso, novos dados podem ser gerados por novos sistemas, como sensores instalados em carrinhos de supermercados ou câmeras que mostrem o trajeto dos clientes nos corredores das lojas. Quando se fala em LLM, vemos que as bases de dados são imensas e as fontes as mais diversas possíveis, geralmente obtidas da Web, como Wikipedia, blogs e outros.

2. Qualidade: desenvolver um conjunto de dados com as características apropriadas para resolver o desafio de negócios, minimizar o viés e oferecer dados de treinamento rotulados com alto grau de precisão. Eliminar o viés é importante. Se seus dados mostrarem desbalanceamento, como maior número de determinado tipo de clientes, seus algoritmos vão aprender de forma distorcida e suas respostas tenderão a amplificar o viés. Esteja ciente do viés em seus dados e modelos para tomar as ações apropriadas e minimizar seu impacto. Teste minuciosamente os modelos para garantir que as variáveis que não devem afetar as previsões não o façam. Se possível, exclua essas variáveis dos modelos. Infelizmente, evitar viés não é muito simples.

3. Contexto: entender a procedência dos seus dados e os mapeamentos pelos quais eles passam, para que você os use e os compartilhe efetivamente em suas iniciativas de IA. É fundamental garantir que os resultados obtidos na fase de testes internos sejam mantidos quando aplicados aos dados do mundo real. Uma precisão de 98% em um teste interno será de pouco valor se a precisão cair para 40% quando o modelo entrar em produção. Teste o modelo o mais cedo possível com os dados do mundo real. A máxima é “se você não analisar os dados do mundo real o mais cedo possível, nunca obterá algo que funcione na produção”. Por isso entender o contexto é de grande importância. Tenha especialistas no negócio e no problema em si, que possam validar se os dados estão realmente sendo úteis para treinar e validar o modelo.

4. Armazenamento: armazene e estruture seus dados de forma adequada para apoiar seus objetivos em relação ao acesso, velocidade, resiliência e conformidade. Um ponto de atenção para modelos que trabalham com imagens. Armazenar e processar “dados sujos” é um dos desafios mais significativos que enfrentamos em projetos de IA. Volumes menores de dados relevantes e bem rotulados normalmente permitem melhor precisão do modelo do que grandes volumes de dados de baixa qualidade. No mundo ideal, gostaríamos de trabalhar com imagens rotuladas com 100% de precisão. Mas, na realidade, os dados geralmente não estão rotulados, ou rotulados de forma esparsa ou incorreta. Os dados rotulados por humanos muitas vezes podem ser mal rotulados. A rotulagem de dados é frequentemente fornecida por processos de crowdsourcing e realizada por pessoas que não são especialistas. Em alguns contextos, a rotulagem também pode ser intrinsecamente subjetiva. Além disso, indivíduos que olham grandes volumes de dados podem experimentar o fenômeno da saturação visual, falta de elementos que certifiquem o tipo de objeto na imagem ou até mesmo estão vendo e rotulando objetos que não estão nela. Muita atenção a isso!

5. Aprovisionamento: otimize a acessibilidade dos dados e a implemente medidas de proteção e salvaguardas. Os dados devem ser armazenados para que os acessos sejam facilitados. Sua estratégia de armazenamento de dados afetará a usabilidade e o desempenho dos seus dados. A sua abordagem de aprovisionamento deve ser direcionada pela natureza dos seus dados, a taxa de crescimento e os requisitos de acessibilidade. De maneira geral as empresas dispõem de especialistas em bancos de dados relacionais (como MySQL ou Oracle) e usar estas tecnologias não é mais segredo. Mais recentemente, bancos de dados NoSQL (como Mongo ou Redis) tornaram-se populares porque não exigem as restrições associadas aos bancos de dados relacionais. Por conseguinte, eles são comumente associados a iniciativas de que chamamos de “big data”. Considere misturar e combinar diversos formatos de dados para atender às necessidades dos seus projetos de IA. Portanto, recrute ou treine seu pessoal que trabalha com SQL em sistemas NoSQL.

6. Gerenciamento e segurança: gerencie a segurança, acesso e permissão de dados para garantir o seu uso adequado. Não esqueça de fazer um planejamento com previsão para aumento significativo no volume de dados. As soluções em nuvem permitirão que você armazene a quantidade de dados que desejar, mas equilibre o custo do armazenamento imediato e no longo prazo. Se estiver operando seu próprio hardware, você também precisará decidir se deseja arquivar parte dos dados fora do seu data center. Por exemplo, pode ser necessário manter armazenamentos de dados separados fisicamente para garantir isolamento de dados pessoais. Monitore os custos e o desempenho do sistema para que você possa agir antes que os custos se tornem proibitivos ou se esgote o espaço de armazenamento contratado. Trate a resiliência dos seus dados como de missão crítica. Os dados são o componente mais valioso da sua estratégia de IA: se seus dados foram perdidos, você não poderá reconstruir seus modelos e perderá uma parte significativa do valor da sua empresa. Crie políticas de segurança para proteger a empresa contra incidentes e violações. Verifique se o acesso aos dados é somente para leitura. Exceto para os administradores dos dados, ninguém deve poder excluir ou alterar dados. Lembre-se que as leis de proteção à privacidade estão cada vez mais severas e com a disseminação de sistemas GenAI, começamos a ver uma enxurrada de processos referentes à violação de direitos autorais e copyrights.

Uma governança de dados é requisito essencial para que as iniciativas de IA tenham sucesso. Isso foi reconhecido em uma recente pesquisa da IBM, entre CEOs, o “CEO decision-making in the age of AI”, que mostrou que a primeira preocupação desses executivos é com os dados. Ele têm consciência que sem dados confiáveis, mesmo a melhor IA fornecerá dados defeituosos e pouco confiáveis. As principais barreiras, na opinião dos executivos são: linhagem e proveniência dos dados (61%), questões de segurança e privacidade (57%), e temores relativos à aderência aos aparatos regulatórios e compliance (53%).

É um desafio para as empresas navegar por políticas e tecnologias cada vez mais complexas para garantir que dados confidenciais estejam acessíveis e protegidos. Proteção de dados é o termo abrangente que abrange privacidade, conformidade, segurança de dados e ética de dados. Adotar uma abordagem holística à proteção de dados e à cibersegurança é uma proteção contra os cada vez mais frequentes ataques cibernéticos, incluindo ransomware, e ao mesmo tempo, manter a conformidade regulamentar para evitar multas, possibilitar uma IA responsável e criar experiências únicas para os clientes.

Por outro lado, os executivos sabem que colocar a casa de dados em ordem não é uma tarefa fácil e, para muitas empresas, está longe de ser concluída. Muitas empresas construíram data warehouses e data lakes ao longo do tempo, mas muitos deles demandam modernização de sua arquitetura. Portanto, é essencial modernizá-los, mas ao mesmo tempo sem ter que gastar rios de dinheiro em refazer esse trabalho.

Diversas pesquisas apontam que as empresas que apresentam os melhores desempenho em receita, crescimento e maturidade tecnológica concentram-se nas que adotam governança de dados. Embora não seja glamoroso, corrigir deficiências de dados é atividade uma prioridade essencial para a empresa obter vantagem competitiva.

Por exemplo, a governança vai definir como tratar obsolescência dos dados. Dados antigos podem ser um desafio significativo e são uma consideração importante ao planejar sua estratégia de armazenamento. Se você estiver analisando informações que mudam rapidamente, decida quantos e quais dados históricos serão relevantes. Você pode incluir todos os dados, um volume específico de dados ou dados de uma determinada janela de tempo. Selecione uma abordagem apropriada para o problema que você está resolvendo. Lembre-se que as técnicas de IA estão em constante evolução e sua estratégia pode evoluir à medida que sua solução amadurece. Se você estiver correlacionando ações com o tempo, considere cuidadosamente a janela para suas séries temporais. Se você estiver prevendo níveis de estoque, alguns meses de dados não conseguirão capturar uma variação sazonal significativa. Por outro lado, para usar um algoritmo de previsão que identifica que os sinais vitais de um indivíduo na UTI estão se deteriorando, e com isso acionar uma intervenção médica, a pressão arterial deste indivíduo no mês passado não será muito relevante. Entenda se os efeitos periódicos podem impactar seu sistema e valide se seus modelos e previsões se baseiam em vários ciclos do período típico que você está modelando.

Além disso, gerenciamento e segurança de dados são componentes críticos de uma estratégia de dados. Os dados pessoais são protegidos por legislação e você deve armazená-los com segurança. Pode ser necessário criptografar dados quando armazenados, bem como ao transmiti-los entre sistemas. Pode ser vantajoso separar os dados pessoais do seu repositório de dados principal, para que você possa aplicar um nível de segurança mais alto sem afetar o acesso da sua equipe a outros dados. Registre todas as solicitações de acesso com a identidade do solicitante e os detalhes dos dados extraídos. Contrate terceiros para realizar testes de penetração para validar a segurança de seus sistemas. Se um indivíduo pedir demissão ou for demitido, revogue imediatamente o acesso a todos os sistemas confidenciais, incluindo seus dados. E valide que sua equipe está ciente da legislação e das políticas de segurança e privacidade implementadas.

Uma clara e bem definida política de governança de dados deve considerar:

1. Coletar apenas os dados que você precisa utilizar.

2. Ser transparente sobre porque os dados são coletados, para que serão utilizados e quem terá acesso a eles.

3. Garantir que você tenha permissões apropriadas para armazenar e processar seus dados.

4. Remova dados pessoais desnecessários.

5. Exclua os dados quando a finalidade acordada for cumprida.

6. Anonimize os dados, sempre que possível, para remover identificadores pessoais.

7. Criptografe dados pessoais.

8. Proteja o acesso físico ao seu armazenamento de dados.

9. Controle o acesso aos seus dados.

10. Monitore o acesso aos dados e armazene uma trilha de auditoria das pessoas que visualizaram ou alteraram dados.

11. Utilize os dados apenas para os fins acordados

12. Implemente um processo para fornecer a um indivíduo uma cópia de todos os dados que você possui sobre ele ou ela.

13. Implemente um processo para remover todos os dados que você possui sobre um indivíduo específico.

Cada política é única para cada empresa e diversas técnicas podem ser adotadas para sua implementação. Por exemplo na questão da anonimização, seu objetivo é remover ou substituir dados pessoais por informações aleatórias, de modo que mesmo que pessoas que não sejam autorizadas leiam os dados, não conseguirão identificar o titular dos dados. Para isso podemos adotar técnicas como:

a) Criptografia, criptografando os campos que contenham dados pessoais. Uma chave de descriptografia será necessária para identificar um indivíduo a partir dos dados criptografados. A chave de descriptografia deve ser armazenada com segurança. As técnicas de IA permanecem eficazes em dados criptografados, permitindo identificar padrões mesmo que os dados de entrada não sejam legíveis por humanos. Isso oferece uma maneira de incorporar atributos pessoais com mais segurança.

b) Tokenização: Remova os dados pessoais do conjunto de dados principais e substitua-os por tokens numéricos relacionados a cada aspecto desses dados. O processo pode ser tão simples quanto fornecer a cada indivíduo um identificador exclusivo. Os dados pessoais e o token correspondente são armazenados em um sistema separado e mais seguro, permitindo que os dados sejam reconectados posteriormente. A tokenização é eficaz quando uma parte tem permissão para visualizar dados pessoais e precisa interpretar os resultados do sistema de IA, mas a empresa que fornece o sistema de IA não precisa visualizar os dados pessoais.

Como vemos temos muito mais coisas em projetos de IA que apenas algoritmos sofisticados. Não esqueça da governança de dados e tenha material humano e tecnológico preparado e adequado para que os projetos de IA sejam fonte de satisfação e resultados positivos para a empresa, não de dor de cabeça e insatisfação. Lembre-se que quanto mais cedo você gerenciar seus dados, mais cedo obterá os benefícios e quanto mais tarde fizer isso, mais alto será o custo da correção.

Uma boa governança de dados é um dos primeiros passos para se tornar uma empresa impulsionada por IA. Na era digital com adoção massiva da IA, que aos poucos vai se tornar invisível, como hoje são a internet e o smartphone, veremos transformações significativas no cenário de negócios e na sociedade como um todo. Novos negócios surgirão como os que surgiram após a internet e o smartphone se tornaram lugar comum, novos hábitos sociais e mudanças nas carreiras e profissões. Claro que não acontecerá de um dia para o outro, mas como a eletricidade mudou e moldou nossa sociedade ao longo das últimas décadas, veremos a IA fazendo a mesma coisa nas próximas décadas. Assim, entender as oportunidades, os desafios e os riscos de uso massivo da IA tornam-se essenciais à gestão de qualquer organização.

Governança de dados: o coração das iniciativas de IA

Written by Cezar Taurion

No responses yet