Algoritmos de ML/DL realmente aprendem?

Cezar Taurion
6 min readDec 18, 2024

--

Interessante que usamos o conceito de “aprendizado” no próprio nome das técnicas de software que chamamos de IA, como “Machine Learning” e “Deep Learning”. A percepção que essa antropomorfização nos passa é que os algoritmos “aprendem” e imediatamente fazemos uma correlação com o nosso próprio processo de aprendizado. Assim, sem querer, acabamos intuindo que os sistemas de ML são entes inteligentes, que tem capacidade de aprender, como nós, em nossa vida, pessoal e profissional. Mas, vamos discutir aqui no artigo, como os processos de “aprendizado” das máquinas são inteiramente diferentes do nosso.

Exemplificando com algoritmos de “aprendizado supervisionado”, vemos que eles gradualmente mudam os pesos dos seus parâmetros à medida que absorvem mais e mais dados dos data sets de treinamento. Com isso começam a melhorar sua capacidade de reconhecimento de padrões e aumentam a assertividade de seus resultados. O resultado é que podem ter um nível de acerto muito bom em classificar uma imagem ou reconhecer padrões de textos, dentro do universo provido pelos data sets de treinamento. Em contraste com esse processo, nós humanos não somos limitados ao aprendizado limitado por data sets específicos, mas estamos abertos às experiências do mundo. Além disso, reconhecemos figuras e objetos, mesmo quando vimos anteriormente poucos exemplos. As crianças também não aprendem passivamente. Elas fazem perguntas e questionamentos o tempo todo e a partir daí conseguem inferir abstrações e conexões entre conceitos. Em resumo, elas aos poucos exploram o mundo, sem fronteiras artificiais.

Além disso, as máquinas não aprendem por conta ou vontade própria. Para criar data sets de treinamento houve muito esforço humano prévio em coletar, fazer curadoria e rotular os dados, bem como projetar as diversas características da arquitetura do sistema, como as escolhas dos próprios algoritmos, as variáveis que serão usadas e a profundidade das camadas da rede. Sim, os sistemas de DL demandam volumes muito grandes de dados para obterem precisão adequada. E na prática, somos nós humanos que fornecemos esses dados, como as fotos ou textos que disponibilizamos nas redes sociais e mecanismos de busca.

Alguns complexos sistemas de DL enfrentam muitas dificuldades, como os que controlam os veículos que se pretendem ser autônomos. Esses algoritmos precisam reconhecer com precisão as faixas de uma rodovia, sinais de trânsito, outros veículos e obstáculos diversos como ciclistas, pedestres e animais. E, precisam além de identificar se os obstáculos estão em movimento, reconhecê-los em diversas condições climáticas, como chuva, nevasca e nevoeiro, tanto de dia como de noite. Para isso é necessário um imenso volume de dados, coletados por câmeras nos próprios veículos, que rodam milhões de quilômetros para melhorarem seu treinamento. Mas, os usuários dirigindo esses veículos não podem rotular tudo que é registrado pelas câmeras e para isso as empresas contratam muita mão de obra barata para essa tarefa. Cada hora de rodagem do veículo demanda centenas de horas de trabalho, principalmente humano, para converter os dados brutos coletados em informações úteis para o “aprendizado” dos algoritmos. Temos, claro, tecnologias que ajudam, como a criação de dados sintéticos, mas existem situações como a “cauda longa” que precisa ser visualizada pelos algoritmos para que ele consiga funcionar com precisão. Cauda longa é um fenômeno que ocorre, para cada motorista, muito raramente, mas, que no todo acaba ocorrendo com frequência. Os algoritmos precisam saber sair dessas situações. Por exemplo, quando um humano está dirigindo em uma estrada, pode ser que na sua frente aconteça uma colisão entre um carro e uma vaca, coisa que ele nunca viu antes. Mas, pelo contexto e capacidade humana de reagir a situações insólitas, ele sabe o que fazer, como frear ou desviar. O algoritmo precisa ser treinado na situação, para ser capaz de reconhecer o padrão e a partir daí agir.

Isso mostra que o problema dos veículos autônomos é muito complexo e por isso algumas das otimistas previsões iniciais começaram a se desfazer. Dirigir um veículo já é uma tarefa complexa, mesmo para um ser humano, pois envolve muitas subtarefas e inputs simultâneos além de constantemente estarmos diante de eventos inesperados, como um cachorro atravessando inesperadamente uma rua. O trânsito é um cenário onde as situações insólitas e inesperadas acontecem com frequência, mas que são difíceis de serem replicados em dados de treinamento.

Claro que nós humanos cometemos erros. Mas temos uma diferença fundamental que é senso comum. Nós usamos o senso comum com relação a objetos e como eles tendem a se comportar, e usamos constantemente essa capacidade nas nossas decisões. Nós interagimos socialmente com outros humanos e quando em situações de cruzamentos, sem semáforos, as comunicações não verbais entre dois motoristas resolvem a situação de quem vai primeiro. Como as máquinas não tem senso comum, dependem basicamente do reconhecimento de padrões em seus algoritmos.

Essa imensa diferença no processo de aprendizado entre nós e as máquinas é que gera uma incompreensão grande quanto aos resultados que a máquina pode gerar. Por exemplo, um algoritmo usado para reconhecer se aparece um animal ou não em uma imagem, pode correlacionar, baseado no que “aprendeu” com seus data sets de treinamento, que o animal está sempre no foco da fotografia e o fundo, a natureza, muitas vezes aparece desfocada. Assim, quando a natureza não for o foco, o sistema pode considerar que é um animal! Na verdade, o algoritmo não aprendeu a reconhecer animais, mas sim a usar” dicas” como fundo desfocado para saber se a foto tem ou não um animal. Nosso bom senso, nessa hora, é que faz a diferença.

Um problema sério no treinamento do algoritmo é a geração de vieses, embutidos quando os data sets são “overfitted” ou seja, tem uma maior intensidade de dados de um tipo em detrimento de outros. Imaginemos um sistema de reconhecimento facial, que foi treinado basicamente com imagens de pessoas caucasianas. Ao se defrontar cm um asiático, ele não vai, obviamente, analisar os padrões da imagem com os que reconheceu previamente pode gerar situações inconvenientes.

Esse aspecto é um importante questionamento dos modelos de ML/DL: a complexidade dos algoritmos e a nossa incapacidade de sabermos por que determinada decisão foi tomada por eles. São verdadeiras “black boxes”. Eles chegam a uma decisão por meio de uma sequência de operações matemáticas, propagadas pelas diversas camadas das redes neurais. Isso pode, em determinadas situações, chegar a trilhões de operações aritméticas. Entender essa complexa “calculeira” está além da capacidade humana. Existem muitos esforços nessa área e um campo de pesquisa chamado “Explainable AI” se concentra em como desvendar essas caixas pretas. Mas, ainda está engatinhando.

Nós humanos também não conseguimos ler a mente de outro. Entretanto, podemos pedir explicações e ao recebê-las, podemos acreditar nelas ou não. Mas o importante é que podemos questionar e validar o processo de raciocínio lógico que alguém adotou para chegar à determinada decisão, baseada inclusive na nossa experiência do mundo e senso comum.

Uma vez que as máquinas não entendem o que estão vendo, podem ser enganadas e gerar resultados estapafúrdios. Alterações em pixels, às vezes imperceptíveis, aos humanos, podem afetar o reconhecimento de padrões. Esse é um problema que pode trazer sérias implicações, dependendo do tipo de aplicação dos sistemas de IA. Por exemplo, uma alteração indevida em imagens médicas pode mudar o diagnóstico e provocar sérias consequências.

A diferença fundamental entre as máquinas e humanos é a compreensão. A máquina vê, mas não entende. A razão é que ao contrário dos algoritmos, que tem como visão do mundo apenas seus data sets de treinamento, nós vamos muito além. Nós temos percepção do tamanho dos objetos, sua função, seu cheiro e consistência, ou seja, a compreensão do mundo em que ele e nós estamos imersos. Isso faz parte da nossa cognição, essencial para a sobrevivência da espécie.

Passada a euforia e entusiasmo geradas pela IA generativa, disparadas pelo chatGPT, aprendemos que os sistemas de ML/DL têm muitas limitações. As ideias grandiosas que a IA substituiria os humanos na maioria das profissões simplesmente nem está perto de acontecer. As técnicas de IA que predominam hoje, ML/DL, e o seu subconjunto da “IA generativa”, são apenas uma “narrow AI” ou seja, são capazes de executar apenas uma única função. Pode ser melhor que um humano em alguma tarefa, como jogar xadrez, mas não tem a mínima ideia do que é um jogo de xadrez e o que significa vencer um jogo. Mas, claro que sistemas que fazem bem determinadas tarefas são muito úteis e podem aumentar a eficiência dos processos. Podem também nos ajudar criar novos modelos de negócio. Aliás, sem algoritmos de IA embutidos em sistemas, não conseguiríamos fazer muitas coisas que fazemos hoje.

--

--

Cezar Taurion
Cezar Taurion

No responses yet