Uma breve história da IA…

14 min readMay 16, 2024

Em conversas com diversos executivos, observamos que muitos não conhecem a história da IA e sua evolução ao longo de décadas. Muitos, curiosamente, desconhecem as origens da IA e acreditam que tudo começou apenas recentemente. E com o chatGPT. Mas, as tecnologias não surgem de supetão. Elas passam por um ciclo de evolução gradual, que começa muitas vezes com um paper científico e evolui ao longo do tempo até que apareça no mercado. A NASA, por exemplo, usa uma escala de nível de prontidão tecnológica (TRL — Technology Readiness Level), que é basicamente uma escala de um a nove que analisa a maturidade da tecnologia. Essa metodologia é inclusive, um dos métodos, que usamos na Redcore para avaliar o grau de prontidão tecnológica e maturidade digital de uma organização para usar IA de forma correta, para os problemas adequados.

Primeiro devemos lembrar que o hype em IA não é novidade. Tivemos outras ondas de entusiasmo: a primeira nos anos 50, outra no final dos anos 80 e agora mais recentemente com o Deep Learning e desde ano passado com a IA generativa e o ChatGPT. Cada onda de entusiasmo foi seguida de frustrações. A IA generativa se destaca por algumas razões: primeiro, nas ondas anteriores ou não existia internet ou não havia tanto uso dela quanto agora, quando as coisas se disseminam muito rapidamente. E segundo, o ChatGPT, indiscutivelmente que criou uma inovação na interface, permitindo que qualquer um tivesse acesso à algoritmos de IA, usando nossos diálogos comuns. Antes, o acesso era restrito às empresas e pesquisadores e sabíamos das novidades e avanços pela mídia. Agora, usamos diretamente a IA. Essa foi a grande mudança, que disparou a atual onda de frenesi sobre a IA.

A IA não é magia e muito menos novidade. E antes de seguir em frente, vamos primeiro fazer uma breve descrição do que é IA: é a aplicação da matemática e do código de software para “ensinar” os computadores a entender, sintetizar e gerar conhecimento de maneira semelhante à maneira como as pessoas o fazem. IA é um programa de computador como qualquer outro, ele funciona em uma máquina, recebe dados de entrada, processa e gera saída. A aplicação da IA é útil em uma ampla gama de áreas de atuação, desde codificação de programas até medicina, direito e artes. Os algoritmos de IA são produção do conhecimento e inteligência das pessoas e controlada por pessoas, como qualquer outra tecnologia. E, importante, e devemos sempre lembrar, que a IA não é inteligente no sentido de compreender o que está fazendo. O resultado de frases produzidas, embora bem construídas e que fazem sentido para nós, como as que vemos sendo geradas pelo chatGPT, são frutos de cálculos probabilísticos. A razão pela qual os LLMs podem imitar a conversa humana de forma tão convincente decorre da visão pioneira de Alan Turing, que percebeu que não é necessário que um computador entenda um algoritmo para executá-lo. Isso significa que, embora o ChatGPT possa produzir parágrafos cheios de linguagem emotiva, ele não entende nenhuma palavra em nenhuma frase que gera.

E, também uma descrição bem mais curta do que a IA não é: software e robôs assassinos que ganharão vida e decidirão eliminar a raça humana, como vemos nos filmes de ficção científica. Manchetes sensacionalistas do tipo “End of Humanity” são simples “clickbaits” que não tem um pingo de realidade.

Mas, isso não impede de considerarmos a IA uma tecnologia transformadora. Tecnologias transformadoras são aquelas que causam impactos sociais e econômicos na sociedade, assim como foram o motor à combustão interna, a internet, os computadores e os smartphones. Ao longo do tempo, essas tecnologias se disseminaram e criaram oportunidades inatingíveis pelas limitações das tecnologias anteriores e mesmo resolver grandes desafios de negócio que pareciam insolúveis. A internet e os smartphones impulsionaram o comércio eletrônico, as desses sociais, as reuniões por videoconferência, criando novos negócios e tornando as empresas mais eficientes.

As origens da IA podem ser rastreadas a uma conferência de pesquisadores em 1956, quando o cientista da computação John McCarthy, cunhou o termo. E esse termo apareceu de forma curiosa. McCarthy estava organizando uma conferência na Universidade de Dartmouth sobre as então chamadas “Thinking machines”, cujos estudos e pesquisas eram chamadas por uma variedade de nomes como “automata theory”, “cybernetics” e outros. A conferência tinha como objetivo organizar um grupo para esclarecer e desenvolver ideias sobre essas máquinas pensantes. Ele escolheu o nome ‘Inteligência Artificial’ para o novo campo. A escolha do nome foi em parte por sua neutralidade, evitando o foco na “narrow” teoria dos autômatos e evitando a cibernética que era fortemente focada no feedback analógico. A conferência passou a ser chamada de “Dartmouth Summer Research Project on Artificial Intelligence” e o nome IA pegou.

Em 1959, o pesquisador A. L. Samuel, criou outro termo que usamos intensamente hoje, “machine learning”, em seu artigo “Some Studies in Machine Learning using the Game of Checkers”, publicado no IBM Journal of Research and Development. O jogo de damas foi um dos primeiros jogos a serem usados como teste para o que comumente chamamos de inteligência artificial. O método que ele usou foi baseado em um modelo de árvore, que continua sendo a base de todos os modelos de game atuais, incluindo o AlphaGo da DeepMind. No jogo de damas, como é impossível processar todas as possíveis combinações na árvore, que se estima em seis elevado a 50, o processo trabalha com apenas uma pequena parte dela. A partir de cada jogada do adversário, ele calcula as prováveis quatro ou cinco jogadas subsequentes. Ele usou um algoritmo clássico, minimax, que na teoria da decisão, é um método para minimizar a possível perda máxima. Pode ser considerado como a maximização do ganho mínimo (maximin).

A estratégia do programa foi olhar as possíveis sequências à frente e aplicar uma função matemática para estimar a que seria mais adequada. Ele descobriu que o programa “aprendia” por si mesmo. Na prática podemos dizer que foi o embrião do que chamamos hoje de “reinforcement learning”, uma técnica bastante comum e usada intensamente em sistemas de Machine Learning (ML). O resultado final foi que o jogo apresentava um desempenho melhor que a média dos jogadores experientes. Foi um marco importante evolução da IA, mas que acabou esquecido. Pouca gente aborda esse feito de 1959. Ah, e ele teve que programar na unha no IBM 701. Não existia nenhuma biblioteca de algoritmos prontos e nem um compilador para facilitar seu trabalho. A programação foi toda desenvolvida em linguagem de máquina.

Também nessa época outras iniciativas de ML foram criadas. Por exemplo no documentário “Science in Action: Computers That Learn” temos uma entrevista com o pesquisador Bernard Widrow, que criou o sistema Madaline. O Madaline era uma rede neural que aprendia baseado em repetidas observações e conseguiu ser mais assertivo que os meteorologistas na previsão do tempo e tradução de áudio para texto. Widrow chamou seu sistema de aprendizado de máquina de rede neural, pelo fato de ser baseado nos conceitos do modelo McCulloch-Pitts de neurônios biológicos.

Em julho de 1958, o U.S. Office of Naval Research mostrou uma invenção notável. Um IBM 704, um computador de 5 toneladas, do tamanho de uma sala, com uma memória equivalente a 18.432 bytes, foi alimentado com um conjunto de cartões perfurados. Após 50 tentativas, o computador aprendeu sozinho a distinguir os cartões marcados à esquerda dos cartões marcados à direita. Foi a primeira demonstração do “perceptron”. Estão aí as raízes do Deep Learning (DL) e aprendizado supervisionado. A ideia do perceptron foi criação do psicólogo Frank Rosenblatt. Ele se inspirou na maneira como os neurônios processam informação. Um neurônio é uma célula do nosso cérebro que recebe sinais elétricos ou químicos de outros neurônios conectados a ele. Basicamente um neurônio soma todos os inputs que recebe dos outros neurônios e quando um determinado limite é alcançado, ele dispara uma mensagem para outros neurônios conectados a ele. As sinapses de outros neurônios a um determinado neurônio têm diferentes pesos e ao calcular a soma dos inputs, o neurônio considera essa variável, dando maior valor as conexões fortes e menos às conexões mais fracas.

A ideia de Rosenblatt era simular esse processo em computadores. Para ele, esse processo poderia executar tarefas como reconhecer rostos e objetos. Para isso, o computador poderia “aprender” ou ser “treinado” com exemplos. A cada acerto, o sistema seria recompensado e os pesos e limites seriam ajustados dinamicamente. Reconhecemos aí os modelos de aprendizado supervisionado que usamos hoje! O aprendizado supervisionado requer que o algoritmo seja exposto a um grande volume de dados, com exemplos corretos e errados, para que, no processo, aprenda distinguir os certos dos errados. O algoritmo de Rosenblatt, “perceptron-learning algorithm” foi a base conceitual que gerou os atuais sistemas de DL, pois posteriormente, alguns pesquisadores adicionaram camadas adicionais de neurônios, criando uma “multilayer neural network” (Deep Learning!). Mas, devido às limitações da tecnologia da época e absoluta carência de dados digitais, além do falecimento de Rosenblatt em 1971, suas ideias não floresceram. Apenas recentemente que suas propostas geraram os atuais sistemas de ML/DL.

Como a tecnologia dos anos 50 a 70 era muito restrita, o usa da IA resumiu-se poucos pesquisadores em universidades. Em meados dos anos 80 e início dos anos 90 vivemos outro momento de interesse em IA. Foi a época da IA simbólica, também conhecida como IA clássica, baseada em regras. A IA simbólica envolve a incorporação explícita do conhecimento humano e regras de comportamento em programas de computador. Foi nesse período que comecei a me interessar pelo assunto, tendo participado ativamente do desenvolvimento de um dos então chamados “expert systems”. A proposta do sistema era simular o processo de tomada de decisão de um analista de crédito, para quem sabe, substituir alguns humanos nessas tarefas. Haja ingenuidade! Parte das regras de aprovação de crédito estavam nos manuais do banco e, portanto, facilmente codificáveis no programa. O problema foi absorver o conhecimento intuitivo dos analistas experientes. A intuição é puramente subjetiva e impossível de ser codificada em linhas de código. Como programar algo do tipo “eu olho nos olhos do cliente, acredito nele e por isso aprovo o crédito!”? Assim, o resultado foi um sistema que conseguiu no máximo atuar com a proficiência de um estagiário…foi descontinuado, mas me mostrou que poderíamos ir bem mais longe se tivéssemos dados e capacidade computacional. E usássemos outros processos, como redes neurais. Mas, ambos os modelos só conseguiriam imitar a funções cognitivas humanas algorítmicas, como seguir uma receita de bolo. As funções não algorítmicas e portanto, não computáveis, como insights e sensações como dor, não conseguem ser matematicamente colocadas em equações. O conceito de “expert systems” foi liderado por Marvin Misky, que curiosamente criou um dos primeiros sistemas de redes neurais, o SNARC (Stochastic Neural Analog Reinforcement Calculator) em 1959, mas devido às limitações computacionais da época, que faziam com que esses sistemas tivessem apenas a camada de entrada e de saída, fez com que Minsky adotasse o modelo de programação simbólica como paradigma de IA.

Em 1997, o Deep Blue da IBM venceu o então campeão mundial de xadrez, Garry Kasparov, renascendo o interesse pela IA. Passada a euforia, viu-se que um jogo de xadrez poderia ser ganho com um programa que pudesse usar um computador muito poderoso. É o estilo “força bruta”, e o Deep Blue calculava 200 milhões de possíveis jogadas à frente, capacidade muito superior à de qualquer humano. Não era um sistema de ML, mas foi um passo à frente na evolução de sistemas sofisticados. O artigo “20 Years after Deep Blue: How AI Has Advanced Since Conquering Chess” publicado em 2017 nos dá uma boa visão do que foi o Deep Blue e os avanços da chamada IA desde então. A estratégia de jogo do Deep Blue também não foi novidade. Foi o uso da força bruta usando o modelo de Shannon (“Programming a Computer for Playing Chess”) publicado em 1950. A estratégia usada no DeepBlue foi o clássico algoritmo minimax, que tenta avaliar o maior dano que o adversário pode causar e o cenário que minimiza isso é escolhido para a jogada. Por isso é chamado minimax.

Pulamos no tempo até os dias de hoje. Algoritmos de IA estão fazendo parte do nosso dia a dia, nos recomendando livros e filmes, sugerindo produtos e aprovando ou negando crédito. Autorizam ou não uma transação analisando nosso rosto, e também nos vigiam, dizendo se somos ou não “sociais”, e não somos um risco de cometer um ato terrorista. Temos assistentes pessoais conosco. Vimos o Watson da IBM vencer em 2011, o programa de perguntas e repostas da TV americana, Jeopardy, e em 2016, vimos o AlphaGo da DeepMind vencer o campeão mundial de Go.

Tudo isso despertou muito interesse de governos, empresas e investidores. Colocar IA na descrição do produto ou no nome de uma startup valorizava o negócio. Vimos uma explosão de startups com “qualquernome.ai” proliferando por tudo quanto é lugar. Um artigo da Wired de 2014, “The Three Breakthroughs That Have Finally Unleashed AI on the World” mostrou claramente o interesse do mercado pela tecnologia. O artigo brinca com o assunto, dizendo “The business plans of the next 10.000 startups are easy to forecast: Take X and add AI”.

A rápida evolução da IA animou muita gente e perspectivas extremamente ambiciosas foram criadas. A maioria não decolou. O artigo “Why A.I. Moonshots Miss” mostra que as previsões otimistas de muita gente, inclusive de conceituadas empresas de consultoria como McKinsey não aconteceram. O fato é que a maioria dos moonshots falha: fusão nuclear, combustíveis sintéticos, maglev e blockchain para tudo. Em vez disso, as tecnologias bem-sucedidas geralmente começam em aplicações pequenas, são as vezes esquecidos e só algum tempo depois se expandem para aplicações maiores e mais importantes. Os transistores foram usados pela primeira vez em aparelhos auditivos e rádios antes de se tornarem onipresentes em equipamentos militares, computadores e telefones. Os computadores começaram como máquinas de contabilidade e depois se expandiram para todas as funções de uma empresa. Os LEDs foram usados pela primeira vez em calculadoras e painéis de automóveis, muito antes de serem usados para iluminação. A internet começou como uma ferramenta para professores antes de se tornar a tecnologia mais utilizada desde a eletricidade. As células solares foram usadas em satélites e locais remotos muito antes de serem usadas para gerar eletricidade para residências e empresas. Em quase todos os casos, as tecnologias começam em um nicho e depois se expandem de forma incremental para outras aplicações ao longo de décadas por meio de melhorias exponenciais em preço e desempenho. A IA, com as técnicas de ML, não seria exceção, e não poderia começar de forma tão ambiciosa como se sonhava.

Estamos agora aprendendo que os sistemas de IA tem muitas limitações. As ideias grandiosas que a IA substituiria os humanos na maioria das profissões simplesmente nem chegou perto de acontecer. A técnica de IA que predomina hoje, ML, com sua última evolução a IA generativa, é apenas uma “narrow AI” ou seja, é capaz de executar apenas uma única função. Pode ser melhor que um humano nessa tarefa, como jogar xadrez, escrever textos ou codificar linhas de código de programação, mas não tem a mínima ideia do que é um jogo de xadrez ou uma poesia. Sistemas que fazem bem determinadas tarefas são muito úteis e podem aumentar a eficiência dos processos. Podem criar novos modelos de negócio, pois sem o uso dessa tecnologia jamais conseguiríamos ter um mecanismo de busca tão eficiente como o do Google.

Curioso que o lançamento do ChatGPT fez com que de um dia para o outro todos descobrissem a IA e acreditaram que estavam diante de algo mágico, que surgiu repentinamente e que vai mudar o futuro da humanidade rapidamente.

E o que fez as pessoas acordarem de repente para o chatGPT e a IA? A possibilidade de interação direta com a tecnologia de IA via browser, ou seja, o UX. Antes, a IA já estava aí, mas escondida sob camadas e mais camadas de software, e nós a usávamos sem saber, como via algoritmos de recomendação da Amazon, Spotify e Netflix. Nos filtros das fotos tiradas pelos smartphones e nos sistemas de reconhecimento facial. Nas soluções propostas pelo Watson da IBM. Mas eram discussões e aplicações restritas à pesquisadores, cientistas e empresas.

O efeito uau, aquele que fez com que as pessoas pensassem que tinham ido dormir na Idade Média e acordado na era espacial foi o fato do chatGPT criar um UX que permitiu a interação direta de qualquer pessoa, não apenas pesquisadores e cientistas de dados, mas qualquer um mesmo, a interagir com a IA.

Mas, na verdade, em termos de tecnologia de IA, o chatGPT e outros LLM, não foram uma revolução tecnológica, surgida inesperadamente de uma imaginação criativa de um dia para o outro, mas fruto de uma longa e contínua evolução gradual. O que mudou o jogo foi o UX. Um artigo no Financial Times me chamou a atenção e exemplifica bem a diferença entre os sistemas de IA e nós humanos. Nós temos o lampejo da criatividade, os insights. Aqueles pensamentos cognitivos não algorítmicos e, portanto, não computáveis. As máquinas conseguem imitar os nossos pensamentos algorítmicos, como seguir uma receita de bolo ou uma orientação do Waze. Mas, empatia e criatividade são coisas que simplesmente não existem em sistemas de IA.

Vamos pegar por exemplo, a criação do algoritmo transformer, que é hoje a base do top of mind dos sistemas de IA, com a IA generativa, que deu origem ao ChatGPT e outros que estão na efervescência do hype. Sua criação foi um lampejo de criatividade. No início de 2017 dois pesquisadores do Google, Ashish Vaswani e Jakob Uszkoreit estavam debatendo ideias sobre como otimizar o algoritmo de tradução do Google Translate. Um outro colega, Illia Polusukhin, estava trabalhando em um conceito chamado “self-attention”, que poderia mudar radicalmente a velocidade e maneira como computadores entenderiam a linguagem. Polusukhin, fan de ficção científica, acreditava que o conceito de “self-attention” seria similar à linguagem alienígena do filme “Arrival” (que aliás recomendo assistir!). A linguagem dos extraterrestres não continham sequências lineares de palavras. Ao invés disso, eles geravam sentenças inteiras que representavam uma ideia ou conceito, que os linguistas humanos tinham que decodificar para compreender.

O Google Translate, na época, como os demais sistemas de PLN, pegavam cada palavra de uma sentença e a traduziam, em um processo sequencial. A ideia do “self-attention” era ler a sentença inteira, de uma vez, analisando suas partes e não palavras individualmente, Assim o sistema poderia captar melhor o contexto e gerar, em paralelo, a tradução. Depois outros pesquisadores se juntarem a eles e acabaram criando um paper “Attention is All you Need” que hoje é leitura obrigatória para todos que precisam ou querem falar com seriedade sobre sistemas generativos.

Isso mostra claramente a diferença entre nós e humanos. A máquina não tem criatividade. Não gera insights. A inteligência está na criação do algoritmo e no lampejo de criatividade que o criou. Por humanos.

Portanto, na realidade, IA não é um ser senciente, mas antes de tudo, matemática! É uma matemática onde o tamanho das equações e a quantidade de resultados a serem processados são imensamente maiores que a nossa capacidade humana de resolvê-los. É matemática como uma equação capaz de produzir milhões e até bilhões de x, y, z. Só fazemos isso porque temos agora capacidade computacional imensa e gigantesco volumes de dados digitais para treinar esses sistemas. E o que chamamos de “aprendizado de máquina” em IA nada mais é do que encontrar um valor onde, para cada valor de x, encontramos instantaneamente o valor de y. A IA é então uma grande equação com até bilhões de x e y em busca de um valor. Para isso usamos algoritmos sofisticados que evoluíram com o tempo. A IA generativa não é mágica, mas uma função probabilística de preenchimento automático que foi treinado em um imenso volume de dados.

Com essa sofisticação matemática conseguimos chegar a um estágio onde os sistemas já conseguem IMITAR funções cognitivas humanas algorítmicas, como aprendizagem e resolução de problemas. Usam força bruta computacional para essa imitação. Não conseguem em absoluto imitar as nossas funções cognitivas não algorítmicas ou não computáveis, como dor, amor ou empatia.

Por isso, apesar de termos algoritmos muito bons executando determinadas tarefas, mesmo se juntássemos todos eles, não teríamos um sistema inteligente. O cientista cognitivo Steven Pinker disse com razão “A IA de nível humano ainda é algo para daqui a quinze a vinte e cinco anos, assim como sempre foi”.

Basta ver a diferença entre bebês e sistemas de ML. Os bebês podem aprender qualquer coisa e podem fazer do zero e o que os bebês fazem e as máquinas não fazem é gerar seus próprios dados. Os sistemas de ML aprendem a distinguir entre maçãs e bananas visualizando milhares de imagens de cada uma. Mas os bebês, a partir do momento em que podem virar a cabeça, engatinhar e agarrar, influenciam a composição de seus próprios “dados de treinamento”, escolhendo para onde olhar, para onde ir e o que pegar.

Para uma máquina, a aquisição da linguagem é abstrata e estereotipada. Para nós, é corporificado, emotivo, subjetivo, vibrante de vida. O futuro da inteligência não estará em máquinas “inteligentes”, mas no desenvolvimento de nossas próprias mentes. A noção do “eu” e o princípio de emergência são completamente negligenciados nos sistemas de ML. Máquinas sem isso não são sencientes. Mas, podem ser excelentes ferramentas se usadas no momento certo, para as soluções adequadas.

Uma breve história da IA…

Written by Cezar Taurion