Quando o tecno-otimismo encontra a realidade…

Cezar Taurion
13 min readFeb 28, 2023

A economia global já foi impulsionada pela industrialização. Hoje é alavancada por conhecimento e informação. Grandes avanços tecnológicos e mudanças de plataforma aceleraram essa transição. Na década de 1990 tivemos a Internet. Os anos 2000 trouxeram a era da computação em nuvem. A década de 2010 deu origem à onipresença dos smartphones. O que antes eram plataformas emergentes ampliou o acesso ao conhecimento e transformou a forma como as pessoas se comunicam, criam e consomem conteúdo.

Hoje, os avanços nos sistemas chamados de Large Language Models, ou “LLMs”, e outras ferramentas generativas de ML (“generative AI”) estão simplificando a criação de conteúdo. LLMs são redes neurais complexas que podem gerar textos ou imagens. Esses modelos são a sustentação de sistemas como o GPT-3 da OpenAI (texto), chatGPT e o LaMDA, que gerou o Bard do Google (diálogo conversacional) e ajudaram a inspirar o DALL-E e o Midjourney da OpenAI (texto para imagem). Os LLMs vêm aumentando em tamanho e sofisticação em média 10 vezes por ano. Como resultado, esses sistemas podem gerar conteúdo de forma autônoma, seja texto, visual, áudio, código, dados ou multimídia, a partir de simples prompts criados por humanos. Esses modelos estão se tornando rapidamente a estrutura cognitiva da aplicação da IA ​​em muitas aplicações do mundo real.

A IA generativa é uma abordagem nascente, mas criativa. É uma das estruturas de ML mais bem-sucedidas na evolução do aprendizado profundo (Deep Learning) que vimos na última década. É um aprendizado de máquina não supervisionado ou semi-supervisionado para criar novos conteúdos, como imagens digitais, vídeo, áudio, texto ou código. Até agora, existem duas estruturas principais de IA generativa: Generative Adversarial Network (GAN) e Generative Pre-trained Transformer (GPT).

A GAN usa duas redes neurais para competirem entre si, colocando uma contra a outra (portanto, “adversária”) para gerar novas instâncias de dados sintéticos que podem passar por dados reais. As GANs usam uma estrutura cooperativa de jogo de soma zero para aprender. Eles são amplamente utilizados na geração de imagem, vídeo e voz.

O GPT é um modelo de linguagem autorregressivo baseado na arquitetura do transformer, pré-treinado de forma generativa e não supervisionada. O transformer é uma arquitetura codificador-decodificador com um mecanismo de auto atenção. Como ele pode acessar os vetores de estado de cada palavra de entrada, diferentemente do LSTM (Arquitetura de Redes Neurais Long Short Term Memory), usa apenas informações sobre outros tokens de camadas inferiores e pode ser calculado para todos os tokens em paralelo, demonstrando precisão e desempenho de treinamento significativamente aprimorados.

Existem muitas aplicações de aprendizado profundo, mas NLP e visão computacional são dois principais. Eles são domínios fundamentais da aprendizagem cognitiva, mas bifurcados por duas diferentes modelagens de DL: RNN (Recurrent neural network) e CNN (Convolutional neural network). Devido à sua complexidade sofisticada e arquiteturas variadas, os cientistas de ML tiveram que pesquisar e desenvolver esses dois assuntos de forma independente, e com isso, tornando difícil o seu compartilhamento e evolução em conjunto. O Transformer mudou o jogo. O transformer não apenas teve sucesso na modelagem de linguagem, mas demonstrou ser promissor em visão computacional. Transformers de visão (ViT) estão disponíveis em PyTorch e TensorFlow.

Generative AI e LLMs são a base de uma importante mudança de paradigma na criação de conteúdo, comunicação e geração de conhecimento. Assim como a computação em nuvem e os smartphones transformaram indústrias e criaram outras totalmente novas, a IA generativa também têm esse potencial. Da mesma forma, a penetração de smartphones, olhando apenas o mercado americano, passou de 1% para 55%. A IA generativa tem ampla aplicação em mídia e comunicações, software, ciências da vida e assim por diante. Em muitos casos de uso, tem um custo mais baixo e uma geração de valor mais alto, então é provável que a sua adoção possa ser ainda mais rápida.

Isso, claramente desperta interesse de investidores (VCs) e surgem diversas startups. Aparecem também aplicações que aprimoram cada vez mais as imagens, inclusive tornando essa imagens imperceptíveis de fotos reais. Por exemplo, vejam “You can download a free GFP-GAN to improve your AI-generated faces” para um exemplo de como a tecnologia tem evoluído nesse sentido. O editor de vídeo baseado em DL, RunwayML tornou-se rapidamente um padrão da indústria e é usado por editores de vídeo que trabalham em programas da TV americana como ‘The Late Show’, ‘Top Gear America’, além de diversos filmes.

Esses sistemas precisam de muito dinheiro e capacidade computacional para serem treinadas e por isso acabam ficando nas mãos de poucas e bilionárias empresas que tem condições para bancar esses investimentos. Esses sistemas se tornam a plataforma base para que aplicações e startups sejam construídas em cima, mais ou menos, como o Android e o iOs, nos smartphones.

E aqui discutimos um ponto de atenção. Generative AI é a aplicação mais transformadora que o campo da IA já viu até o momento. Ele irá redefinir como criamos, mas também como interagimos e nos relacionamos com as criações dos outros.

Enquanto a IA tradicional nos permite extrair padrões e insights dos dados, moldando-os em novos conhecimentos, a IA generativa vai além. Ele usa esses dados para gerar mais dados. O fato de sua utilidade se manifestar no nível do consumidor tem potencial de mudar tudo. Qualquer pessoa pode usar a IA generativa para criar novos dados.

Estamos vivendo em uma era sem precedentes de expansão criativa. O que historicamente era reservado para poucos agora está ao alcance de qualquer pessoa com computador e acesso à internet. A maioria das pessoas do planeta ainda não sabe que essa tecnologia existe, mas não demorará muito para que ela se torne mais e mais disseminada. É fácil de acessar e usar, barata e extremamente versátil. E melhora rápido.

Nesse nível, o que mais importa é a escala — não como “grande o suficiente para resolver um problema”, mas como “grande o suficiente para causar um”. O desenvolvimento acelerado combinado com utilidade transversal e escalabilidade inerente (fácil de usar e barato) é a maior força da IA ​​generativa e, também, sua maior fraqueza.

Acredito que essas ferramentas generativas de IA podem ajudar a melhorar a capacidade humana, de escrever, pintar, codificar e qualquer outra coisa que possa surgir. Se uso de forma criativa, com as pessoas explorando seus “eus” criativos, é extremante positiva. Essas criações terão intenção e personalidade, mesmo que seja impossível capturá-las totalmente com os textos dos prompts.

Creio que o problema aparece quando essas ferramentas se cruzam com nossa falta de senso de proporção e os incentivos externos aos quais todos estamos sujeitos, quando nosso objetivo é gerar o máximo de conteúdo possível para obter algum benefício. A cultura do “like”.

Muitas pessoas não estarão aprimorando suas habilidades, mas a substituirão, usando as ferramentas em todas as oportunidades possíveis. Se pudermos usar essas ferramentas para qualquer atividade criativa, muitos (se não a maioria das pessoas) as usarão para todas as atividades criativas.

Uma consequência negativa é que eventualmente inundaremos a Internet com dados gerados por IA. Isso não implica que os sistemas de IA criarão todos os dados na internet, mas se metade for gerada por IA e não soubermos disso, talvez aí tenhamos um problema. Esses métodos sofisticados de IA produzem resultados sem explicar por que ou como seu processo funciona. O chatGPT é solicitado por uma consulta de um ser humano. A máquina de aprendizagem responde em um texto coerente em segundos. Ele é capaz de fazer isso porque tem representações pré-geradas dos vastos dados nos quais foi treinado. Como o processo pelo qual criou essas representações foi desenvolvido por aprendizado de máquina que reflete padrões e conexões em grandes quantidades de texto, as fontes precisas e os motivos para os recursos específicos de qualquer representação permanecem desconhecidos. Por qual processo a máquina de aprendizagem armazena seu conhecimento, destila e recupera permanece igualmente desconhecido.

À medida que a IA generativa melhora e se torna mais acessível ao público em geral, a diferença na velocidade com que nós, coletivamente, criamos dados da forma pessoal versus a automática só aumentará, com a porcentagem de dados e imagens criados pelos humanos diminuindo rapidamente.

Enquanto uma imagem do Instagram pode ter filtros ou reestruturação de formato, ou seja, uma melhoria no trabalho humano, uma imagem gerada por um sistema como DALL·E pertence a uma categoria diferente de mídia sintética. Com modelos de texto para imagem, a entrada humana é um prompt, um simples texto. É o sistema de LLM que apresenta uma representação visual, que não é apenas uma transformação mínima, e o processo intermediário é opaco (impenetrável) e estocástico (dificilmente repetível).

Os dados gerados pelos sistemas LLM são o mais distante do “natural”, pois a entrada humana é mínima. Embora isso não reduza necessariamente o valor do resultado, o coloca em uma categoria própria. Isso abre todo uma discussão sobre direitos autorais que precisarão ser atualizados.

Hoje, menos de 1% do conteúdo online é gerado usando esses algoritmos. Agora, imagine que o DALL-E, a Stable Diffusion e outras ferramentas, cresçam de forma acelerada durante os próximos anos para mais de 1 bilhão de usuários diários, que é um crescimento plausível, se assumirmos que a tecnologia amadurecerá e será integrada a produtos e serviços populares. Teríamos alguns trilhões de imagens sendo geradas por esses sistemas em pouco anos. Isso é no mínimo quatro a cinco vezes todas as imagens feitas pelo homem na Internet. E esse volume pode ser esperado para texto, código, etc. A Internet já contém mais informações do que qualquer ser humano (ou todos combinados, aliás) jamais poderia consumir em toda a vida. Apenas no YouTube, os usuários carregam 30 anos de vídeos todos os dias. O mesmo acontecerá com textos, gerados por ferramentas como chatGPT.

O problema pode ser a qualidade dessas informações. Nada impede que a baixa qualidade impere e sejamos inundados por imagens desagradáveis e textos que geram desinformação, preconceitos e falsidades. Como temos o incentivo para criar mais dados porque a maioria não tem a intenção de transmitir ou armazenar ideias, pensamentos ou sentimentos, mas sim atrair atenção (objetivo de gerar receita com “likes”), a proposta de “precisamos criar mais e mais” não é positiva. Nesse caso, a IA generativa piora a situação. Um exemplo e a multiplicação de livros escritos basicamente via chatGPT. O artigo “ChatGPT launches boom in AI-written e-books on Amazon” mostra a proliferação desses livros, o que agrava o plagiarismo.

A ciência iluminista acumulou certezas; a nova IA gera ambiguidades cumulativas. A ciência do Iluminismo evoluiu tornando os mistérios explicáveis, delineando os limites do conhecimento e da compreensão humana à medida que se moviam. As duas faculdades moviam-se em conjunto: a hipótese era o entendimento pronto para se tornar conhecimento; a indução era o conhecimento se transformando em compreensão. Na Era da IA, os enigmas são resolvidos por processos que permanecem desconhecidos. Esse paradoxo desorientador torna os mistérios inexplicáveis. Inerentemente, a IA altamente complexa promove o conhecimento humano, mas não a compreensão humana — um fenômeno contrário a quase toda a modernidade pós-iluminista. No entanto, ao mesmo tempo, a IA, quando combinada com a razão humana, representa um meio de descoberta mais poderoso do que a razão humana sozinha.

A diferença essencial entre a Era do Iluminismo e a Era da IA, portanto, não é tecnológica, mas cognitiva. Após o Iluminismo, a filosofia acompanhou a ciência. Novos dados desconcertantes e conclusões muitas vezes contraintuitivas, dúvidas e inseguranças foram dissipadas por explicações abrangentes da experiência humana. A IA generativa está igualmente preparada para gerar uma nova forma de consciência humana. Até agora, entretanto, a oportunidade existe em direções para as quais não temos bússola. Nenhuma liderança política ou filosófica foi formada para explicar e orientar essa nova relação entre homem e máquina, deixando a sociedade relativamente sem limites.

O que muitas vezes é bom para o Vale do Silício, não necessariamente agrada o restante do mundo. Culturas diferentes têm diferentes pontos de vista e o que pode ser atrativo para uma, pode ser ofensiva para outra. À medida que novas tecnologias aparecem, como os algoritmos geradores de imagem, a recepção poderá ser bem diferente, dependendo dos aspectos culturais da uma sociedade. Além disso, creio que o avanço muito rápido na evolução tecnológica dos sistemas de DL, acaba gerando conflitos entre as diferentes percepções éticas e legais. Muitas vezes torna-se tênue o limite entre a legalidade e a ilegalidade.

Não devemos cercear o futuro aplicando nas novas tecnologias estritamente as regras de hoje, como também não podemos julgar o passado pelos hábitos, costumes e leis de hoje. Épocas diferentes, têm comportamentos e hábitos diferentes, e, portanto, legislações que mudam com as mudanças sociais e econômicas. Um sintoma disso é o artigo “AI-generated art sparks furious backlash from Japan’s anime Community” que mostra a reação de uma sociedade em relação à arte gerada por sistemas de ML.

A IA generativa está ganhando força dentro e fora do setor de tecnologia. Está acontecendo muito rápido. E existe a grande possibilidade de inundar a Internet com conteúdo de baixa qualidade. Creio que temos pela frente uma longa e acalorada discussão sobre os limites de aplicação (se existirão…) dessas tecnologias. Esse é o cuidado que devemos ter. O problema não é a tecnologia, mas como a usamos.

Alguns cuidados precisam ser tomados. O artigo “Is it time to hit the pause button on AI?” discute alguns caminhos.

A primeira opção seria deixar tudo como está. Hoje as BigTechs decidem por conta própria quando e onde lançar um produto, mesmo aqueles que afetam bilhões de pessoas, sem regulamentações, confiando nas suas decisões. E aguardar que elas mesmo aprendam a controlar sua IA e encontrar maneiras menos caóticas de lançá-las.

A segunda opção é adotar uma abordagem oposta, e decretar uma proibição total dessas novas formas de IA. Isso teria implicações que afetaria negativamente a evolução da IA. Poderia até mesmo eliminar novas pesquisas e seria um retrocesso.

Mas há uma terceira opção, intermediária, em que teríamos regulamentações que permitissem a pesquisa de IA, mas controlada com uma pausa na sua implantação de IA em larga escala (como por exemplo, chatbots liberados rapidamente para centenas de milhões de clientes) até que efetivamente comprovasse sua segurança.

A ideia seria usar o precedente adotado para a indústria farmacêutica. Novos medicamentos começam com pequenos ensaios clínicos e passam para ensaios maiores com um número cada vez maior de pessoas, mas apenas quando evidências suficientes são produzidas para que os reguladores acreditem que são seguros para essa ampliação do teste. Só após são liberadas para o mercado. Considerando que a nova geração de sistemas de IA demonstrou a capacidade de manipular humanos, as empresas de tecnologia poderiam estar sujeitas a um processo similar.

Creio que essa ideia deva ser discutida. Novas aplicações de IA que afetem de forma substancial a sociedade deveriam passar por critérios que avaliem e regulem o seu lançamento, com base em evidências de segurança cuidadosamente delineadas. Provavelmente também será necessária mais transparência sobre como as decisões sobre lançamentos desses produtos de IA são tomadas e como e quais critérios as empresas adotam para criar mecanismo de segurança e evitar que vieses sejam incorporados em seus resultados.

Hoje o cenário é “wild west”. No momento, qualquer empresa pode liberar um sistema desses na escala que desejar, sem supervisão, literalmente da noite para o dia. Como foi o caso da liberação da talidomida, no final da década de 50, sob um sistema de supervisão poroso e frouxo, que causou danos irreparáveis.

Mas, preocupante e, que passa desapercebido é que na prática, as BigTechs que estão por trás desses chatbots estão realizando um grande experimento e nós que somos os sujeitos do teste.

Neste experimento, OpenAI e outros estão lançando uma “inteligência alienígena” que ninguém realmente entende, que tem a capacidade de influenciar nossa avaliação do que é verdade no mundo. E este teste já está acontecendo em escala global. Mais de um milhão de pessoas em dezenas de países tiveram acesso à nova versão do mecanismo de busca Bing da Microsoft, desenvolvido com a tecnologia LLM, desde seu lançamento há duas semanas. O próprio CEO da OpenAI em um tuíte reconheceu: “we think showing these tools to the world early, while still somewhat broken, is critical if we are going to have sufficient input and repeated efforts to get it right.”.

Os “somewhat broken” são as respostas desequilibradas que o chatbot Bing da Microsoft deu a alguns usuários, principalmente em conversas prolongadas. A Microsoft reagiu a esse comportamento limitando a duração das conversas a seis prompts. Mas também está avançando, anunciando que está lançando esse sistema em sua ferramenta de comunicação Skype e nas versões móveis de seu navegador Edge e mecanismo de pesquisa Bing.

Algo mudou… As BigTechs foram mais cautelosas no passado sobre o lançamento dessa tecnologia no mundo. Em 2019, a OpenAI decidiu não lançar uma versão anterior do modelo que alimenta o ChatGPT e o novo Bing porque os líderes da empresa consideraram muito perigoso fazê-lo, pelo que disseram na época. Mas, o mercado mudou. As BigTechs começam a enfrentar ventos de proa e testes em larga escala dão à Microsoft e à OpenAI uma grande vantagem competitiva, permitindo que reúnam grandes quantidades de dados sobre como as pessoas realmente usam esses chatbots. Tanto os prompts que os usuários inserem em seus sistemas quanto os resultados gerados por suas IAs podem ser realimentados em um sistema complexo, que inclui moderadores de conteúdo humano pagos pelas empresas — para melhorá-lo. De uma maneira muito real, ser o primeiro no mercado com uma IA baseada em chat dá a essas empresas uma enorme vantagem inicial sobre as concorrentes, como o Google.

Esses modelos também tendem a ser repletos de vieses que podem não ser imediatamente aparentes para os usuários. Por exemplo, eles podem expressar opiniões coletadas na Internet como se fossem fatos verificados. Quando milhões são expostos a esses vieses em bilhões de interações, essa IA tem o potencial de remodelar as visões da humanidade. Mesmo que os modelos generativos de IA se tornem, no futuro, totalmente interpretáveis ​​e precisos, eles ainda apresentariam desafios inerentes à conduta humana. Estudantes estão usando o ChatGPT para colar nas provas. A IA generativa pode criar anúncios por e-mail que inundam as caixas de entrada e são indistinguíveis das mensagens de amigos pessoais ou de pessoas conhecidas de negócios. Vídeos e anúncios gerados por IA retratando falsas plataformas de campanha podem dificultar a distinção entre posições políticas. Sinais sofisticados de falsidade, incluindo marcas d’água que significam a presença de conteúdo gerado por IA, podem não ser suficientes; eles precisam ser apoiados por um elevado ceticismo humano.

Algumas consequências podem ser inerentes. Na medida em que usamos menos nossos cérebros e mais nossas máquinas, os humanos podem perder algumas habilidades. Nosso próprio pensamento crítico, escrita e (no contexto de programas de conversão de texto em imagem como DALL-E e Stability.AI) podemos atrofiar as nossas habilidades de design. O impacto da IA ​​generativa na educação pode se manifestar no declínio da capacidade dos futuros líderes de discriminar entre o que intuem e o que absorvem mecanicamente. Ou pode resultar em líderes e gestores que aprendem seus métodos de negociação com máquinas e sua estratégia de negócios com evoluções da IA generativa, em vez de com outros humanos . Os efeitos colaterais podem ser muitos e ainda nem temos ideia do seu alcance.

Portanto, na minha opinião, estamos vendo o lançamento de produtos que ainda estão sendo pesquisados e em beta. Deveríamos ser muito mais cuidadosos.

--

--