Cuidado com o tecno-otimismo exacerbado…

Cezar Taurion

--

A economia global já foi impulsionada pela industrialização. Hoje é alavancada por conhecimento e informação. Grandes avanços tecnológicos e mudanças de plataforma aceleraram essa transição. Na década de 1990 tivemos a Internet. Os anos 2000 trouxeram a era da computação em nuvem. A década de 2010 deu origem à onipresença dos smartphones. O que antes eram plataformas emergentes ampliou o acesso ao conhecimento e transformou a forma como as pessoas se comunicam, criam e consomem conteúdo.

Hoje, os avanços nos sistemas chamados de Large Language Models, ou “LLMs”, e outras ferramentas generativas de ML (“generative AI”) estão simplificando a criação de conteúdo. LLMs são redes neurais complexas que podem gerar textos ou imagens. Esses modelos são a sustentação de sistemas como o GPT da OpenAI (texto), chatGPT, Gemini do Google e ajudaram a inspirar o DALL-E e o Sora da OpenAI (texto para imagem). Os LLMs vêm aumentando em tamanho e sofisticação a cada ano. Como resultado, esses sistemas já podem gerar conteúdo de forma autônoma, seja texto, visual, áudio, código, dados ou multimídia, a partir de simples prompts criados por humanos. Esses modelos estão se tornando rapidamente a estrutura cognitiva da aplicação da IA ​​em muitas aplicações do mundo real.

A IA generativa é uma abordagem nascente, mas criativa. É um dos mais significativos avanços nas técnicas do aprendizado profundo (Deep Learning) que vimos na última década. É um aprendizado de máquina não supervisionado e/ou semi-supervisionado para criar novos conteúdos, como imagens digitais, vídeo, áudio, texto ou código. Até agora, existem duas estruturas principais de IA generativa: Generative Adversarial Network (GAN) e Generative Pre-trained Transformer (GPT).

A GAN usa duas redes neurais para competirem entre si, colocando uma contra a outra (portanto, “adversária”) para gerar novas instâncias de dados sintéticos que podem passar por dados reais. As GANs usam uma estrutura cooperativa de jogo de soma zero para aprender. Eles são amplamente utilizados na geração de imagem, vídeo e voz. Aqui tem paper bem interessante sobre GAN: https://machinelearningmastery.com/impressive-applications-of-generative-adversarial-networks/ Essa técnica foi muito pesquisada e considerada estado da arte da IA generativa entre 2015 e 2018. Foi uma das técnicas generativas mais populares até que os transformers foram introduzidos, alguns anos atrás. E aqui um paper comparando GAN e transformers: https://www.techtarget.com/searchenterpriseai/tip/GAN-vs-transformer-models-Comparing-architectures-and-uses

O conhecido GPT é um modelo de linguagem autorregressivo baseado na arquitetura do transformer, pré-treinado de forma generativa e não supervisionada. O transformer é uma arquitetura codificador-decodificador com um mecanismo de auto atenção. Como ele pode acessar os vetores de estado de cada palavra de entrada, diferentemente do LSTM (Arquitetura de Redes Neurais Long Short Term Memory), usa apenas informações sobre outros tokens de camadas inferiores e pode ser calculado para todos os tokens em paralelo, demonstrando precisão e desempenho de treinamento significativamente aprimorados.

Existem muitas aplicações de aprendizado profundo, mas NLP e visão computacional são dois principais. Eles são domínios fundamentais da aprendizagem cognitiva, mas bifurcados por duas diferentes modelagens de DL: RNN (Recurrent neural network) e CNN (Convolutional neural network). Devido à sua complexidade sofisticada e arquiteturas variadas, os cientistas de ML tiveram que pesquisar e desenvolver esses dois assuntos de forma independente, e com isso, tornando difícil o seu compartilhamento e evolução em conjunto. A IA generativa, primeiro com GAN e agora com transformer mudou o jogo. A técnica transformer não apenas teve sucesso na modelagem de linguagem, mas demonstrou ser promissor em visão computacional.

Generative AI e LLMs são a base de uma importante mudança de paradigma na criação de conteúdo, comunicação e geração de conhecimento. Assim como a computação em nuvem e os smartphones transformaram indústrias e criaram outras totalmente novas, a IA generativa também têm esse potencial. A IA generativa tem ampla aplicação em mídia e comunicações, software, ciências da vida e assim por diante. Em muitos casos de uso, tem um custo mais baixo e uma geração de valor mais alto, então é provável que a sua adoção possa ser rápida.

Isso, claramente desperta interesse de investidores (VCs) e surgem diversas startups. Aparecem também aplicações que aprimoram cada vez mais as imagens, inclusive tornando essas imagens imperceptíveis de vídeos e fotos reais.

Mas, esses sistemas precisam de muito dinheiro e capacidade computacional para serem treinados e por isso acabam ficando nas mãos de poucas e bilionárias empresas que tem condições para bancar esses investimentos. Esses sistemas se tornam a plataforma base para que aplicações e startups sejam construidas em cima, mais ou menos, como o Android e o iOs, nos smartphones.

E aqui discutimos um ponto de atenção. Generative AI é uma das aplicações mais transformadoras que o campo da IA já viu até o momento. Ele poderá redefinir como criamos, mas também como interagimos e nos relacionamos com as criações dos outros.

Enquanto a IA tradicional nos permite extrair padrões e insights dos dados, moldando-os em novos conhecimentos, a IA generativa vai além. Ele usa esses dados para gerar mais dados. O fato de sua utilidade se manifestar no nível do consumidor tem potencial de mudar muita coisa. Qualquer pessoa pode usar a IA generativa para criar novos dados, sejam esses textos ou imagens.

Estamos vivendo em uma era sem precedentes de expansão criativa. O que historicamente era reservado para poucos agora está ao alcance de qualquer pessoa com computador e acesso à internet. A maioria das pessoas do planeta ainda não sabe que essa tecnologia existe, mas não demorará muito para que ela se torne mais e mais disseminada. É fácil de acessar e usar, relativamente barata e extremamente versátil. E melhora rápido. O potencial da IA ​​generativa no nível individual é enorme, mas no nível coletivo é uma mudança de vida.

Nesse nível, o que mais importa é a escala — não como “grande o suficiente para resolver um problema”, mas como “grande o suficiente para causar um”. O desenvolvimento acelerado combinado com utilidade transversal e escalabilidade inerente (fácil de usar e barato) é a maior força da IA ​​generativa e, também, sua maior fraqueza.

Acredito que essas ferramentas generativas de IA podem ajudar a melhorar a capacidade humana, de escrever, pintar, codificar e qualquer outra coisa que possa surgir. Se uso de forma criativa, com as pessoas explorando seus “eus” criativos, é extremante positiva. Essas criações terão intenção e personalidade, mesmo que seja impossível capturá-las totalmente com os textos dos prompts.

Creio que o problema aparece quando essas ferramentas se cruzam com nossa falta de senso de proporção e os incentivos externos aos quais todos estamos sujeitos, quando nosso objetivo é gerar o máximo de conteúdo possível para obter algum benefício. A cultura do “like”.

Muitas pessoas não aprimorarão suas habilidades, mas a substituirão, usando as ferramentas em todas as oportunidades possíveis. Se pudermos usar essas ferramentas para qualquer atividade criativa, muitos (se não a maioria das pessoas) as usarão para todas as atividades criativas.

Uma consequência negativa é que eventualmente inundaremos a Internet com dados gerados por IA. Isso não implica que os sistemas de IA criarão todos os dados na internet, mas se uma boa parcela for gerada por IA e não soubermos disso, talvez aí tenhamos um problema. Esses métodos sofisticados de IA produzem resultados sem explicar por que ou como seu processo funciona.

Um LLM é solicitado por uma consulta de um ser humano. A máquina de aprendizagem responde em um texto coerente em segundos. Ele é capaz de fazer isso porque tem representações pré-geradas dos vastos dados nos quais foi treinado. Como o processo pelo qual criou essas representações foi desenvolvido por aprendizado de máquina que reflete padrões e conexões em grandes quantidades de texto, as fontes precisas e os motivos para os recursos específicos de qualquer representação permanecem desconhecidos. Por qual processo a máquina de aprendizagem armazena seu conhecimento, destila e recupera permanece igualmente desconhecido.

À medida que a IA generativa melhora e se torna mais acessível ao público em geral, a diferença na velocidade com que nós, coletivamente, criamos dados da forma pessoal versus a automática só aumentará, com a porcentagem de dados e imagens criados pelos humanos diminuindo rapidamente.

Enquanto uma imagem do Instagram pode ter filtros ou reestruturação de formato, ou seja, uma melhoria no trabalho humano, uma imagem gerada por um sistema como DALL·E ou Sora, pertence a uma categoria diferente de mídia sintética. Com modelos de texto para imagem, a entrada humana é um prompt, um simples texto. É o sistema de LLM que apresenta uma representação visual, que não é apenas uma transformação mínima, e o processo intermediário é opaco (impenetrável) e estocástico (dificilmente repetível).

Os dados gerados pelos sistemas LLM são o mais distante do “natural”, pois a entrada humana é mínima. Embora isso não reduza necessariamente o valor do resultado, o coloca em uma categoria própria. Isso abre todo uma discussão sobre direitos autorais que precisarão ser atualizados.

Hoje, menos de 1% do conteúdo online é gerado usando esses algoritmos. Agora, imagine que o DALL-E, Sora e outras ferramentas, cresçam de forma acelerada durante os próximos anos para mais de 1 bilhão de usuários diários, que é um crescimento plausível, se assumirmos que a tecnologia amadurecerá e será integrada a produtos e serviços populares. Teríamos alguns trilhões de imagens sendo geradas por esses sistemas em pouco anos. Isso é no mínimo quatro a cinco vezes todas as imagens feitas pelo homem na Internet. E esse volume pode ser esperado para texto, código, etc. A Internet já contém mais informações do que qualquer ser humano (ou todos combinados, aliás) jamais poderia consumir em toda a vida. Apenas no YouTube, os usuários carregam 30 anos de vídeos todos os dias. O mesmo acontecerá com textos e imagens, gerados por ferramentas LLMs.

O problema pode ser a qualidade dessas informações. Nada impede que a baixa qualidade impere e sejamos inundados por imagens desagradáveis e textos que geram desinformação, preconceitos e falsidades. Como temos o incentivo para criar mais dados porque a maioria não tem a intenção de transmitir ou armazenar ideias, pensamentos ou sentimentos, mas sim atrair atenção (objetivo de gerar receita com “likes”), a proposta de “precisamos criar mais e mais” não é positiva. Nesse caso, a IA generativa piora a situação. Um exemplo e a multiplicação de livros escritos basicamente via ChatGPT. Já temos muitos exemplos da proliferação desses livros, o que agrava o plagiarismo.

A ciência iluminista acumulou certezas; a nova IA gera ambiguidades cumulativas. A ciência do Iluminismo evoluiu tornando os mistérios explicáveis, delineando os limites do conhecimento e da compreensão humana à medida que se moviam. As duas faculdades moviam-se em conjunto: a hipótese era o entendimento pronto para se tornar conhecimento; a indução era o conhecimento se transformando em compreensão. Na Era da IA, os enigmas são resolvidos por processos que permanecem desconhecidos. Esse paradoxo desorientador torna os mistérios inexplicáveis. Inerentemente, a IA altamente complexa promove o conhecimento humano, mas não a compreensão humana — um fenômeno contrário a quase toda a modernidade pós-iluminista. No entanto, ao mesmo tempo, a IA, quando combinada com a razão humana, representa um meio de descoberta mais poderoso do que a razão humana sozinha.

A diferença essencial entre a Era do Iluminismo e a Era da IA, portanto, não é tecnológica, mas cognitiva. Após o Iluminismo, a filosofia acompanhou a ciência. Novos dados desconcertantes e conclusões muitas vezes contraintuitivas, dúvidas e inseguranças foram dissipadas por explicações abrangentes da experiência humana. A IA generativa pode gerar uma nova forma de consciência humana. Até agora, entretanto, a oportunidade existe em direções para as quais não temos bússola. Nenhuma liderança política ou filosófica foi formada para explicar e orientar essa nova relação entre homem e máquina, deixando a sociedade relativamente sem limites.

O que muitas vezes é bom para o Vale do Silício, não necessariamente agrada o restante do mundo. Culturas diferentes têm diferentes pontos de vista e o que pode ser atrativo para uma, pode ser ofensiva para outra. À medida que novas tecnologias aparecem, como os algoritmos geradores de imagem, a recepção poderá ser bem diferente, dependendo dos aspectos culturais da uma sociedade. Além disso, creio que o avanço muito rápido na evolução tecnológica dos sistemas LLM, acaba gerando conflitos entre as diferentes percepções éticas e legais. Muitas vezes torna-se tênue o limite entre a legalidade e a ilegalidade.

Não devemos cercear o futuro aplicando nas novas tecnologias estritamente as regras de hoje, como também não podemos julgar o passado pelos hábitos, costumes e leis de hoje. Épocas diferentes, têm comportamentos e hábitos diferentes, e, portanto, legislações que mudam com as mudanças sociais e econômicas.

A IA generativa está ganhando força dentro e fora do setor de tecnologia. Está acontecendo muito rápido. E existe a grande possibilidade de inundar a Internet com conteúdo de baixa qualidade. Creio que temos pela frente uma longa e acalorada discussão sobre os limites de aplicação (se existirão…) dessas tecnologias. Esse é o cuidado que devemos ter. O problema não é a tecnologia, mas como a usamos.

Alguns cuidados precisam ser tomados. A primeira opção seria deixar tudo como está. Hoje as BigTechs decidem por conta própria quando e onde lançar um produto, mesmo aqueles que afetam bilhões de pessoas, sem regulamentações, confiando nas suas decisões. E aguardar que elas mesmo aprendam a controlar sua IA e encontrar maneiras menos caóticas de lançá-las.

A segunda opção é adotar uma abordagem oposta, e decretar uma proibição total dessas novas formas de IA. Isso teria implicações que afetaria negativamente a evolução da IA. Poderia até mesmo eliminar novas pesquisas e seria um retrocesso.

Mas há uma terceira opção, intermediária, em que teríamos regulamentações que permitissem a pesquisa de IA, mas com adequado controle na sua implantação em larga escala (como por exemplo, chatbots liberados rapidamente para centenas de milhões de clientes) até que efetivamente se comprovasse sua segurança.

A ideia seria usar o precedente adotado para a indústria farmacêutica. Novos medicamentos começam com pequenos ensaios clínicos e passam para ensaios maiores com um número cada vez maior de pessoas, mas apenas quando evidências suficientes são produzidas para que os reguladores acreditem que são seguros para essa ampliação do teste. Só após são liberadas para o mercado. Considerando que a nova geração de sistemas de IA demonstrou a capacidade de manipular humanos, as empresas de tecnologia poderiam estar sujeitas a um processo similar.

Novas aplicações de IA que afetem de forma substancial a sociedade deveriam passar por critérios que avaliem e regulem o seu lançamento, com base em evidências de segurança cuidadosamente delineadas. Provavelmente também será necessária mais transparência sobre como as decisões sobre lançamentos desses produtos de IA são tomadas e como e quais critérios as empresas adotam para criar mecanismo de segurança e evitar que vieses sejam incorporados em seus resultados.

Hoje o cenário é quase um “wild west”. No momento, qualquer empresa pode liberar um sistema desses na escala que desejar, sem supervisão, literalmente da noite para o dia. Como foi o caso da liberação da talidomida, no final da década de 50, sob um sistema de supervisão poroso e frouxo, que causou danos irreparáveis.

Mas, preocupante e, que passa desapercebido é que na prática, as BigTechs que estão por trás desses chatbots estão realizando um grande experimento e nós que somos os sujeitos do teste.

Neste experimento, OpenAI e outros estão lançando uma “inteligência alienígena” que ninguém realmente entende, que tem a capacidade de influenciar nossa avaliação do que é verdade no mundo. E este teste já está acontecendo em escala global. O próprio CEO da OpenAI em um tuíte (antigo) reconheceu: “we think showing these tools to the world early, while still somewhat broken, is critical if we are going to have sufficient input and repeated efforts to get it right.”.

Os “somewhat broken” são as respostas desequilibradas que o chatbot dá a muitos usuários, principalmente em conversas prolongadas.

Esses modelos também tendem a ser repletos de vieses que podem não ser imediatamente aparentes para os usuários. Por exemplo, eles podem expressar opiniões coletadas na Internet como se fossem fatos verificados. Quando milhões são expostos a esses vieses em bilhões de interações, essa IA tem o potencial de remodelar as visões da humanidade. Mesmo que os modelos generativos de IA se tornem, no futuro, totalmente interpretáveis ​​e precisos, eles ainda apresentariam desafios inerentes à conduta humana. Estudantes estão usando o ChatGPT para colar nas provas. A IA generativa pode criar anúncios por e-mail que inundam as caixas de entrada e são indistinguíveis das mensagens de amigos pessoais ou de pessoas conhecidas de negócios. Vídeos e anúncios gerados por IA retratando falsas plataformas de campanha podem dificultar a distinção entre posições políticas. Sinais sofisticados de falsidade, incluindo marcas d’água que significam a presença de conteúdo gerado por IA, podem não ser suficientes; eles precisam ser apoiados por um elevado ceticismo humano.

Algumas consequências podem ser inerentes. Na medida em que usamos menos nossos cérebros e mais nossas máquinas, os humanos podem perder algumas habilidades, como nosso próprio pensamento crítico e a escrita. E no contexto de programas de conversão de texto em imagem como Dall-E , Sora e Stability.AI, podemos atrofiar as nossas habilidades de design. O impacto da IA ​​generativa na educação pode se manifestar no declínio da capacidade dos futuros líderes de discriminar entre o que intuem e o que absorvem mecanicamente. Ou pode resultar em líderes que aprendem seus métodos de negociação com máquinas e sua estratégia militar com evoluções de IA generativa, em vez de humanos nos computadores. Os efeitos colaterais podem ser muitos e ainda nem temos ideia do seu alcance.

Portanto, na minha opinião, o lançamento apressado, direcionado pela ânsia em valuation das empresas, ao público é prematuro. Estamos vendo o uso em larga escala de produtos que ainda estão sendo pesquisados e em beta. Deveríamos ser muito mais cuidadosos.

--

--

No responses yet