chatGPT vai tirar seu emprego! Será? Vamos fazer alguns questionamentos…

Cezar Taurion
14 min readApr 3, 2023

Indiscutivelmente que o GPT-4 é um software fantástico. Basta ver “GPT4 Creates Utopia”. O questionamento que devemos fazer é que tudo isso está sendo desenvolvido com velocidade repentina e imprevista. As empresas do Vale do Silício estão em uma corrida furiosa para ver quem fica na liderança. A coisa toda é quase totalmente desregulada porque ninguém sabe como regular ou mesmo exatamente o que deve ser regulado. Sua complexidade derrota o controle. Seus próprios criadores não entendem exatamente como a IA faz o que faz. Como dizia Arthur C. Clarke: “Qualquer tecnologia suficientemente avançada é indistinguível da magia”. Parece que estamos interagindo com um ser senciente e inteligente, que entende tudo que falamos. A questão é que quando levantamos o capô…O chatGPT e sua base GPT-4 são caixas pretas, guardada em cofres! Ninguém sabe exatamente como funciona. Temos que ir atrás de algumas informações dispersas e especular um pouco.

O que sabemos? O chatGPT é uma interface estilo chat para uma versão do GPT-3 e agora GPT-4, que é o chamado Large Language Model (LLM). Um LLM é um tipo de modelo de linguagem, mas um que é muito grande. Um modelo de linguagem é uma distribuição de probabilidade sobre palavras. A proposta dos LLM é então encontrar a próxima palavra mais provável dada as palavras anteriores e os dados de treinamento. O chatGPT não está tentando ser útil, ou verdadeiro, ou inofensivo, ou um robô, ou um assistente. Ele está apenas tentando encontrar a próxima palavra mais provável, considerando as palavras anteriores e seus dados de treinamento.

Para resumir, um modelo de linguagem é apenas uma distribuição de probabilidade sobre palavras. Seja um modelo simples de n-grama ou um modelo de DL de 175 bilhões de parâmetros de última geração, o que ele está programado para realizar é o mesmo: registrar relações empíricas entre frequências de palavras em um corpus histórico de texto e usar essas relações empíricas para criar sequências aleatórias de palavras que tenham propriedades estatísticas semelhantes aos dados de treinamento. Essa característica estrutural dos modelos sugere uma fraqueza crítica dessa tecnologia como uma ferramenta para pensamento ou inteligência: problemas que são análogos a outros problemas nos dados de treinamento, mas diferem de alguma maneira pequena, sutil, mas crucial, que pode mudar a solução, o modelo de linguagem falha em produzir uma solução correta. Isso parece problemático se quisermos usar esse modelo substituindo um advogado ou médico.

A previsão da próxima palavra nos dá a próxima palavra mais provável, dadas as palavras anteriores e os dados de treinamento, independentemente do significado semântico dessas palavras, exceto na medida em que o significado semântico é codificado por frequências de palavras empíricas no conjunto de treinamento. O LLM não “sabe” que está escrevendo um poema ou fazendo um diagnóstico. Ele apenas sabe que está procurando a próxima palavra mais provável, considerando as palavras anteriores e os dados de treinamento. A única coisa que sustenta a qualidade da saída de um modelo de linguagem à verdade é a relação da verdade com as frequências de palavras nos dados de treinamento, e nada garante que essa relação seja sólida. Ele não sabe se a fonte é verdadeira ou falsa, uma vez que já está na base de treinamento. O artigo “Google and Microsoft’s chatbots are already citing one another in a misinformation shitshow” mostra um caso interessante. Demonstra claramente que os chatbots como chatGPT e Bard são incapazes de avaliar se as fontes de notícias são confiáveis, interpretam mal histórias sobre si mesmos e relatam mal suas próprias capacidades. Dada a incapacidade estrutural dos modelos de linguagem de separar fatos de ficção de maneira confiável, seu lançamento público de forma apressada, ameaça liberar um potencial de geração de desinformação e desconfiança na web.

Inicialmente a proposta que conduziu os LLM era de evoluir a assertividade do modelo através do aumento do volume de dados de treinamento. Isso aconteceu do GPT-1 ao GPT-3. Sobre o GPT-4 embora boatos se espalharam que sua base aumentou, a OpenAI não confirma nada disso e, portanto, não se sabe realmente se ela aumentou. Talvez sua melhoria seja por mais ênfase em outras técnicas, que discutiremos mais à frente. Um paper detalhando em mais profundidade o GPT-4 é o documento de 100 páginas da OpenAI “GPT-4 Technical Report”, que vale a pena ler para uma visão mais de perto de como foi preparado para ser liberado.

Esse pensamento é questionado por estudos como o “On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?”. O estudo mostra que ao contrário do que pode parecer, quando observamos sua saída, um LLM é um sistema que costura aleatoriamente sequências de formas linguísticas observados em seus vastos dados de treinamento, de acordo com informações probabilísticas sobre como elas se combinam, mas sem qualquer referência ao seu significado: ou seja, continua um papagaio estocástico, mesmo que o volume aumente.

Claro que muitos argumentam que tamanho importa. Ouço uma resposta comum a esse questionamento é que estamos testemunhando uma nova tecnologia em sua infância e que ela melhorará à medida que o volume continuar a crescer e que esses problemas se resolverão sozinhos. Mas se 175 bilhões não são suficientes? Precisaremos de 175 trilhões? Ou 175 quatrilhões? Lembrando mais uma vez que o LLM não está tentando resolver o problema colocado pelo prompt do usuário. Ele está apenas tentando encontrar a próxima palavra mais provável dadas as palavras anteriores, onde a probabilidade é puramente uma função das frequências de palavras conjuntas nos dados de treinamento. Se a saída corresponde a uma solução correta para o problema que você colocou é completamente secundário. Muitas vezes a sequência mais provável de tokens corresponde a uma solução correta. Mas outras vezes isso não acontece, e o modelo literalmente não se importa.

Reparem também que há uma aleatoriedade inerente às respostas fornecidas pelo modelo de linguagem. Não é possível encontrar a resposta mais provável dada a entrada; encontrar isso exigiria ainda mais computação do que já usa. Em vez disso, ele gera um candidato para uma resposta provável dada a entrada, e faz isso incorporando alguma aleatoriedade nas respostas que produz. O LLM nem sempre escolhe a próxima palavra mais provável, mas sempre escolhe uma das próximas palavras mais prováveis.

Um modelo de linguagem não aprende com os erros por si. Aprendizado e reconhecimento do erro são metáforas antropomórficas que inventamos para tentar entender o que está acontecendo, e elas escondem suposições importantes sobre a natureza dos modelos de linguagem: que os modelos estão dando o seu melhor, que conforme o tempo passa e eles crescem, eles se tornam mais inteligentes, que aprenderão com seus erros. Essas são características humanas que é tentador projetar no modelo de linguagem, mas não há razão para acreditar que é assim que os modelos de linguagem funcionam. O modelo de linguagem não aprende continuamente a partir de estímulos como uma criança; ele fica congelado no tempo até a próxima vez que for treinado, e treiná-lo custa muito dinheiro. Além disso, é bem possível que as iterações futuras sejam ainda piores na resolução de determinadas situações. Na verdade, não entendemos sobre porque grandes modelos de linguagem fazem o que fazem e não há razão teórica para esperar que eles se tornem melhores nessas tarefas com aumento da escala de treinamento.

Eu acredito que as pessoas estão superestimando a novidade da tecnologia e o ritmo de seu desenvolvimento. Muitas pessoas estão vendo essa tecnologia pela primeira vez agora, como se tivessem ido dormir na Idade Média e acordassem no dia seguinte, na era espacial. Mas a base do chatGT é o Transformer que existe desde 2017, e as primeiras publicações da OpenAI sobre GPT foram em 2018, quase 5 anos atrás. Para uma visão conceitual e mais amena de como o transfomer funciona, recomendo ler “Attention is all you need: Discovering the Transformer paper” e “What’s the Difference Between Self-Attention and Attention in Transformer Architecture?”. E o paper da OpenAI “Improving language understanding with unsupervised learning” mostra as bases conceituais dos GPT. Isso pode parecer pouco tempo, mas só para colocar em perspectiva, o GPT está há mais tempo do que outro hit, o TikTok.

Mas, o chatGPT nos traz respostas surpreendentes. Se o volume por si não é o responsável, como ele faz isso? O molho de sucesso do chatGPT é um ajuste fino do que a OpenAI chama de processo para alterar as probabilidades de palavras que o GPT-3 ou GPT-4 forneceria imediatamente, a fim de tornar certos tipos de respostas mais ou menos prováveis. Ele funciona primeiro gerando manualmente um conjunto de “demonstrações”, exemplos de autoria pessoal da saída ideal que o construtor de modelos deseja produzir. As probabilidades de palavras do modelo são então alteradas para fornecer probabilidades mais altas de saída que correspondam às demonstrações. As probabilidades podem ser alteradas ainda mais por um método chamado Aprendizagem por Reforço através do Feedback Humano (RLHF), que usa o feedback das pessoas para alterar ainda mais as probabilidades da palavra de forma a favorecer as respostas que recebem feedback positivo.

Essa técnica é mostrada no paper da OpenAI, “Aligning language models to follow instructions”, publicado em janeiro de 2022 e que serviu de base para o InstructGPT, que foi o protótipo do que veio a ser o chatGPT. A OpenAI viu que o modelo resultante do RLHF, o InstructGPT ficou muito melhor em seguir instruções do que o GPT-3. Ele também inventa fatos (as tais “alucinações”) com menos frequência e mostrou reduções na geração de saídas tóxicas. Nossos rotuladores preferem saídas de nosso modelo InstructGPT de 1.3B parâmetros em vez de saídas de um modelo de 175B como GPT-3, apesar de ter 100 vezes menos parâmetros.

Aqui abro um parêntesis. O fator humano no treinamento dos algoritmos é frequentemente esquecido e muitas vezes até propositalmente, para dar uma impressão de “inteligência automática” nos produtos de IA. Vejam o artigo “A.I.’s dirty secret”. Nele vemos que muitos sistemas de IA na verdade criaram uma massa de trabalhadores escondidos atrás de telas, máquinas e rostos humanizados de robôs. Os robôs e chatbots não estão substituindo totalmente os humanos, eles estão apenas mantendo essas pessoas fora de nossas vistas. Também deem uma olhada nesse: “Amazon’s cashierless stores: artificial intelligence or major deception?”. Fechamos o parêntesis e voltamos ao tema.

É importante entender por que a saída do ChatGPT e a do GPT-3 são diferentes. No treinamento do chatGPT, pessoas compuseram manualmente respostas que foram usadas para criar uma versão alterada do GPT-3, e o chatGPT, atribui à essas respostas compostas por humanos uma probabilidade maior. GPT-3/4 e ChatGPT continuam sendo apenas modelos de linguagem, apenas com diferentes distribuições de probabilidade sobre as palavras. Embora os detalhes específicos da construção do ChatGPT não sejam públicos, o OpenAI se refere a ele como um “modelo irmão” do InstructGPT. Há um paper que detalha o processo que eles usaram para construir o InstructGPT: “InstructGPT: Training Language Models to Follow Instructions with Human Feedback”.

No paper você vê as diferenças:

Quando você lê o paper, uma coisa que chama atenção é o quão manual é o processo de ajuste fino. A OpenAI contratou 40 contratantes localizados no Sudeste Asiático e nos EUA para uma exaustiva jornada de geração e classificação dos tipos de respostas que um assistente de IA que seja “útil”, “honesto” e “inofensivo” deve fornecer.

O treinamento com o método RLHF tem basicamente dois componentes manuais. Na primeira etapa, as pessoas recebem prompts típicos e são incumbidas de escrever manualmente respostas de exemplo que acreditam que um assistente de IA útil, honesto e verdadeiro forneceria. São as chamadas “manifestações”. O anexo do trabalho inclui alguns exemplos de demonstrações obtidas das pessoas que foram contratados para o InstructGPT. Quando são coletadas demonstrações suficientes (cerca de 13.000, no caso do InstructGPT, e muito mais para o ChatGPT, elas podem ser usadas para criar uma versão inicial alterada do modelo de linguagem que produz texto que é mais semelhante em média às demonstrações.

No próximo estágio, o modelo ajustado inicial é usado para gerar milhares de suas próprias respostas aos prompts, que as pessoas pontuam e classificam de acordo com o quão bem elas correspondem à saída desejada. As instruções de rotulagem também estão disponíveis publicamente e são uma leitura interessante. Para cada um dos milhares de resultados do modelo, os empreiteiros contratados responderam à diversas perguntas. No caso de prompts tóxicos é provável que tenham usado a maioria do conteúdo que vemos no “RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models”. Uma propriedade interessante do processo RLHF é que, embora exija uma equipe de pessoas pagas para gerar o conjunto inicial de demonstrações e executar as primeiras tarefas de rotulagem em profundidade, uma vez que essa parte esteja concluída, é teoricamente simples continuar iterando diretamente através do feedback dos usuários e provavelmente essa foi uma das razões para a liberação pública do chatGPT.

Mas, lembrem-se que esse refinamento não gera inteligência ou dá mais um passo na direção de uma AGI. A atual “general purpose AI”, exemplificada pelos LLM populares como ChatGPT, Bard e o novo Bing alimentado por IA, não são exemplos de inteligência artificial geral (AGI). Esses sistemas não possuem representações internas do mundo em que operam. Eles são apenas produtos, artefatos que não podem raciocinar e não podem generalizar e abordar um conjunto indefinido de tarefas intelectuais, pelo menos como os humanos, como teoricamente faria uma AGI. Tem dois papers muito interessantes sobre isso, “Let’s not bomb those AI data centres just yet” e “Deep Learning Is Hitting a Wall” que valem a pena a leitura.

O chatGPT apenas atribui um conjunto diferente de probabilidades às palavras. Continua não compreendendo o significado delas. O ChatGPT não fornece respostas porque acredita que ela seja verdade. Ele fornece respostas que parecem bem inteligentes porque são mais similares às respostas de autoria pessoal usadas para ajustá-lo.

Um aspecto interessante sobre o comportamento do ChatGPT. O ChatGPT parece atribuir probabilidades relativamente altas a respostas que contêm uma admissão de erro. Isso parece ao usuário que ele reconhece e tenta corrigir seus erros. Mas na prática, não há reexame, não há busca de erros, não há correção, não há desculpas. São todas as sequências de texto aleatórias reunidas para corresponder a alguns exemplos, onde os exemplos contêm muitas autocorreções. Na verdade, o ChatGPT não se importa se a autocorreção está em si, correta. As autocorreções são uma ilusão. Elas fazem parecer que estamos nos comunicando com algo que entende o que o texto que está produzindo significa, que tem uma experiência subjetiva e que pode considerar novas informações e fazer julgamentos, e que até se sente mal por enganar você. Mas ele está apenas produzindo sequências aleatórias de texto em ordem aleatória projetadas para corresponder aos seus dados de treinamento.

E aí entramos na questão se o chatGPT vai mudar a sociedade e acabar com os empregos. Por exemplo o estudo da OpenAI, “GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models” estima que muito mais empregos são vulneráveis ​​à implantação de modelos LLMs, como o ChatGPT, do que estudos anteriores sugeriram. Pesquisas anteriores concluíram que apenas três por cento dos trabalhadores de um país desenvolvido como os EUA teriam metade ou mais de seu trabalho bem executado pela IA. Mas, os números da OpenAI são muito maiores. No estudo da OpenAI, cerca de 19% dos trabalhadores enfrentam pelo menos metade de suas tarefas sendo impactadas pela IA. Como OpenAI gerou essa conclusão? É verdade que os pesquisadores da OpenAI não se concentraram no que a IA pode fazer hoje, mas no que eles imaginam que ela poderá vir a fazer no futuro. Eles admitem em uma nota de rodapé que ‘fomos fortemente motivados por nossas capacidades observadas do GPT-4’, a atualização mais recente do OpenAI para o ChatGPT. Isso é como dizer que, se você pudesse criar asas, seria capaz de competir com drones ou helicópteros leves, pelo menos em baixas altitudes.

Os autores do estudo também assumem que a tecnologia será generalizável, o que significa que a IA será capaz de se adaptar a dados novos, uma posição não compartilhada por outros pesquisadores. Essa suposição permite que os pesquisadores da OpenAI afirmem que a adoção de LLMs “provavelmente será generalizada”. Os pesquisadores também citam trabalhos que concluíram que “o GPT-4 serve como um discriminador eficaz, capaz de aplicar taxonomias intrincadas e responder a mudanças na redação e na ênfase”. Essa conclusão é baseada em um trabalho realizado pela própria OpenAI. Essas suposições podem ser questionadas. Por exemplo, os LLMs mostraram que podem responder corretamente a questões de diversos exames, como comumente feitos para advogados e médicos. Mas muitas vezes eles falham, produzindo “alucinações”, respostas que parecem corretas, mas na verdade são absurdas. Um artigo interessante sobre isso é “Hallucinations Could Blunt ChatGPT’s Success”.

Então, que deveremos medir? As vezes que os LLMs enganaram um humano ou não? E, dado que os examinadores estão se familiarizando com as novas ferramentas de preenchimento automático de IA, como os LLMs lidarão se a substância ou os critérios de avaliação do exame mudarem? Por exemplo, o artigo “Can Turnitin detect ChatGPT? How plagiarism checker used by schools and universities is combatting AI” mostra que se pode criar detetores de uso de LLM ou mesmo mudar o próprio processo de exames. Aliás, os autores do estudo da OpenAI se permitem algum espaço de manobra em suas previsões. Eles prefaciam suas descobertas com o disclaimer de que “technical feasibility does not guarantee labour… outcomes”. Mas, a leituras superficial do paper acabam gerando muito alarde e notícias fantasiosas. Isso já aconteceu antes. Em 2013, pesquisadores de Oxford publicaram um paper que dizia que “47% do total de empregos nos EUA” estava em risco devido à automação”. Isso propagou-se e virou referência até que anos depois foi revisto, como vemos em “AI ‘poses less risk to jobs than feared’ says OECD”. A lista de ocupações condenadas a desaparecer pelo estudo de 2013 incluía motoristas de ônibus e cozinheiros de fast-food. Uma década depois, não há evidências de que um único motorista de ônibus ou cozinheiro de fast-food tenha se tornado redundante devido à IA. Nem ninguém mais está prevendo isso hoje.

É verdade que a automação sempre acabou com empregos e transformou outros. Não temos mais ascensoristas e telefonistas. 70 anos atrás em uma cabine de uma aeronave comercial de voos internacionais tínhamos 5 tripulantes: comandante, copiloto, engenheiro de voo, radio-operador e navegador. O avanço da automação reduziu essa tripulação a dois, o comandante e o copiloto, que na maior parte do voo operam os computadores de bordo. É um perfil totalmente diferente. A IA, como outras tecnologias, vai acabar com umas profissões e transformar outras. E, claro, como toda automação, cria novas. No início do século 20 substituímos cocheiros por motoristas, Na década de 60 criamos programadores e analistas de sistemas. Agora com tecnologias LLM seu perfil profissional também deve mudar, e novos skills serão necessários. Uma boa discussão está em “Malleable software in the age of LLMs”.

Mas, indiscutivelmente que um overhype produz grandes manchetes. Goldman Sachs diz que “IA custará ao mundo dois terços dos empregos”, e como no estudo da OpenAI acima, que diz que “80% dos trabalhadores podem ver seus empregos impactados”. O ChatGPT, certamente é melhor do que as versões anteriores dos sistemas de AI, mas não acredito nem de longe que é o matador de empregos que o Goldman Sachs e a OpenAI afirmam. É incrível a rapidez com que algumas pessoas entram na onda mais recente sobre robôs e IA deixando todos desempregados, ou apenas dizendo que novas tecnologias, como veículos autônomos, blockchain, metaverso, AR, VR ou NFTs,e agora chatGPT irão mudar o mundo. Tem um artigo muito instigante que questiona isso: “Why our fears of job-killing robots are overblown”, publicado em 2021, na Fast Company.

Meu pitaco: vimos nascer e morrer rapidamente o entusiasmo por novas tecnologias. O metaverso é um exemplo recente. Apareceu com pompa e até fez o Facebook mudar de nome para Meta. No auge do seu hype vimos a criação de cargos como Chief Metaverse Officer. Vimos serem lançados cursos de MBA e mesmo cursos de 5 horas que diziam formar experts certificados em metaverso! Consultorias embarcaram no hype e geraram relatórios com números meio fantasiosos, como a McKinsey afirmando “With its potential to generate up to $5 trillion in value by 2030, the metaverse is too big for companies to ignore.” Bem, parece que a própria Meta reverteu o rumo…(“Meta, Microsoft, and Disney are reversing their bets on the metaverse”). Por isso, muita atenção com os hypes do momento. Com o ocaso do metaverso, as empresas que haviam feito grandes planos para isso estão abandonando o navio e embarcando na IA generativa. Será um hype? No auge do entusiasmo ninguém diz que é. Mas, e se for, até quando vai durar? Devemos separar a IA, uma tecnologia transformadora, que é uma ferramenta muito útil, quando bem aplicada, do atual hype da IA generativa.

--

--