GenAI: Não mergulhe de cabeça sem saber a profundidade da água…

Cezar Taurion
9 min readMar 30, 2024

--

Quando a maioria das pessoas interage pela primeira vez com a IA generativa, através de ferramentas como ChatGPT, DALL-E ou Midjourney IA parece mágica. Os jornais diários cobrem o tema incessantemente e muitos dos seus colegas de trabalho, amigos e até mesmo seus filhos não param de falar sobre isso. Mas, curiosamente, apesar do hype, ainda vemos um uso acanhado. Em pesquisas informais, que fazemos nos nossos eventos, descobrimos que a maioria das pessoas já ouviu falar ou mesmo experimentou uma ferramenta dessas, acredita que terá impactos no seu negócio e profissão, mas salvo raras exceções, não as usam diariamente.

Toda nova tecnologia leva algum tempo para se disseminar. Tem muito hype envolvido e os “early adopters”, que naturalmente se expressam com mais intensidade nas redes sociais criam uma caixa de ressonância que dá a impressão de seu uso está muito mais disseminado que realmente está.

Muitas pesquisas apontam que grandes percentagens de entrevistados acreditam que a IA generativa tem potencial para ser transformacional e a grande maioria dos respondentes também está aumentando o investimento na tecnologia. No entanto, a maioria das empresas ainda está apenas experimentando, seja a nível individual ou departamental. Apenas poucas empresas possuem alguma aplicação em produção de IA generativa. Na prática, embora o entusiasmo pela IA generativa seja muito alto, o valor ainda não foi, em grande parte, entregue.

As implantações de produção de IA generativa exigirão, é claro, investimentos e mudanças organizacionais, e não apenas experimentos. Muitos processos empresariais terão de ser redesenhados e os funcionários terão de ser requalificados (ou, provavelmente em apenas alguns casos, substituídos por sistemas de IA). As novas capacidades de IA terão de ser integradas na infraestrutura tecnológica e de sistemas existente.

O ambiente corporativo é muito diferente do ambiente pessoal. Existem regras de compliance, normas regulatórias, processos de auditoria e, claro, a expectativa dos gestores em traduzir investimentos em tecnologia em resultado tangível para o negócio. Para transformar uma nova tecnologia em um motor de crescimento, ela precisa de ser economicamente transformadora no nível da empresa e não apenas de usuários individuais. O desafio para os executivos é como conceber implementações empresariais eficazes ou “máquinas de negócios” (combinações de tecnologias e processos) que criem uma forma nova, mais eficaz e rentável de satisfazer uma demanda valiosa dos seus clientes.

Olhando as redes sociais, vê-se muitos casos interessantes de uso individual. Mas, quais desses usos trarão retorno para o negócio? Pode-se ter cerca de 400 ideias sobre como usar a GenAI em uma organização, mas mesmo sendo uma grande empresa, ela provavelmente só conseguirá lidar com alguns projetos. Existem limitações de budget. É fundamental aprender a priorizar. Das centenas de boas ideias, quais são as três ou quatro mais importantes para a empresa?

O desafiador é escolher, até porque a tecnologia está em um grau de prontidão baixa e ainda existe pouco conhecimento aprofundado sobre GenAI na organização, tanto no nível executivo quanto na equipe técnica, que subsidiem com base as decisões.

No meio de todo o entusiasmo, há motivos para questionar se estas ferramentas terão os efeitos transformadores na produtividade de toda a empresa, como afirmado bombasticamente por algumas previsões. Uma razão para adotar uma abordagem mais cautelosa é que as avaliações de produtividade que saem na mídia normalmente se concentram no nível das tarefas individuais, como resumir um documento, completar uma apresentação de slides ou atender uma chamada de cliente, por exemplo, e como os indivíduos podem usar e se beneficiar dos LLMs. A análise de dados específicos de tarefas revela pouco sobre o verdadeiro efeito de uma nova tecnologia como os LLMs no desempenho global da organização e, portanto, utilizar essas conclusões de produtividade individual para tirar conclusões gerais sobre o desempenho no nível da empresa pode se revelar errôneo.

Uma recente estudo sobre o impacto da IA ​​generativa em um ambiente de call center, mostrou uma melhoria de 14% no tempo de conclusão da interação do atendente com a nova ferramenta. Mas, um olhar mais atento, no entanto, revelou alguns sinais preocupantes. De acordo com o estudo, o desempenho dos funcionários de topo diminuiu com o sistema, o que apresenta problemas potenciais para a inovação, motivação e retenção dos melhores funcionários de uma empresa. Em outro estudo, os pesquisadores encontraram mais ganhos de produtividade com a utilização de IA generativa para tarefas que eram bem cobertas pelos modelos atuais, mas a produtividade diminuiu quando esta tecnologia foi usada em tarefas onde os LLMs tinham uma fraca cobertura de dados ou exigiam um raciocínio que dificilmente seria representado nos seus data sets de treinamento. Com o tempo, as condições externas, como por exemplo, valores culturais e melhores práticas conhecidas, podem mudar, fazendo com que os benefícios desapareçam ou até mesmo conduzam a reduções significativas de produtividade.

As organizações devem adotar uma abordagem cautelosa para adotar LLMs. Os executivos devem considerar onde esta tecnologia realmente ajuda e resistir ao impulso de integrá-la a cada trabalho e tarefa em toda a organização. Para fazer isso, eles precisam compreender dois problemas centrais dos LLMs que são críticos em suas implicações de médio e longo prazo: 1) sua capacidade persistente de produzir falsidades convincentes (um LLM é otimizado para fluência e não acurácia) e 2) os prováveis ​​efeitos negativos a longo prazo do uso de LLMs em funcionários e processos internos. Quando combinadas, estas questões podem criar condições organizacionais propícias a falhas sistêmicas e difíceis de identificar, que podem degradar a eficácia organizacional se os casos de utilização de IA generativa não tiverem um âmbito restrito e forem continuamente monitorados.

Vamos imaginar um cenário de uma empresa usando um LLMs para escrever um manual de regras dos funcionários. Embora os responsáveis pela tarefa devam verificar todo o manual com atenção, depois de ler algumas páginas de um texto coerente e que parece confiável, eles provavelmente irão folhear o resto. Se um erro for introduzido no manual, ele poderá demorar anos para aparecer. Imagine que um manual do funcionário gerado automaticamente omita detalhes importantes sobre práticas e penalidades por assédio sexual. Este tipo de risco não pode ser adequadamente quantificado ao nível da tarefa. É necessária uma avaliação holística, organizacional e longitudinal.

O fato dos LLMs não serem treinados em tempo real, mas serem fixados em algum ponto do passado, é uma consideração importante quando considerada num contexto organizacional. Vamos voltar ao exemplo do call center. Se a empresa lançar um novo produto, não existirão registros de interação sobre esse produto para treinamento. Assim, mesmo assumindo que o resultado estava correto no passado, ele poderá estar completamente errado no futuro.

A dinâmica das organizações precisa ser contemplada na identificação de onde usar um LLM. O lançamento de um novo produto pode ser bastante fácil, mas e quanto a uma mudança na estratégia de marketing? E uma mudança em uma API que um programador usa em um LLM para autocompletar código de programação? As empresas terão de implementar novos processos abrangentes para monitorizar estes potenciais conflitos, e isso acarreta custos. Além disso, embora as alterações na velocidade de conclusão de uma tarefa sejam fáceis de medir, as alterações na precisão são menos detectáveis. Se um funcionário preencher um relatório em dois minutos em vez de 10, mas ele for menos preciso do que antes, como saberíamos e quanto tempo levará para reconhecer essa imprecisão?

Também os incentivos para que os profissionais de melhor desempenho contribuam para a reciclagem destas ferramentas precisam ser levadas em conta. Lembre-se, como observado nos estudos realizados, de que o uso dessas ferramentas não ajuda muito os profissionais mais experientes em seu desempenho e em algumas situações até atrapalha.

À medida que estes sistemas começam a ser treinados com base nos seus próprios resultados, as organizações enfrentarão a problemática questão do colapso do modelo. Embora originalmente treinados em texto gerado por humanos, os LLMs treinados em dados produzidos pelos próprios LLMs degradam rapidamente em qualidade. Dado que estes sistemas, para serem úteis na dinâmica de uma empresa, necessitarão de ser continuamente retreinados por humanos num ambiente real, e que o texto em que serão treinados será gerado, pelo menos parcialmente, a partir de resultados anteriores do LLM, isto indica que os sistemas fornecerão menor valor após alguns ciclos de treinamento.

Tomados em conjunto, estes questionamentos sugerem alguns tipos de trabalho onde a utilização de LLMs será arriscada. Para projetos e fluxos de trabalho onde a acurácia importa, qualquer alegação de melhorias de produtividade com essa tecnologia deve ser balanceada com o risco implícito.

Quando a tarefa envolver resumir e sintetizar evidências, os LLMs podem não ser confiáveis. Para o desenvolvimento ou implementação de políticas e processos, resolução de disputas, geração de relatórios e muito mais, as evidências existentes indicam que os LLMs podem, na verdade, reduzir o desempenho geral em vez de apoiá-lo. Alguns estudos também indicam que quando se sabe que ferramentas generativas de IA estão sendo usadas para geração de conteúdo na comunicação interpessoal, a confiança pode ser significativamente reduzida. Isto tem implicações profundas na capacidade das equipes de terem discussões mais complexas e participarem ativamente em iniciativas de brainstorming.

É importante observar que existem outras questões éticas com essa tecnologia, como a expansão e perenização de preconceitos sociais até problemas de violação de direitos autorais, uma vez que estes modelos tendem a “memorizar” pontos de dados particularmente únicos. “memorizar” é um ponto a ser discutido. Sabemos que os sistemas LLM “aprendem” com imensos volumes de dados, muitos dos quais provavelmente, embora protegidos por direitos autorais, foram usados mesmo sem licença. Sabemos também que os LLMs não armazenam diretamente os dados e imagens que foram usadas no treinamento. Todo esse material é reduzido a bilhões de parâmetros que são utilizados nos cálculos probabilísticos para responder aos prompts dos usuários.

Um fenômeno que ainda não entendemos é o grau em que esses sistemas podem “memorizar” algumas de suas entradas de treinamento. Esta questão tem sido estudada e trabalhos empíricos recentes mostraram que os LLMs são, em alguns casos, capazes de reproduzir, ou reproduzir com pequenas alterações, pedaços substanciais de texto que aparecem nos seus data sets de treinamento.

Essas questões são difíceis de responder com precisão, em parte porque os LLMs são “caixas pretas”, sistemas nos quais não compreendemos completamente a relação entre entradas (dados de treinamento) e saídas. Além do mais, os resultados podem variar de forma imprevisível de um momento para o outro. A prevalência de respostas plagiadas provavelmente depende muito de fatores como o tamanho do modelo e a natureza exata do conjunto de treinamento. Uma vez que os LLMs são fundamentalmente caixas pretas (mesmo para os seus próprios criadores), as questões sobre a prevalência do plágio provavelmente só podem ser respondidas experimentalmente, e talvez mesmo assim apenas ocasionalmente. As respostas dificilmente podem ser reproduzíveis. O mesmo prompt pode gerar imagens com algumas diferenças e mudanças na ordem das palavras do prompt também afetam a resposta.

Estas questões são significativas e o seu impacto na permissibilidade legal dos LLMs cria riscos adicionais, e por isso é essencial que antes de mergulhar de cabeça no seu uso, crie estratégias e práticas de governança da própria IA. Além disso, é essencial política de governança de dados, incluindo curadoria de conteúdo não estruturado, melhoria da qualidade dos dados e integração de diversas fontes. Isso afeta o que chamamos de cientistas de dados, que têm sido vistos detentores do “trabalho mais sexy do século 21” devido à sua esperada capacidade de tornar bem-sucedidos todos os aspectos dos projetos de ciência de dados. Com a maturidade de projetos de IA, vimos uma série de mudanças na ciência de dados estão produzindo abordagens alternativas para gerenciar partes importantes do trabalho. Uma dessas mudanças é a proliferação de funções relacionadas que podem resolver partes do problema da ciência de dados. Hoje considera-se que é necessário um conjunto crescente de diversos profissionais como engenheiros de dados para organizar os dados, engenheiros de aprendizado de máquina para dimensionar e integrar os modelos, conectores para trabalhar com as partes interessadas do negócio e gerentes de produtos para supervisionar toda a iniciativa.

Fazer afirmações grandiosas sobre LLMs pode ajudar a vender software ou livros no curto prazo, mas no longo prazo, a aplicação impensada desses modelos por toda a organização pode levar a perdas significativas de produtividade.

Isso não quer dizer que a tecnologia não seja útil para certas classes de trabalho, mas sim que os usuários e executivos devem ter clareza sobre onde, quando e com qual intensidade podemos usar LLMs de forma eficaz e confiável. A GenAI é promissora para tarefas em que é útil e produtivo gerar rapidamente muitas ideias não factuais. É fácil imaginar produtos tecnológicos que se concentrem nesses casos de uso de uma forma que facilite às organizações começarem com experimentação de aplicações direcionadas e de pequena escala. Os gestores devem estar atentos aos contextos onde a adoção de LLMs se revela útil, não adotando nem rejeitando cegamente a tecnologia.

Para poderem tomar decisões adequadas, os executivos precisam se letrar em IA. Ainda vemos pouca colaboração entre o C-level das empresas e os líderes orientados para a tecnologia. Acreditamos que nesse ano de 2024 veremos mais participação dos C-level e conselhos nas discussões sobre IA e os líderes tecnológicos buscando visão mais abrangentes, além da tecnologia, mais orientados para os negócios, capazes de debater estratégias com os seus colegas de gestão e de traduzi-las em sistemas e insights que tornem essa estratégia uma realidade.

--

--