LLMs: o muro já é um espelho
dezembro 26, 2024 § Deixe um comentário

Em novembro, escrevi sobre como os Large Language Models (LLMs) pareciam estar batendo em um muro. Meu texto, “Chegamos ao ponto de retorno decrescente dos LLMs, e agora?”, explorou os desafios de escalar esses modelos e a crescente percepção de que força bruta e maiores conjuntos de dados não seriam suficientes para empurrá-los rumo à inteligência artificial geral. Argumentei que, embora os LLMs se destaquem em reconhecimento de padrões e fluência sintática, sua falta de raciocínio mais profundo e compreensão genuína expõe limitações críticas.
No último dia 05 de dezembro, Sundar Pichai confirmou em um evento do The New York Times o que a The Information havia noticiado no mês anterior.

Publicação da The Information – 05 de dezembro de 2024.
Durante o tal evento, o DealBook Summit, o CEO do Google fez uma observação reveladora: “O progresso vai se tornar mais difícil em 2025. Os frutos mais baixos já foram colhidos. A subida agora é mais íngreme”. Pichai destacou que a próxima onda de avanços na Inteligência Artificial dependerá de “rupturas técnicas” em áreas críticas, como o raciocínio e a capacidade de executar sequências de ações de forma mais confiável. Essa visão reforça o ponto que venho defendendo: superar as limitações atuais dos modelos de linguagem não será uma questão de apenas ampliar a escala, mas de abordar desafios fundamentais que exigem soluções inovadoras e uma reavaliação do que significa, de fato, avançar nesse campo de pesquisa.
Gary Marcus, em uma de suas recentes postagens no Substack, contribuiu com seus próprios insights sobre o tema, “Which CEO Will Be the Last to See the Truth About Generative AI?”. Marcus não apenas reforça a ideia de que os LLMs chegaram a um platô, mas vai além, questionando a fixação da indústria em tê-los como uma panaceia para o avanço da IA. Ele aponta como a obsessão com a IA generativa pode desviar a atenção de questões estruturais que precisam ser resolvidas para que esses sistemas realmente evoluam.
O artigo do Gary me chamou a atenção porque destaca uma questão fundamental com a qual tenho refletido: a inclinação de executivos e empreendedores da indústria da IA em exagerar nas promessas sobre capacidades e entregar menos no quesito robustez. Como ele observa, esse descompasso entre a hype e a realidade pode colocar em risco o progresso do campo da IA como um todo.
Meu texto de novembro focou principalmente nas limitações técnicas. Gary, por sua vez, traz à tona as deficiências culturais e estratégicas da indústria. Ele destaca o “tech FOMO” (medo de ficar para trás), que faz muitos CEOs insistirem em sistemas falhos, mesmo quando as falhas se tornam cada vez mais evidentes.
A verdadeira questão, como ambos parecemos concordar, não é se os LLMs podem continuar produzindo respostas inteligentes, mas se o próximo avanço na IA exigirá uma redefinição fundamental do que entendemos por inteligência. Acredito que essa transformação pode passar pela adoção de abordagens interdisciplinares — integrando perspectivas da ciência cognitiva, neurociência e até filosofia — para desenvolver sistemas que vão além da simples imitação da linguagem.
Isso me traz à mente uma lição valiosa: às vezes, topar com uma parede não é apenas um sinal para parar, mas uma oportunidade de olhar no espelho e refletir sobre as perguntas difíceis que precisam ser feitas para escolhermos o próximo passo.
E você, o que acha? Estamos prontos para enxergar além da parede — ou estamos tão fascinados com o nosso próprio reflexo que não conseguimos perceber o que está do outro lado?
Este artigo também pode ser lido em Update or Die. Publicado em 25 de dezembro de 2024.
Chegamos ao ponto de retorno decrescente dos LLMs, e agora?
novembro 19, 2024 § Deixe um comentário

No último final de semana acordei com a notícia abaixo no meu inbox:

A notícia saiu na newsletter “The Information”, lida por grande parte da indústria tech e diz que apesar do número de usuários do ChatGPT ser crescente, a taxa de melhoria do produto parece estar diminuindo. De maneira diferente da cobertura tecnológica convencional, a “The Information” se concentra no lado comercial da tecnologia, revelando tendências, estratégias e informações internas das maiores empresas e players que moldam o mundo digital. Para clarificar a importância dessa publicação para quem não é do ramo, é como ter um guia privilegiado para entender como a tecnologia impacta a economia, a inovação e nossas vidas diárias. Mal comparando, é uma lente jornalística especializada na intersecção de negócios e tecnologia.
Procurei o Gary Marcus, já que em março de 2022, ele publicou um artigo na Nautilus, uma revista também lida pelo pessoal da área que combina ciência, filosofia e cultura, falando sobre o assunto. O artigo, “deep learning is hitting a wall” deu muita “dor de cabeça” ao Gary. Sam Altman insinuou (sem dizer o nome dele, mas usando imagens do artigo) que Gary era um “cético medíocre”; Greg Brockman zombou abertamente do título; Yann LeCun escreveu que o deep learning não estava batendo em um muro, e assim por diante.
O ponto central do argumento era que “escalar” os modelos — ou seja aumentar o seu tamanho, complexidade ou capacidade computacional para melhorar o desempenho — pura e simplesmente, não resolveria alucinações ou abstrações.
Gary retornou dizendo “venho alertando sobre os limites fundamentais das abordagens tradicionais de redes neurais desde 2001”. Esse foi o ano em que publicou o livro “The Algebraic Mind” onde descreveu o conceito de alucinações pela primeira vez. Amplificou os alertas em “Rebooting AI” (falei sobre o tema no ano passado em textos em inglês que podem ser lidos no Medium ou Substack) e “Taming Silicon Valley” (seu livro mais recente).
Há alguns dias, Marc Andreesen, co-fundador de um dos principais fundos de venture capital focado em tecnologia, começou a revelar detalhes sobre alguns de seus investimentos em IA, dizendo em um podcast e reportado por outros veículos incluindo a mesma “The Information”: “estamos aumentando [as unidades de processamento gráfico] na mesma proporção, mas não tivemos mais nenhuma melhoria e aumento de inteligência com isso” — o que é basicamente dizer com outras palavras que “o deep learning está batendo em um muro”.
No dia seguinte da primeira mensagem enviada, Gary me manda o seguinte print dizendo “não se trata apenas da OpenAI, há uma segunda grande empresa convergindo para a mesma coisa”:

O tweet foi feito pelo Yam Peleg, que é um cientista de dados e especialista em Machine Learning conhecido por suas contribuições para projetos de código aberto. Nele, Peleg diz que ouviu rumores de que um grande laboratório (não especificado) também teria atingido o ponto de retorno decrescente. É ainda um boato (embora plausível), mas se for verdade, teremos nuvens carregadas à frente.
Pode haver o equivalente em IA a uma corrida bancária (quando um grande número de clientes retira simultaneamente os seus depósitos por receio da insolvência do banco).
A questão é que escalar modelos sempre foi uma hipótese. O que acontece se, de repente, as pessoas perderem a fé nessa hipótese?
É preciso deixar claro que, mesmo se o entusiasmo pela IA Generativa diminuir e as ações das empresas do mercado despencarem, a IA e os LLMs não desaparecerão. Ainda terão um lugar assegurado como ferramentas para aproximação estatística. Mas esse lugar pode ser menor e é inteiramente possível que o LLM, por si só, não corresponda às expectativas do ano passado de que seja o caminho para a AGI (Inteligência Artificial Geral) e a “singularidade” da IA.
Uma IA confiável é certamente alcançável, mas vamos precisar voltar à prancheta para chegar lá.
Você também pode ler esse post em Update or Die. Publicado originalmente em 16 de novembro de 2024.