LLMs: o muro já é um espelho

dezembro 26, 2024 § Deixe um comentário

Em novembro, escrevi sobre como os Large Language Models (LLMs) pareciam estar batendo em um muro. Meu texto, “Chegamos ao ponto de retorno decrescente dos LLMs, e agora?”, explorou os desafios de escalar esses modelos e a crescente percepção de que força bruta e maiores conjuntos de dados não seriam suficientes para empurrá-los rumo à inteligência artificial geral. Argumentei que, embora os LLMs se destaquem em reconhecimento de padrões e fluência sintática, sua falta de raciocínio mais profundo e compreensão genuína expõe limitações críticas.

No último dia 05 de dezembro, Sundar Pichai confirmou em um evento do The New York Times o que a The Information havia noticiado no mês anterior.

Publicação da The Information – 05 de dezembro de 2024.

Durante o tal evento, o DealBook Summit, o CEO do Google fez uma observação reveladora: “O progresso vai se tornar mais difícil em 2025. Os frutos mais baixos já foram colhidos. A subida agora é mais íngreme”. Pichai destacou que a próxima onda de avanços na Inteligência Artificial dependerá de “rupturas técnicas” em áreas críticas, como o raciocínio e a capacidade de executar sequências de ações de forma mais confiável. Essa visão reforça o ponto que venho defendendo: superar as limitações atuais dos modelos de linguagem não será uma questão de apenas ampliar a escala, mas de abordar desafios fundamentais que exigem soluções inovadoras e uma reavaliação do que significa, de fato, avançar nesse campo de pesquisa.

Gary Marcus, em uma de suas recentes postagens no Substack, contribuiu com seus próprios insights sobre o tema, “Which CEO Will Be the Last to See the Truth About Generative AI?”. Marcus não apenas reforça a ideia de que os LLMs chegaram a um platô, mas vai além, questionando a fixação da indústria em tê-los como uma panaceia para o avanço da IA. Ele aponta como a obsessão com a IA generativa pode desviar a atenção de questões estruturais que precisam ser resolvidas para que esses sistemas realmente evoluam.

O artigo do Gary me chamou a atenção porque destaca uma questão fundamental com a qual tenho refletido: a inclinação de executivos e empreendedores da indústria da IA em exagerar nas promessas sobre capacidades e entregar menos no quesito robustez. Como ele observa, esse descompasso entre a hype e a realidade pode colocar em risco o progresso do campo da IA como um todo.

Meu texto de novembro focou principalmente nas limitações técnicas. Gary, por sua vez, traz à tona as deficiências culturais e estratégicas da indústria. Ele destaca o “tech FOMO” (medo de ficar para trás), que faz muitos CEOs insistirem em sistemas falhos, mesmo quando as falhas se tornam cada vez mais evidentes.

A verdadeira questão, como ambos parecemos concordar, não é se os LLMs podem continuar produzindo respostas inteligentes, mas se o próximo avanço na IA exigirá uma redefinição fundamental do que entendemos por inteligência. Acredito que essa transformação pode passar pela adoção de abordagens interdisciplinares — integrando perspectivas da ciência cognitiva, neurociência e até filosofia — para desenvolver sistemas que vão além da simples imitação da linguagem.

Isso me traz à mente uma lição valiosa: às vezes, topar com uma parede não é apenas um sinal para parar, mas uma oportunidade de olhar no espelho e refletir sobre as perguntas difíceis que precisam ser feitas para escolhermos o próximo passo.

E você, o que acha? Estamos prontos para enxergar além da parede — ou estamos tão fascinados com o nosso próprio reflexo que não conseguimos perceber o que está do outro lado?

Este artigo também pode ser lido em Update or Die. Publicado em 25 de dezembro de 2024.

Chegamos ao ponto de retorno decrescente dos LLMs, e agora?

novembro 19, 2024 § Deixe um comentário

No último final de semana acordei com a notícia abaixo no meu inbox:

A notícia saiu na newsletter “The Information”, lida por grande parte da indústria tech e diz que apesar do número de usuários do ChatGPT ser crescente, a taxa de melhoria do produto parece estar diminuindo. De maneira diferente da cobertura tecnológica convencional, a “The Information” se concentra no lado comercial da tecnologia, revelando tendências, estratégias e informações internas das maiores empresas e players que moldam o mundo digital. Para clarificar a importância dessa publicação para quem não é do ramo, é como ter um guia privilegiado para entender como a tecnologia impacta a economia, a inovação e nossas vidas diárias. Mal comparando, é uma lente jornalística especializada na intersecção de negócios e tecnologia.

Procurei o Gary Marcus, já que em março de 2022, ele publicou um artigo na Nautilus, uma revista também lida pelo pessoal da área que combina ciência, filosofia e cultura, falando sobre o assunto. O artigo, “deep learning is hitting a wall” deu muita “dor de cabeça” ao Gary. Sam Altman insinuou (sem dizer o nome dele, mas usando imagens do artigo) que Gary era um “cético medíocre”; Greg Brockman zombou abertamente do título; Yann LeCun escreveu que o deep learning não estava batendo em um muro, e assim por diante. 

O ponto central do argumento era que “escalar” os modelos — ou seja aumentar o seu tamanho, complexidade ou capacidade computacional para melhorar o desempenho — pura e simplesmente, não resolveria alucinações ou abstrações.

Gary retornou dizendo “venho alertando sobre os limites fundamentais das abordagens tradicionais de redes neurais desde 2001”. Esse foi o ano em que publicou o livro “The Algebraic Mind” onde descreveu o conceito de alucinações pela primeira vez. Amplificou os alertas em “Rebooting AI” (falei sobre o tema no ano passado em textos em inglês que podem ser lidos no Medium ou Substack) e “Taming Silicon Valley” (seu livro mais recente).

Há alguns dias, Marc Andreesen, co-fundador de um dos principais fundos de venture capital focado em tecnologia, começou a revelar detalhes sobre alguns de seus investimentos em IA, dizendo em um podcast e reportado por outros veículos incluindo a mesma “The Information”: “estamos aumentando [as unidades de processamento gráfico] na mesma proporção, mas não tivemos mais nenhuma melhoria e aumento de inteligência com isso” — o que é basicamente dizer com outras palavras que “o deep learning está batendo em um muro”.

No dia seguinte da primeira mensagem enviada, Gary me manda o seguinte print dizendo “não se trata apenas da OpenAI, há uma segunda grande empresa convergindo para a mesma coisa”:

O tweet foi feito pelo Yam Peleg, que é um cientista de dados e especialista em Machine Learning conhecido por suas contribuições para projetos de código aberto. Nele, Peleg diz que ouviu rumores de que um grande laboratório (não especificado) também teria atingido o ponto de retorno decrescente. É ainda um boato (embora plausível), mas se for verdade, teremos nuvens carregadas à frente. 

Pode haver o equivalente em IA a uma corrida bancária (quando um grande número de clientes retira simultaneamente os seus depósitos por receio da insolvência do banco).

A questão é que escalar modelos sempre foi uma hipótese. O que acontece se, de repente, as pessoas perderem a fé nessa hipótese?

É preciso deixar claro que, mesmo se o entusiasmo pela IA Generativa diminuir e as ações das empresas do mercado despencarem, a IA e os LLMs não desaparecerão. Ainda terão um lugar assegurado como ferramentas para aproximação estatística. Mas esse lugar pode ser menor e é inteiramente possível que o LLM, por si só, não corresponda às expectativas do ano passado de que seja o caminho para a AGI (Inteligência Artificial Geral) e a “singularidade” da IA.

Uma IA confiável é certamente alcançável, mas vamos precisar voltar à prancheta para chegar lá.

Você também pode ler esse post em Update or Die. Publicado originalmente em 16 de novembro de 2024.

Onde estou?

Você está navegando em publicações marcadas com artigos em Marcelo Tibau.