Explicando o polêmico paper da APPLE

#Machine Learning
#Python

A Ilusão do pensamento

1) LRMs apresentam limitações a partir de certas complexidades, assim como os LLMs. Em alguns casos performam pior que LLMs. É sabido que LRMs por vezes apresentam raciocínio distante da resposta que foi mostrada e que também às vezes pensam demais e retornam mais conteúdo que o necessário.

2) O objetivo dos autores era analisar as limitações dos LRMs, LRMs são os modelos que aplicam a técnica chamada reasoning, seria o equivalente humano a “pensar”, um exemplo open source e popular de modelo que usa essa estratégia é o Deep Seek, sobre o qual eu escrevi antes.

3) Segundo o trabalho, os mecanismos de avaliação dos modelos capazes de realizar reasoning não são capazes de produzir uma análise robusta sobre as limitações dos LRMs, sendo uma das razões a contaminação dos dados, porém o foco da pesquisa não é criar um novo benchmarking.

4) Como solução às inadequações eles apresentam o controllable puzzles environments, que foram usados em outras ocasiões e aqui a escolha foi feita apenas para medir as limitações dos Large Reasoning Models.

5) Ao comparar LLMs com LRMs o trabalho encontrou três cenários: 1) Em tarefas simples é preferível LLMs; 2) LRMs performam melhor que LLMs; 3) A partir de um certo ponto ambos colapsam inclusive os LRMs.

6) O fato de que LRMs colapsam a partir de um certo ponto demonstra uma limitação na escalabilidade dos mesmos.

7) Apesar das limitações do trabalho, os autores através do controllable puzzle environments demonstram que LRMs possuem limites em sua escalabilidade, chegando a colapsar à medida que a complexidade da tarefa aumentava. É esperado do estudo novas avaliações de como entendemos o reasoning por parte dos LRMs.

Qual a sua opinião sobre? LRMs podem pensar?

Compartilhe

Recomendados para você

Bootcamp Bradesco - GenAI, Dados & Cyber

Bootcamp Afya - Automação de Dados com IA

Accenture - Python para Análise e Automação de Dados

Comentários (4)

DIO Community - 10/06/2025 10:47

Excelente, TheSaint! Seu artigo sobre o polêmico paper da Apple é uma análise muito interessante sobre as limitações dos Large Reasoning Models (LRMs) e os desafios na avaliação de modelos de IA.

Considerando que "LRMs por vezes apresentam raciocínio distante da resposta que foi mostrada e que também às vezes pensam demais e retornam mais conteúdo que o necessário", qual você diria que é o maior desafio ao tentar otimizar um LRM para que ele seja preciso e conciso em suas respostas, evitando o excesso de conteúdo?

CllTheSaint - 08/06/2025 21:20

Vocalubário

LRMs => Large Reasoning Models
LLMs => Large Language Models
Reasoning => Ténica que emula o "pensamento" humano

CllTheSaint - 09/06/2025 11:15

Perfeito Fernando, resolvi escrever porque vi muitos equívocos da parte das pessoas sobre o trabalho, duvido muito que sequer tenham lido.

Ele é importante a medida que deixa claro as limitações em reasoning, os modelos são capaz de resolver problemas simples o que eles observaram é que há limitações nisto.

Por exemplo, maior complexidade não significa mais pensamento, para casos simples o LRMs pensam demais "overthinking" e acabam por produzir mais conteúdo do que o que foi requisitado.

Novamente, fico feliz que tenha lido o trabalho é raro encontrar pessoas com essa disposição.

Fernando Araujo - 09/06/2025 09:51

Olá!

Coincidentemente, eu li este artigo ontem e fiquei muito surpreso com as descobertas dos pesquisadores da Apple!

O que se fala tanto em "reasoning" (ou raciocínio) das IAs ainda está muito distante da lógica usada pelo cérebro humano.

Os modelos de LRM testados (OpenAI o1/o3, DeepSeek-R1, Claude 3.7 Sonnet Thinking, Gemini Thinking) foram os mais atuais, mesmo assim, apresentaram dificuldades extremas para conseguir resolver de problemas simples (Torre de Hanói, por exemplo), mesmo para versões mais complexas (aumentando o número de discos). Mesmo quando o algoritmo para resolver o problema era dado, os modelos não conseguiam chegar na solução.

Achei MUITO INTERESSANTE a maneira de capturar a lógica usada pelos modelos, capturando cada passo individual para resolver os problemas. No entanto, achei MUITO SURPRENDENTE os modelos não conseguirem encontrar a solução para problemas tão básicos e simples, com algoritmos já bem conhecidos.

O que se pode esperar deles para a solução de problemas verdadeiramente complexos?

A impressão que se tem é que estes modelos não têm um raciocínio, no sentido comum. Eles apenas combinam bem os padrões dos dados com que foram testados, com base em bilhões de parâmetros, buscando uma aproximação dentro deles para tentar chegar à cada próximo passo para a solução do problema.

Cabe aí uma pergunta: Será que o nosso cérebro também não funciona dessa forma, mas com uma gama maior de parâmetros?

Resumindo: "Machne Learning" é uma função de aproximação com bilhões de parâmetros. O que ela pode fazer é se aproximar daquilo para o que foi treinada. Essa busca por inteligência (ou raciocínio) dificilmente encontrará algo diferente disso.

Leia a seguir

Fraud Sentinel: detecção de fraudes com Machine Learning, Deep Learning e análise de anomaliasDavidson Silva - 16 de Julho

#Machine Learning#Python#FastAPI

NotebookLM: O assistente de estudo que você precisa conhecer (Minha experiência real).Vitória Boin - 06 de Julho

#NotebookLM#Machine Learning#Inteligência Artificial (IA)

Do Controle Patrimonial à Inteligêncial Artificial: Como desenvolvi o Fraudshield AI 2.0 no BootcampBarbara Freitas - 29 de Junho

#Machine Learning#Data#Python#Inteligência Artificial (IA)