image

Access unlimited bootcamps and 650+ courses

50
%OFF
Article image
CllTheSaint
CllTheSaint08/06/2025 21:19
Share
WEX - End to End EngineeringRecommended for youWEX - End to End Engineering

Explicando o polêmico paper da APPLE

  • #Machine Learning
  • #Python

A Ilusão do pensamento

1) LRMs apresentam limitações a partir de certas complexidades, assim como os LLMs. Em alguns casos performam pior que LLMs. É sabido que LRMs por vezes apresentam raciocínio distante da resposta que foi mostrada e que também às vezes pensam demais e retornam mais conteúdo que o necessário.

2) O objetivo dos autores era analisar as limitações dos LRMs, LRMs são os modelos que aplicam a técnica chamada reasoning, seria o equivalente humano a “pensar”, um exemplo open source e popular de modelo que usa essa estratégia é o Deep Seek, sobre o qual eu escrevi antes.

3) Segundo o trabalho, os mecanismos de avaliação dos modelos capazes de realizar reasoning não são capazes de produzir uma análise robusta sobre as limitações dos LRMs, sendo uma das razões a contaminação dos dados, porém o foco da pesquisa não é criar um novo benchmarking. 

image

4) Como solução às inadequações eles apresentam o controllable puzzles environments, que foram usados em outras ocasiões e aqui a escolha foi feita apenas para medir as limitações dos Large Reasoning Models.

5) Ao comparar LLMs com LRMs o trabalho encontrou três cenários: 1) Em tarefas simples é preferível LLMs; 2) LRMs performam melhor que LLMs; 3) A partir de um certo ponto ambos colapsam inclusive os LRMs.

6) O fato de que LRMs colapsam a partir de um certo ponto demonstra uma limitação na escalabilidade dos mesmos. 


image


7) Apesar das limitações do trabalho, os autores através do controllable puzzle environments demonstram que LRMs possuem limites em sua escalabilidade, chegando a colapsar à medida que a complexidade da tarefa aumentava. É esperado do estudo novas avaliações de como entendemos o reasoning por parte dos LRMs.


Qual a sua opinião sobre? LRMs podem pensar?

Share
Recommended for you
Suzano - Python Developer
BairesDev - Machine Learning Practitioner
Santander - Cibersegurança #2
Comments (3)
CllTheSaint
CllTheSaint - 08/06/2025 21:20

Vocalubário

  • LRMs => Large Reasoning Models
  • LLMs => Large Language Models
  • Reasoning => Ténica que emula o "pensamento" humano
CllTheSaint
CllTheSaint - 09/06/2025 11:15

Perfeito Fernando, resolvi escrever porque vi muitos equívocos da parte das pessoas sobre o trabalho, duvido muito que sequer tenham lido.

Ele é importante a medida que deixa claro as limitações em reasoning, os modelos são capaz de resolver problemas simples o que eles observaram é que há limitações nisto.

Por exemplo, maior complexidade não significa mais pensamento, para casos simples o LRMs pensam demais "overthinking" e acabam por produzir mais conteúdo do que o que foi requisitado.

Novamente, fico feliz que tenha lido o trabalho é raro encontrar pessoas com essa disposição.

Fernando Araujo
Fernando Araujo - 09/06/2025 09:51

Olá!

Coincidentemente, eu li este artigo ontem e fiquei muito surpreso com as descobertas dos pesquisadores da Apple!

O que se fala tanto em "reasoning" (ou raciocínio) das IAs ainda está muito distante da lógica usada pelo cérebro humano.

Os modelos de LRM testados (OpenAI o1/o3, DeepSeek-R1, Claude 3.7 Sonnet Thinking, Gemini Thinking) foram os mais atuais, mesmo assim, apresentaram dificuldades extremas para conseguir resolver de problemas simples (Torre de Hanói, por exemplo), mesmo para versões mais complexas (aumentando o número de discos). Mesmo quando o algoritmo para resolver o problema era dado, os modelos não conseguiam chegar na solução.

Achei MUITO INTERESSANTE a maneira de capturar a lógica usada pelos modelos, capturando cada passo individual para resolver os problemas. No entanto, achei MUITO SURPRENDENTE os modelos não conseguirem encontrar a solução para problemas tão básicos e simples, com algoritmos já bem conhecidos.

O que se pode esperar deles para a solução de problemas verdadeiramente complexos?

A impressão que se tem é que estes modelos não têm um raciocínio, no sentido comum. Eles apenas combinam bem os padrões dos dados com que foram testados, com base em bilhões de parâmetros, buscando uma aproximação dentro deles para tentar chegar à cada próximo passo para a solução do problema.

Cabe aí uma pergunta: Será que o nosso cérebro também não funciona dessa forma, mas com uma gama maior de parâmetros?

Resumindo: "Machne Learning" é uma função de aproximação com bilhões de parâmetros. O que ela pode fazer é se aproximar daquilo para o que foi treinada. Essa busca por inteligência (ou raciocínio) dificilmente encontrará algo diferente disso.

Recommended for youWEX - End to End Engineering