A diretora do grupo de Inteligência Artificial da AMD, Stella Laurenzo, conduziu uma análise detalhada que abrangeu 6.852 sessões do Claude Code, além de 234.760 chamadas de ferramentas relacionadas ao fluxo de trabalho de sua equipe. Os resultados dessa investigação indicam uma diminuição alarmante na profundidade do raciocínio apresentado pelo modelo, que caiu 67%, enquanto a capacidade de leitura dos arquivos antes da edição foi reduzida em mais de 70%.
De acordo com Laurenzo, essas falhas de desempenho coincidem com a implementação da versão 2.1.69 do Claude Code, que ocorreu no início de março. Essa atualização trouxe uma nova função de redação de conteúdo, que atua como um cabeçalho responsável por retirar os elementos de raciocínio das respostas geradas pela API.
A queda drástica na eficiência do Claude Code levou Laurenzo e sua equipe a considerar a migração para outro fornecedor. Essa situação serve como um alerta para a Anthropic, que corre o risco de perder o protagonismo no campo da programação de Inteligência Artificial.
Entre as notícias associadas ao setor, destaca-se que a metade dos centros de dados projetados para os Estados Unidos até 2026 não deve ser concluída, além do recente lançamento do mini PC da Thermalright, equipado com o Ryzen AI Max+ 395 e sistema de refrigeração líquida. A AMD também anunciou o preço oficial do aguardado Ryzen 9 9950X3D2 Dual Edition.
Análise em profundidade

Laurenzo e sua equipe focaram em uma análise metódica das 6.852 sessões do Claude Code, que incorporaram 234.760 chamadas de ferramentas e 17.871 blocos de raciocínio. O foco das sessões era o trabalho da própria equipe, que utilizava a ferramenta e começou a notar uma deterioração no desempenho.
Os dados coletados revelaram um aumento acentuado nas violações de stop-hook, que são utilizadas para identificar evasão de responsabilidade, interrupções no processo de raciocínio e comportamentos que demonstram possivelmente “preguiça”. Esses incidentes saltaram de zero antes do dia 8 de março para uma média de 10 por dia até o final do mês passado. Além disso, o número de vezes que o Claude Code lia um trecho de código antes de fazer alterações caiu drasticamente, de uma média de 6,6 leituras para apenas 2 até o fim de março. Mais preocupante ainda, a inteligência artificial começou a reescrever arquivos inteiros, ao invés de realizar edições pontuais, com uma frequência muito maior.

Conforme destacado por Laurenzo, as evidências coletadas demonstram uma redução geral nas capacidades de raciocínio desde a implementação da versão 2.1.69. Este problema difere das críticas anteriores relatadas por usuários em fevereiro, quando a versão 2.1.20 do modelo começou a truncar as explicações oferecidas durante o raciocínio.
A diretora detalha que “quando o raciocínio se torna superficial, o modelo passa a escolher a ação mais fácil disponível: editar sem ler, parar antes de concluir, esquivar-se da responsabilidade pelas falhas e optar pela solução mais simples em vez da mais correta”.
Polêmica sobre tokens
A Anthropic também enfrenta críticas em relação ao aumento inexplicável no consumo de tokens, o que levou diversos usuários a ultrapassar seus limites, impossibilitando o uso contínuo do produto. Para agravar a situação, o código-
Laurenzo exige que a Anthropic seja transparente sobre a possibilidade de redução ou limitação dos tokens de raciocínio e se essa prática está causando os problemas decorrentes no Claude Code. No mínimo, ela solicita que a empresa divulgue o número de tokens de raciocínio utilizados em cada solicitação.
Dessa forma, os usuários conseguiriam monitorar melhor suas solicitações e a profundidade do raciocínio apresentado pelo modelo.
Por fim, Laurenzo propôs a inclusão de um limite máximo de tokens de raciocínio nas ofertas da Anthropic, especialmente para engenheiros que trabalham com fluxos de trabalho complexos. Segundo ela, o modelo atual não diferencia entre usuários que necessitam de 200 tokens de raciocínio em cada resposta e aqueles que precisam de 20.000.
Fonte:: adrenaline.com.br


