Claude Code ficou 67% mais burro, analisa diretora da AMD

A diretora do grupo de Inteligência Artificial da AMD, Stella Laurenzo, conduziu uma análise detalhada que abrangeu 6.852 sessões do Claude Code, além de 234.760 chamadas de ferramentas relacionadas ao fluxo de trabalho de sua equipe. Os resultados dessa investigação indicam uma diminuição alarmante na profundidade do raciocínio apresentado pelo modelo, que caiu 67%, enquanto a capacidade de leitura dos arquivos antes da edição foi reduzida em mais de 70%.

Conteúdo

Análise em profundidade Polêmica sobre tokens

De acordo com Laurenzo, essas falhas de desempenho coincidem com a implementação da versão 2.1.69 do Claude Code, que ocorreu no início de março. Essa atualização trouxe uma nova função de redação de conteúdo, que atua como um cabeçalho responsável por retirar os elementos de raciocínio das respostas geradas pela API.

A queda drástica na eficiência do Claude Code levou Laurenzo e sua equipe a considerar a migração para outro fornecedor. Essa situação serve como um alerta para a Anthropic, que corre o risco de perder o protagonismo no campo da programação de Inteligência Artificial.

Entre as notícias associadas ao setor, destaca-se que a metade dos centros de dados projetados para os Estados Unidos até 2026 não deve ser concluída, além do recente lançamento do mini PC da Thermalright, equipado com o Ryzen AI Max+ 395 e sistema de refrigeração líquida. A AMD também anunciou o preço oficial do aguardado Ryzen 9 9950X3D2 Dual Edition.

Análise em profundidade

Análise do Claude Code

Laurenzo e sua equipe focaram em uma análise metódica das 6.852 sessões do Claude Code, que incorporaram 234.760 chamadas de ferramentas e 17.871 blocos de raciocínio. O foco das sessões era o trabalho da própria equipe, que utilizava a ferramenta e começou a notar uma deterioração no desempenho.

Os dados coletados revelaram um aumento acentuado nas violações de stop-hook, que são utilizadas para identificar evasão de responsabilidade, interrupções no processo de raciocínio e comportamentos que demonstram possivelmente “preguiça”. Esses incidentes saltaram de zero antes do dia 8 de março para uma média de 10 por dia até o final do mês passado. Além disso, o número de vezes que o Claude Code lia um trecho de código antes de fazer alterações caiu drasticamente, de uma média de 6,6 leituras para apenas 2 até o fim de março. Mais preocupante ainda, a inteligência artificial começou a reescrever arquivos inteiros, ao invés de realizar edições pontuais, com uma frequência muito maior.

Queda no desempenho do Claude Code

Conforme destacado por Laurenzo, as evidências coletadas demonstram uma redução geral nas capacidades de raciocínio desde a implementação da versão 2.1.69. Este problema difere das críticas anteriores relatadas por usuários em fevereiro, quando a versão 2.1.20 do modelo começou a truncar as explicações oferecidas durante o raciocínio.

A diretora detalha que “quando o raciocínio se torna superficial, o modelo passa a escolher a ação mais fácil disponível: editar sem ler, parar antes de concluir, esquivar-se da responsabilidade pelas falhas e optar pela solução mais simples em vez da mais correta”.

Polêmica sobre tokens

A Anthropic também enfrenta críticas em relação ao aumento inexplicável no consumo de tokens, o que levou diversos usuários a ultrapassar seus limites, impossibilitando o uso contínuo do produto. Para agravar a situação, o código-

Laurenzo exige que a Anthropic seja transparente sobre a possibilidade de redução ou limitação dos tokens de raciocínio e se essa prática está causando os problemas decorrentes no Claude Code. No mínimo, ela solicita que a empresa divulgue o número de tokens de raciocínio utilizados em cada solicitação.

Dessa forma, os usuários conseguiriam monitorar melhor suas solicitações e a profundidade do raciocínio apresentado pelo modelo.

Por fim, Laurenzo propôs a inclusão de um limite máximo de tokens de raciocínio nas ofertas da Anthropic, especialmente para engenheiros que trabalham com fluxos de trabalho complexos. Segundo ela, o modelo atual não diferencia entre usuários que necessitam de 200 tokens de raciocínio em cada resposta e aqueles que precisam de 20.000.

Fonte:: adrenaline.com.br

Análise em profundidade

Polêmica sobre tokens

Permaneça conectado

Últimas notícias

Maioria dos brasileiros desconhece como funcionam os algoritmos e deepfakes são realidade para 41% dos usuários de Internet

Adicionar Membros Grupos WhatsApp: Nova Funcionalidade Revelada

Instrutor Douglas anuncia pré-candidatura a deputado estadual no Paraná

Da metrópole às cidades menores: Nota Paraná de abril contempla todo o Estado

Informamos mais de 134 mil ouvintes e somos a rede de notícias número 1 de Araucária

Link rápido

Categorias principais

Assine a nossa newsletter

Análise em profundidade

Polêmica sobre tokens

Você também pode gostar

Permaneça conectado

Últimas notícias

Maioria dos brasileiros desconhece como funcionam os algoritmos e deepfakes são realidade para 41% dos usuários de Internet

Adicionar Membros Grupos WhatsApp: Nova Funcionalidade Revelada

Instrutor Douglas anuncia pré-candidatura a deputado estadual no Paraná

Da metrópole às cidades menores: Nota Paraná de abril contempla todo o Estado