Os pesquisadores da Apple descobriram que os LLMs dependem mais da correspondência de padrões do que do raciocínio lógico, lutando com perguntas complexas.

Pesquisadores da Apple levantaram preocupações sobre as habilidades de raciocínio matemático de grandes modelos de linguagem (LLMs), descobrindo que suas respostas variam significativamente com base em pequenas mudanças de entrada. Isso sugere que os LLMs dependem mais da correspondência probabilística de padrões do que do raciocínio lógico verdadeiro. Para avaliar melhor essas capacidades, eles introduziram o benchmark GSM-Symbolic, revelando que os LLMs lutam com questões complexas, destacando suas limitações no raciocínio confiável.

October 11, 2024
8 Artigos