Artigo: estudo comparativo entre raciocínio humando e de LLMs

Avaliar a capacidade de raciocínio em Grandes Modelos de Linguagem (LLMs) é importante para o avanço da inteligência artificial, pois transcende o mero desempenho em tarefas linguísticas. Envolve compreender se esses modelos realmente entendem as informações, realizam inferências e são capazes de tirar conclusões de forma lógica e válida. Este estudo compara as habilidades de raciocínio lógico e abstrato de diversos LLMs — incluindo GPT, Claude, DeepSeek, Gemini, Grok, Llama, Mistral, Perplexity e Sabiá — utilizando um conjunto de oito questões de raciocínio especialmente elaboradas. Os resultados dos LLMs são comparados ao desempenho humano nas mesmas tarefas, revelando diferenças significativas e indicando áreas em que os LLMs apresentam dificuldades com a dedução.

:: Acesse aqui meu artigo completo e veja o resultado da pesquisa ::

Os resultados mostraram uma grande diferença entre as LLMs, mas também mostram que essa diferença existe entre os humanos.

Deixe um comentário