A startup de IA Galileo Technologies classifica o Claude 3.5 Sonnet, o Gemini do Google e o Qwen2-72B-Instruct do Alibaba no topo do índice de alucinação.
A startup de IA Galileo Technologies classificou modelos de linguagem de médio porte e de código aberto em posições altas em um novo teste de referência, o Hallucination Index. O benchmark, que avalia 22 modelos líderes de IA generativa, mediu sua precisão em três conjuntos de tarefas. O Claude 3.5 Sonnet da Anthropic liderou o ranking, enquanto o Gemini 1.5 Flash do Google teve o melhor desempenho em termos de custo. O Qwen2-72B-Instruct da Alibaba foi o modelo de código aberto com melhor desempenho.
July 29, 2024
3 Artigos