Classificação do público: 27 modelos de IA, ChatGPT em 8º lugar – Aqui estão os modelos que o superaram

Embora o mundo inteligência artificial (IA) Embora possa parecer uma área turbulenta, há uma quantidade surpreendente de análises, benchmarking e testes acontecendo nos bastidores — não apenas pelas próprias empresas, mas também por grupos criados para determinar suas próprias classificações.

Esses grupos testam tudo, desde a capacidade de um chatbot de concluir testes de matemática,
Crie imagens, ou fornecer explicações lógicas, ou até mesmo dar conselhos médicos, ou simplesmente mostrar o quão emocionalmente inteligente ela é.

Durante esses vários testes, os modelos demonstram seus pontos fortes e fracos em diferentes áreas. Por exemplo, enquanto GPT-5 Ele se destaca em dedução científica, mas fica atrás de pessoas como Gemini e Claude em sua capacidade de se adaptar a novos conceitos.

Cada um desses testes nos revela algo novo sobre modelos de IA e são importantes para nos lembrar quais ferramentas são melhores em diferentes cenários. Mas muitas vezes falta uma métrica: quais modelos de IA proporcionam a melhor experiência do usuário?

Sistema de classificação humana

Uma empresa de tecnologia sediada no Reino Unido chamada Prolific criou Uma tabela de classificação de IA chamada HumaneEm vez de testar a capacidade da IA de concluir tarefas, a Prolific testou diferentes experiências de usuários com esses modelos.

Ao avaliar as experiências de 21,352 pessoas com as ferramentas, eles não só conseguiram encontrar um vencedor geral, mas também dividir os resultados por idade, localização (os testes foram feitos no Reino Unido e nos EUA) e crenças políticas.

Isso inclui listagens individuais para:

Reino Unido: Faixas etárias
Reino Unido: Raça
Reino Unido: Ponto de vista político
Estados Unidos: Faixas etárias
Estados Unidos: Raça
Estados Unidos: Ponto de vista político

A equipe fez com que cada participante interagisse com dois modelos de IA separados em uma comparação e pediu que eles fornecessem feedback sobre qual modelo teve melhor desempenho em cada interação.

Isso resultou em um vencedor geral e uma tabela de classificação para desempenho, mas também classificações separadas para desempenho de tarefas básicas e raciocínio, bem como um vencedor para comunicação, resiliência, confiança e ética.

O que os resultados mostram?

Após uma análise completa, surgiu um vencedor claro, não apenas na categoria de desempenho geral, mas também na maioria das subcategorias. O Gemini 2.5-Pro se destacou em quase todos os benchmarks analisados no teste.

Os jovens entre os 18 e os 34 anos no Reino Unido, os eleitores democratas e os maiores de 55 anos nos EUA concordaram que Gêmeos 2.5 Pró É o melhor modelo no geral. A única área em que todos os dados demográficos tiveram classificação superior à do Gemini foi em confiança, ética e segurança, e foi o Grok-3 — uma descoberta um tanto irônica, considerando alguns dos problemas de segurança e ética que os modelos de IA têm enfrentado recentemente.

Curiosamente, os três modelos que surgiram depois do Gemini são Deepseek, Magistral Le Chat e GrokEmbora o Deepseek tenha alcançado uma popularidade significativa no início deste ano, ele caiu no esquecimento recentemente. O Le Chat, por outro lado, é um chatbot menos popular, mas tem uma base de fãs fiéis.

Então, onde o mundialmente famoso ChatGPT se encaixa em tudo isso? Ele está no final da lista, em oitavo lugar, com o modelo GPT-4.1 mais bem avaliado. Pior ainda é Claude, onde suas quatro edições ficaram em décimo primeiro e décimo segundo lugar na classificação geral.

Então, o que tudo isso significa?

Isso significa que o Gemini é o melhor chatbot de IA do mundo? Significa que você deveria abandonar o ChatGPT…? Bem, não exatamente.

Esses resultados não refletem necessariamente o desempenho desses modelos. Quando testados com a maioria das outras métricas, as opções que normalmente vemos no topo são ChatGPT, Gemini, Claude e Grok.

No entanto, este é um acréscimo importante a esses testes. Eles nos ajudam a entender melhor a IA sob a perspectiva da experiência humana. Por exemplo, o Le Chat não obtém uma pontuação alta em benchmarks padrão, mas é frequentemente citado como uma excelente escolha em termos de experiência e confiabilidade.

Embora o desempenho da Anthropic e da OpenAI não tenha atingido esse nível nesta rodada de testes, foi mais um desempenho sólido para a Gemini e a Grok. Ambas as empresas frequentemente alcançam pontuações altas em benchmarks padrão, e continuaram a fazê-lo aqui também.

ChatGPT