Startup de IA supera Gemini 3 em teste de inferência crucial

Desde que apareceu Gemini 3 Pela primeira vez, ele consegue manter sua posição no topo do ranking. Classificação da LMArenaEsta lista é um ranking coletivo onde milhares de usuários reais comparam modelos. Inteligência artificial Eles se testam mutuamente em uma ampla gama de tarefas, votando na melhor resposta. Mas quando se trata de atingir os critérios de inferência mais difíceis, há uma nova estrela em ascensão, que já superou o Google — e o fez sem treinar seu próprio modelo.

Uma startup de seis pessoas chamada Poetiq afirma ter ficado em primeiro lugar em Kit de teste semi-especial ARC-AGI-2Este é um desafio de inferência extremamente difícil, criado pelo pesquisador de IA François Chollet. O sistema da startup alcançou 54%, superando a pontuação anteriormente divulgada pelo Google, de aproximadamente 45%, para o Gemini 3 Deep Think.

Para se ter uma ideia, a maioria dos modelos de IA estava estagnada abaixo de 5% nesse parâmetro de avaliação há apenas seis meses. Ultrapassar os 50% era algo que os pesquisadores acreditavam que levaria anos.

E a parte mais surpreendente: a inovação da Poetiq não foi sustentada por um novo modelo de vanguarda, mas sim por uma maneira mais inteligente de organizar os modelos existentes.

Como a Poetiq conseguiu esse feito?

Em vez de construir um conversor gigantesco do zero, a Poetiq desenvolveu o que chama de metassistema; essencialmente um controlador de IA que supervisiona, analisa e aprimora o desempenho de qualquer modelo ao qual você o conecte. Para o projeto ARC-AGI-2, a equipe utilizou o Gemini 3 Pro como modelo base.

A Poetiq descreve o sistema como um ciclo de otimização rigorosamente controlado: Criar > Criticar > Melhorar > Verificar.

Eis o que o torna especial:

Não é necessário retreinamento: O sistema se adapta a novos modelos em questão de horas.
É construído inteiramente com base em grandes modelos de linguagem pré-fabricados: Nenhuma edição personalizada disponível
preço mais baixo ou mais barato: O Deep Think do Google custa, segundo informações, US$ 77 por tarefa; o sistema da Poetiq custa cerca de US$ 30.
Código aberto: A solução está disponível publicamente e pode ser verificada.
Autoavaliação: O sistema avalia suas próprias respostas antes de retornar o resultado final.

على Site Para a empresa, a equipe da Poetiq afirma que essa abordagem funciona extraindo o Plus do poder de inferência de grandes modelos de linguagem já existentes – e não aumentando a capacidade computacional por meio de força bruta.

Por que o teste ARC-AGI-2 é importante?

Enquanto a maioria dos testes padronizados mede habilidades limitadas, como programação ou matemática, o ARC-AGI-2 foi projetado para testar algo mais profundo: reconhecimento de padrões, medição, raciocínio abstrato e o tipo de generalização que os seres humanos aprendem na primeira infância.

É intencionalmente difícil e notavelmente hostil aos atuais Modelos de Linguagem de Grande Porte (LLMs). Mesmo muitos modelos sofisticados falham espetacularmente nele.

Por essa razão, o salto de resultados de um dígito para 54% em seis meses foi surpreendente. Isso indica progresso nos métodos de inferência, e não apenas no tamanho do modelo bruto.

No entanto, o resultado da Poetiq aplica-se especificamente ao grupo de testes semiprivado, que não é totalmente aberto ao público. O site da empresa afirma que o resultado foi validado pela organização de benchmarking, mas a replicação independente por terceiros ainda está pendente, o que é significativo para um teste de benchmark com este impacto.

O próximo grande avanço pode não vir de modelos maiores, já que o trabalho da Poetiq destaca uma tendência crescente na inteligência artificial: o progresso nem sempre exige bilhões de dólares em infraestrutura ou um enorme laboratório de pesquisa.

Se esses sistemas conseguirem ir além dos parâmetros padrão e incluírem planejamento, programação, pesquisa ou até mesmo tomada de decisões no mundo real, eles poderão remodelar a forma como a inteligência artificial é desenvolvida. Em vez de esperar pelo próximo supercomputador, as empresas poderiam se concentrar na construção de inteligência composta que torne os modelos atuais mais inteligentes, mais baratos e mais consistentes.

Conclusão

A Poetiq lançou uma solução de código aberto para o ARC-AGI, permitindo que pesquisadores testem, ampliem ou até mesmo contestem seus resultados. O padrão contém um conjunto de testes oculto, e a história mostra que os resultados podem mudar quando um número significativo de pessoas realiza avaliações independentes.

Se os resultados da Poetiq se confirmarem, isso poderá representar um ponto de virada na pesquisa de inferência em IA. Uma equipe de seis pessoas pode ter acabado de demonstrar que a organização de modelos pode rivalizar, ou até mesmo superar, o treinamento de modelos muito maiores. A Poetiq acaba de provar que não é preciso um laboratório gigante para vencer.

Gemini