Quais fatores você deve considerar ao testar o chatbot de IA mais preciso?

A inteligência artificial já atingiu estágios avançados de desenvolvimento recentemente, desde a produção de resultados inapropriados e incoerentes até se tornar mais distinta. Os chatbots modernos usam modelos avançados de linguagem de grande porte que respondem a perguntas de conhecimento geral, compõem artigos longos e semelhantes aos humanos e escrevem códigos, entre outras tarefas complexas.

Apesar desses avanços, observe que mesmo os sistemas mais sofisticados têm limitações. A IA ainda comete erros. Para determinar quais chatbots têm menos probabilidade de serem alucinógenos, você pode testar sua precisão com base nesses fatores.

A inteligência artificial alcança a maioria das áreas da vida

1. Aritmética matemática

Você deve começar a adicionar equações matemáticas por meio de chatbots. Ele testará a capacidade do modelo de analisar problemas de palavras, traduzir conceitos matemáticos e aplicar funções corretas. Apenas alguns modelos mostram a confiabilidade da conta. Na verdade, um dos piores problemas do ChatGPT durante os primeiros meses foi o péssimo entendimento de matemática.

A imagem abaixo mostra as estatísticas básicas de falha do ChatGPT.

O ChatGPT mostrou melhorias após o lançamento Atualizações do OpenAI de maio de 2023. Mas, com conjuntos de dados limitados, você ainda terá problemas com equações matemáticas intermediárias a avançadas.

Enquanto isso, o Bing Copilot e o Google Gemini mostram uma maneira melhor de calcular. Esses modelos executam consultas por meio de seus próprios mecanismos de busca, o que lhes permite extrair funções e responder a detalhes.

Adendo: Tente parafrasear problemas de matemática. evite frases prolongadas e substitua verbos fracos; Caso contrário, os chatbots podem interpretar mal suas perguntas.

2. Compreensão

Os modelos modernos de IA podem realizar várias tarefas ao mesmo tempo. Os LLMs avançados permitem que ele retenha as instruções anteriores e responda às solicitações por seção, enquanto os sistemas mais antigos processam pedidos individuais. Por exemplo, a Siri responde a uma pergunta por vez.

Alimente chatbots de três a cinco tarefas por vez para testar o quão bem eles analisam reivindicações complexas. Modelos menos sofisticados não conseguem processar tanta informação. A imagem abaixo mostra o HuggingChat falhando em um prompt de três etapas - ele para na primeira etapa e sai do tópico.

As últimas linhas de HuggingChat são realmente incoerentes.

O ChatGPT conclui o mesmo prompt rapidamente, resultando em respostas inteligentes e sem erros em cada etapa.

O Bing Copilot fornece uma resposta resumida para as três etapas. Suas restrições rígidas proíbem saídas desnecessariamente longas que desperdiçam poder de processamento.

3. Pontualidade da informação

Como o treinamento de IA exige muitos recursos, a maioria dos desenvolvedores limita os conjuntos de dados a períodos específicos. Tomemos como exemplo o ChatGPT. A data previamente agendada era setembro de 2021 — quando não era possível solicitar atualizações meteorológicas, notícias ou acontecimentos recentes. Aqui está o ChatGPT dizendo que não consegue acessar informações em tempo real.

Mas recentemente, com a chegada do GPT-4o e do GPT-4o mini, o ChatGPT pode acessar a internet em tempo real, pesquisar e fornecer as últimas atualizações. Gêmeos tem acesso à internet. Ele extrai dados dos SERPs do Google, para que você possa fazer uma gama mais ampla de perguntas, por exemplo, sobre eventos recentes, notícias e previsões.

Da mesma forma, o Copilot extrai informações em tempo real de seu mecanismo de busca.

O copiloto extrai informações em tempo real.

Copilot, Gemini e ChatGPT fornecem informações atualizadas e oportunas, mas o último fornece respostas mais detalhadas. O Copilot fornece dados somente no estado em que se encontram. Você notará que os resultados geralmente correspondem literalmente ao texto e ao tom das fontes às quais eles fazem referência.

4. Relevância

Os chatbots devem fornecer resultados relevantes e esperados. Você deve levar em consideração o significado literal e contextual de suas reivindicações ao fornecer a resposta correspondente. Tome esta conversa como um exemplo. O personagem precisa de um telefone novo, mas ele só tem $ 1000 - o ChatGPT não ultrapassa o orçamento.

Ao testar o ajuste, tente elaborar instruções longas. Chatbots menos sofisticados tendem a desviar ao receber instruções confusas. Por exemplo, HuggingChat pode compor histórias fictícias. Mas pode se desviar do tópico principal se você definir muitas regras e diretrizes.

A interface do HuggingChat exibe a relevância do tópico

5. Memória contextual

A memória contextual ajuda a IA a produzir resultados precisos e confiáveis. Em vez de aceitar suas perguntas como verdadeiras, ele junta os detalhes que você menciona. Tome esta conversa como exemplo. O Copilot conecta duas mensagens separadas para formar uma resposta útil e concisa.

Da mesma forma, a memória contextual permite que os chatbots se lembrem das instruções. Esta imagem mostra o ChatGPT simulando a forma como um personagem fictício fala durante vários chats.

Teste você mesmo essa funcionalidade consultando constantemente as instruções anteriores. Forneça informações diferentes aos chatbots e, em seguida, force-os a se lembrar delas nas respostas subsequentes.

ملاحظة: A memória contextual é limitada. O Bing Copilot inicia novas conversas a cada 20 turnos, enquanto o ChatGPT não pode processar prompts com mais de 3000 tokens.

6. Restrições de segurança

A inteligência artificial nem sempre funciona como pretendido. O treinamento inadequado pode fazer com que as técnicas de aprendizado de máquina cometam vários erros, desde erros aritméticos simples até feedback problemático. Tome o Microsoft Tay como exemplo. Os usuários do Twitter aproveitaram o modelo de aprendizado não supervisionado e o condicionaram dizendo calúnias raciais.

Felizmente, as empresas globais de tecnologia aprenderam com o grande erro da Microsoft. Embora o aprendizado não supervisionado seja econômico e conveniente, ele também deixa os sistemas de IA abertos ao engano. Assim, os desenvolvedores dependem principalmente do aprendizado supervisionado hoje em dia. Chatbots como o ChatGPT ainda aprendem com as conversas, mas os treinadores filtram as informações primeiro.

Espere diretrizes diferentes de empresas de IA. As restrições menos rigorosas do ChatGPT acomodam uma gama maior de tarefas, mas são vulneráveis à exploração. Enquanto isso, o Bing Copilot segue limites mais rígidos. Ao mesmo tempo em que ajuda a combater tentativas de exploração, também prejudica empregos. O Bing fecha automaticamente conversas potencialmente prejudiciais.

7. Vieses de IA

A IA é inerentemente neutra. Sua falta de preferências e emoções o torna incapaz de formar opiniões - é apenas uma forma de apresentar as informações que você conhece. Veja como o ChatGPT responde a tópicos pessoais.

Apesar dessa neutralidade, ainda surgem vieses de IA. Eles decorrem dos padrões, conjuntos de dados, algoritmos e modelos que os desenvolvedores usam. A IA pode ser neutra, mas os humanos não.

Por exemplo, uma organização chamada Brookings Institution Esse ChatGPT mostra preconceitos políticos de esquerda. A OpenAI nega as acusações, é claro. Mas, para evitar problemas semelhantes com modelos mais novos, o ChatGPT evita totalmente as saídas opinativas.

Da mesma forma, o Copilot evita assuntos delicados e subjetivos.

A IA pode ser avaliada quanto a viés por meio de perguntas abertas baseadas em opiniões. Fale sobre tópicos que não têm uma resposta certa ou errada — chatbots menos sofisticados provavelmente exibirão preferências infundadas em relação a determinados grupos.

8. Referências

A IA raramente verifica os fatos. Ele apenas extrai informações de seus conjuntos de dados e as parafraseia por meio de modelos de linguagem. Infelizmente, o treinamento limitado faz com que a IA tenha alucinações. Você ainda pode usar ferramentas de IA generativas para pesquisar, mas certifique-se de verificar os fatos você mesmo. Tome a saída como uma diretiva.

O Copilot simplifica a verificação de fatos listando suas referências após cada saída.

O Copilot simplifica o processo de verificação de fatos.

O Gemini não lista suas fontes, mas cria explicações detalhadas e atualizadas executando consultas de pesquisa no Google. Você obterá os pontos principais dos SERPs.

O ChatGPT só fornece recursos se você os solicitar.

Crie novas maneiras de testar a precisão dos chatbots

A inteligência artificial não é o princípio nem o fim de toda tecnologia. Embora sistemas de IA e modelos de linguagem sofisticados realizem proezas impressionantes, eles também cometem erros e inconsistências. Mostre chatbots antes de sua avaliação. Você só pode usar plataformas de IA se entender suas funcionalidades e limitações.

Embora existam dezenas de chatbots multiplataforma por aí, sua confiabilidade e precisão podem decepcionar você. Você só perderá tempo testando. Para garantir resultados de alta qualidade, sugerimos focar nos três modelos mais poderosos do mercado: ChatGPT, Bing Copilot e Google Gemini.