Minha experiência com o Copilot Vision: Uma sensação estranha, mas um tanto útil - aqui está minha opinião

O Copilot Vision da Microsoft deveria ver sua tela e ajudar você com inteligência artificial, mas muitas vezes ele age como um agente de suporte técnico desajeitado.

Usuários nos EUA agora podem usar o Copilot Vision no Windows 11 (e 10), um assistente de IA que ajuda você com quase tudo o que faz no seu PC. Quer saber se realmente funciona? Bem, eu testei e, neste guia, explicarei em detalhes o que esse recurso oferece, como você pode obtê-lo e compartilharei minha experiência pessoal com ele.

Visão do Copiloto do Windows 11

No aplicativo Copilot, o recurso é: "Visão" Um recurso que permite compartilhar sua tela com um chatbot, permitindo que ele veja e interprete o que está na tela. Ele atua como um segundo par de olhos, fornecendo ajuda, respostas e insights em tempo real com base no conteúdo exibido em seus aplicativos ou navegador.

Este também é um recurso opcional, portanto, você deve habilitá-lo manualmente no Copilot versão 1.25061.104.0 e posteriores. Se você estiver usando um navegador Microsoft EdgeVocê também pode acessar o recurso por meio da integração do Copilot.

É importante observar que a IA pode exibir quase qualquer conteúdo, desde que não seja material protegido por DRM ou algum outro tipo de conteúdo restrito.

Este recurso está disponível para qualquer pessoa que não tenha uma assinatura. Copiloto Pro No Windows 10 e 11. Você também pode acessar o Copilot Vision no iOS e Android, mas precisará de uma assinatura para usá-lo nesses dispositivos móveis.

Neste guia, descreverei as etapas necessárias para começar a usar esse recurso e compartilharei minha experiência.

Como obter e ativar o Copilot Vision no Windows 11

O Copilot Vision está atualmente disponível nos Estados Unidos, a partir da versão 1.25061.104.0 do aplicativo Copilot. Portanto, o primeiro passo é abrir o aplicativo da Microsoft Store, acessar a seção "Downloads e Atualizações" e clicar no botão "Obter Atualizações" para garantir que a versão mais recente do aplicativo esteja instalada no seu computador. Esta etapa é necessária para garantir que seu dispositivo seja compatível com os novos recursos e melhorar o desempenho geral do Copilot.

Você pode obter o aplicativo na Microsoft Store caso o tenha desinstalado anteriormente. Procure por Copilot na Loja e instale-o para aproveitar todos os seus recursos.

A Microsoft explica que o Vision é um recurso opcional, o que é tecnicamente verdade, pois você precisa conceder permissão para compartilhar sua tela. No entanto, ele está disponível por padrão, pois não há opção para desativá-lo completamente na página de configurações. Isso significa que, assim que você atualizar o aplicativo, o Vision estará pronto para uso, mas requer seu consentimento explícito antes de acessar o conteúdo da tela.

Na página de configurações do Copilot, você encontrará apenas a opção de ativar e desativar os "Destaques", mas esse recurso controla apenas a capacidade da IA ​​de indicar visualmente as ações na tela. Ele não controla a disponibilidade do recurso no aplicativo. Em outras palavras, mesmo se você desativar os "Destaques", o recurso Visão ainda estará disponível, mas não destacará elementos visuais na tela.

Se você não se sentir confortável com a ideia de usar o Copilot em geral, é melhor desinstalá-lo em Configurações > Aplicativos > Aplicativos instalados e tocar na opção "Desinstalar" para entrar no "Copilot". Isso removerá completamente o aplicativo do seu dispositivo, garantindo que ele não acesse seus dados ou recursos do sistema.

Minha experiência usando o Copilot Vision no Windows 11: uma primeira olhada

Minha primeira interação com o Copilot Vision no Windows 11 foi um pouco estranha, pois representou uma mudança de paradigma que eu nunca havia experimentado antes. Em vez de ter que formular textos detalhados ou comandos de voz para determinar o contexto, o assistente inteligente do Copilot parecia entender o contexto automaticamente, permitindo-lhe fornecer assistência imediata e eficaz. Essa capacidade de entender o contexto sem a necessidade de instruções específicas representa uma mudança significativa na maneira como interagimos com computadores.

Embora a precisão do Copilot Vision ainda esteja em desenvolvimento, ele oferece uma visão inicial do futuro da computação. Representa um passo promissor em direção a uma experiência de computação mais fluida e integrada, na qual o computador se torna um parceiro inteligente que entende e antecipa nossas necessidades, em vez de simplesmente uma ferramenta para a qual executamos comandos específicos. Essa tecnologia tem o potencial de mudar radicalmente a maneira como trabalhamos, criamos e aprendemos.

Introdução ao Copilot Vision

Depois de confirmar que o Copilot Vision estava disponível no meu computador, comecei a testá-lo. Abri alguns aplicativos e, em seguida, iniciei o Copilot No menu Iniciar. Em seguida, clique no botão "Visão" (Óculos), selecione o aplicativo que deseja compartilhar com o Copilot e ative a opção "Compartilhar".

Pergunta de teste sobre o aplicativo

Ao usar o Bloco de Notas, pedi ao Copilot para me mostrar como alterar a fonte padrão do aplicativo, mas ele deu uma resposta incorreta.

O copiloto sugeriu pesquisar na lista. "Visão" (Exibir), mas esta opção não estava presente neste local. O motivo, de acordo com o design atual do Bloco de Notas, é que as configurações de alteração de fonte estão localizadas na página Configurações, que pode ser acessada pelo menu. "Editar" (Editar) ou clicando no botão "Engrenagem" (engrenagem) localizada no canto superior direito do aplicativo.

Por fim, o Copilot chegou à resposta correta por meio de um processo de eliminação gradual. Curiosamente, o chatbot indicou que havia cometido um erro por ter misturado diferentes versões do Bloco de Notas. No entanto, não me lembro de nenhuma versão do Bloco de Notas com configurações de fonte no menu. "Visão" (Mostrar) de forma alguma. Isso sugere que o Copilot pode ter se baseado em informações desatualizadas ou imprecisas.

Configurações da pergunta do teste

Como parte do processo de teste, iniciei o aplicativo Configurações no Windows 11 e pedi ao Copilot para atualizar meu PC com as atualizações mais recentes do sistema.

Neste caso, foi possível copiloto da Microsoft Com o Vision, ele identificou corretamente que eu estava dentro do aplicativo Configurações. Ele me direcionou precisamente para a seção "Atualização do Windows" E destacou o botão "Verifique se há atualizações".

Em seguida, apresentei um prompt menos comum (mas ainda relevante). Perguntei como impedir que meu computador baixasse atualizações para outros dispositivos durante o processo de atualização. Embora não fosse uma solicitação particularmente complexa, testou a capacidade do assistente de interpretar intenções mais sutis do usuário.

Na primeira tentativa, o Vision interpretou mal a consulta e adotou instruções gerais de atualização do dispositivo. Na segunda tentativa, após refinar minha formulação, ele reconheceu a pergunta corretamente.

No entanto, a orientação era inconsistente com o que eu via na tela. Por exemplo, indicava que eu havia desativado com sucesso o recurso de compartilhamento de atualizações, mesmo sem ter tomado nenhuma ação. Isso sugere que o assistente estava fazendo suposições com base no comportamento esperado, em vez de analisar o estado real do sistema. Isso destaca a necessidade de aprimorar a capacidade do Microsoft Copilot de entender com mais precisão o contexto do usuário e fornecer respostas mais precisas e confiáveis, principalmente em relação às configurações e opções de atualização do Windows 11.

Teste de Reconhecimento de Elementos: Estágio 3

No próximo teste, eu queria testar a capacidade do Copilot de reconhecer elementos visuais na tela. Para isso, abri uma imagem específica e pedi ao Copilot que identificasse com precisão o elemento nela contido.

Neste caso, o Copilot recebeu a imagem de uma jaqueta vermelha. O chatbot conseguiu identificar e descrever o produto com precisão, além de fornecer informações adicionais relevantes mediante solicitação. Isso demonstra a capacidade do Copilot Vision de analisar imagens e fornecer informações detalhadas sobre seu conteúdo.

No entanto, embora o chatbot tenha reconhecido que a jaqueta estava à venda na Amazon, mesmo com a imagem aberta em uma aba separada, ele não conseguiu determinar que eu não estava navegando na página do produto real. Como resultado, ele não conseguiu me fornecer informações sobre a página do produto ativa na Amazon. Isso sugere limitações na capacidade do Copilot de relacionar informações visuais ao contexto de navegação atual do usuário.

Teste de Extração de Texto

Outro recurso que o Copilot Vision oferece é a extração de texto de imagens. Anteriormente, os sistemas operacionais não conseguiam detectar e extrair texto de imagens, mas agora existem vários métodos disponíveis para realizar essa tarefa com eficiência.

Por exemplo, agora você tem ferramentas especializadas de extração de texto, como o recurso Extrator de Texto disponível através do PowerToys, a Ferramenta de Recorte, bem como Clique para fazerAgora você também pode contar com o Copilot Vision para esse processo.

Para testar esse recurso, abri o aplicativo Configurações na página Modo de Jogo e perguntei ao Copilot se ele poderia extrair o texto existente. O robô inteligente leu todo o texto da página em voz alta.

A única desvantagem que encontrei foi a impossibilidade de copiar o texto extraído para a área de transferência ou selecionar o texto diretamente, como é possível no Click to Do. No entanto, o bot copiou tudo para o aplicativo Copilot como parte do histórico de conversas.

Teste de redação de texto: Capacidades da IA ​​em análise e otimização de conteúdo

Tecnicamente, você pode fazer qualquer pergunta sobre qualquer coisa na tela. Por exemplo, se estiver trabalhando em um arquivo específico, você pode direcionar a IA para analisar um gráfico ou qualquer outro tipo de dado exibido.

Essa tecnologia também permite que você solicite a descrição de uma cena ou imagem específica, identifique um ponto de referência ou localização geográfica, ou qualquer outra coisa que você possa imaginar. As possibilidades são infinitas.

Se estiver trabalhando em um texto escrito, você pode pedir à IA para lê-lo e sugerir ideias para melhorias. Esse recurso é particularmente útil para autores, blogueiros e estudantes que buscam aprimorar a qualidade de seus textos.

No meu último teste, carreguei um texto simples no Bloco de Notas e pedi ao chatbot para aumentá-lo. Ele sugeriu com sucesso uma versão alternativa melhorada do texto original.

Embora a capacidade do assistente inteligente de entender o texto exibido na tela e sugerir uma versão alternativa fosse impressionante, ele não era muito preciso em entender as próximas ações necessárias.

Embora eu soubesse que não era possível copiar e substituir o texto pela sugestão diretamente, perguntei se era possível copiar e colar a versão de substituição do texto, mas ele me indicou uma seção no arquivo para inserir.

A solução aqui é abrir e fechar o Copilot Vision e, em seguida, na interface do Copilot, selecionar e copiar o texto do seu histórico de bate-papo. Isso permite que você aproveite as sugestões da IA ​​de forma fácil e eficaz.

O resultado final

Da perspectiva de alguém que escreve guias há muitos anos, acho essa tecnologia realmente impressionante para entender o conteúdo da tela e fornecer a assistência necessária.

No entanto, é preciso reconhecer que isso pode gerar muitos erros e pode não ser muito útil se você ainda não tiver um conhecimento básico do procedimento que deseja realizar. Em outras palavras, o conhecimento prévio do assunto é essencial para aproveitá-lo ao máximo.

Além disso, parece agir com total consciência, mas, na realidade, é apenas uma inteligência artificial replicando conteúdo já disponível online. Isso diminui seu valor como ferramenta inovadora.

Às vezes, usar o Copilot Vision é como falar com o suporte técnico por telefone. Embora o chatbot possa ver a tela, ele o orienta como um agente de suporte técnico faria e, muitas vezes, não entende se você concluiu a tarefa. Essa falta de percepção contextual é um desafio significativo.

Além disso, na maioria dos casos, você deve ser extremamente específico em suas instruções, muitas vezes especificando até mesmo a ação exata que deseja executar. Isso contradiz fundamentalmente o propósito de uma IA, que supostamente entende naturalmente a intenção do usuário. É importante lembrar que esse recurso foi projetado principalmente para usuários não técnicos, já que indivíduos com conhecimento técnico dificilmente confiarão nele.

No geral, embora o Vision seja promissor como assistente pessoal, sua percepção contextual mais profunda e precisão ainda precisam ser aprimoradas. Parece mais que ele está "adivinhar" com base em comandos, em vez de monitorar e responder ativamente ao estado atual do conteúdo na tela. Isso o torna menos confiável em cenários complexos.

Por fim, é importante observar que não menciono as perguntas específicas que usei neste guia porque são irrelevantes. A ideia de um chatbot é conduzir uma conversa normal como se você estivesse falando com outra pessoa. O foco deve ser a fluidez da interação.

Além disso, esse recurso não pode agir em seu nome. Ele só pode analisar o conteúdo na sua tela. Para agir, a IA precisa ser um agente, mas atualmente, apenas PCs Copilot+ têm esse recurso, com uma funcionalidade limitada no aplicativo Configurações.

Por fim, embora o recurso seja gratuito, ele tem limitações. Por exemplo, mesmo tendo uma assinatura do Microsoft 365, após algumas interações, o aplicativo me solicita a atualização para o Copilot Pro.

Portanto, se você estiver solucionando um problema e ainda estiver no meio do processo, poderá ser solicitado a pagar para que o assistente de IA conclua a correção. Essa abordagem pode incomodar usuários que dependem de assistência gratuita.

Comentários estão fechados.