O Gemini do Google poderá em breve fazer o seu trabalho.

Informações indicam que o Google está trabalhando em uma grande atualização para seu assistente de IA generativa. GeminiIsso poderia transformá-lo de um mero assistente conversacional em algo mais próximo de um verdadeiro agente de negócios. Uma análise experimental recente do código do aplicativo do Google por [nome do autor] 9to5GoogleOs desenvolvedores descobriram trechos de código que apontam para um recurso conhecido internamente como "automação de tela". Isso sugere que a Gemini poderá em breve executar ações diretamente em seu nome em determinados aplicativos Android, como fazer pedidos ou reservar voos, sem exigir que o usuário toque manualmente em diferentes telas.

O Gemini do Google poderá em breve realizar suas tarefas.

Embora o Gemini já execute tarefas conversacionais como compor e-mails ou criar planos de pesquisa, esta atualização parece ter como objetivo permitir que ele interaja literalmente com as interfaces dos aplicativos, tocando em botões e navegando pelas telas para concluir tarefas que você normalmente realizaria manualmente. Os primeiros indícios da versão beta sugerem que esses recursos serão inicialmente limitados a alguns aplicativos compatíveis e enfatizarão a supervisão do usuário, com o Google alertando que "o Gemini pode cometer erros" e que os usuários continuam responsáveis pelas ações realizadas em seu nome.

Como essa atualização transforma a IA de assistente em agente?

O conceito por trás da automação de telas representa um passo significativo para dar à IA mais autonomia nos fluxos de trabalho digitais do dia a dia. Em vez de simplesmente sugerir o que você pode fazer, o Gemini poderá em breve implementar essas opções diretamente nos aplicativos. Trechos de código da versão beta do Google também apontam para precauções de privacidade, como aconselhar os usuários a não inserir informações de login ou pagamento em conversas com a IA e alertar que as capturas de tela podem ser analisadas para aprimorar o recurso. O Google já oferece algumas funcionalidades de agente por meio de sua plataforma Gemini Agent no Workspace e na web, onde a IA pode lidar com fluxos de trabalho complexos e coordenar serviços, mas a automação de telas pode levar essas funcionalidades diretamente para smartphones e para o uso diário de aplicativos.

Se esses recursos forem amplamente implementados, isso poderá representar uma mudança na forma como as pessoas interagem com dispositivos móveis, passando de toques e deslizes manuais para a concessão de permissão a ferramentas de IA para agirem em seu nome. Isso poderia simplificar as rotinas diárias, mas também levanta questões sobre controle, segurança e supervisão, especialmente quando a automação afeta tarefas sensíveis como reservas ou transações financeiras.

Segundo relatos, o Google está posicionando essas atualizações como opcionais e supervisionadas, permitindo que os usuários desativem ou substituam o Gemini a qualquer momento. No entanto, o recurso de automação de tela ainda está em desenvolvimento e não chegou a versões estáveis.

Gemini