Voltar

A Automação de Tarefas do Google Gemini Mostra Promessa Apesar de Problemas Iniciais

Visão Geral da Automação de Tarefas do Gemini

O Google introduziu uma versão beta de automação de tarefas para seu AI Gemini em dispositivos Android. A funcionalidade permite que o Gemini interaja diretamente com aplicativos, como serviços de entrega de comida e caronas, realizando ações em nome do usuário enquanto o telefone é usado para outras tarefas.

Como a Funcionalidade Funciona

Quando um usuário inicia uma automação, o Gemini opera em segundo plano. Uma pequena barra de texto aparece na parte inferior da tela descrevendo o passo atual, por exemplo, quando se selecionam itens de menu em um aplicativo de pedido de comida. O AI prossegue pela interface do aplicativo - tocando, rolando e inserindo informações - até que ele chegue à tela de confirmação final, onde o usuário deve aprovar manualmente o pedido ou carona.

Desempenho e Experiência do Usuário

Os testes iniciais mostram que o Gemini é notavelmente mais lento do que um humano realizando as mesmas ações. Os usuários relataram que um pedido simples de Uber pode levar vários minutos, e o AI às vezes faz seleções incorretas que ele corrige sozinho. O sistema também pode pausar quando um aplicativo requer permissões adicionais, como acesso à localização, ou quando um endereço de entrega precisa ser ajustado. Depois que o problema é resolvido, a automação pode ser reiniciada sem problemas.

Precisão e Confiabilidade

Apesar do ritmo mais lento, as saídas finais do AI são frequentemente precisas. Na maioria dos casos, apenas ajustes menores são necessários antes de confirmar um pedido. Quando ocorrem falhas, elas tendem a acontecer no início do processo, geralmente dentro dos primeiros minutos, e estão relacionadas a prompts específicos do aplicativo que o AI não pode lidar automaticamente.

Casos de Uso Práticos Demonstrados

Os testadores tentaram vários cenários. Um deles envolveu pedir um combo de teriaki de frango, onde o Gemini adicionou corretamente duas porções de meia-portion após interpretar o layout do menu. Outro cenário agendou uma carona para um aeroporto com base em uma entrada de calendário. Acessando dados de e-mail e calendário, o Gemini identificou detalhes de voo, sugeriu horários de partida apropriados e configurou uma reserva de Uber após a confirmação do usuário.

Implicações para Futuros Assistentes Móveis

A experiência destaca que os aplicativos móveis atuais, projetados principalmente para interação humana, não são otimizados para controle de IA. A abordagem baseada em raciocínio do Gemini destaca a necessidade de os desenvolvedores adotarem métodos de integração mais robustos, como o Protocolo de Contexto de Modelo (MCP) ou as funções de aplicativos do Android, que forneceriam interfaces de dados mais limpas para agentes de IA.

Perspectiva da Indústria

Sameer Samat, chefe do Android do Google, observou que o método atual do Gemini é uma solução provisória que aproveita o raciocínio enquanto outras técnicas de integração amadurecem. Os observadores veem a versão beta como um vislumbre de como os assistentes móveis impulsionados por IA poderiam se tornar uma vez que os aplicativos sejam construídos com compatibilidade de IA em mente.

Conclusão

Embora a automação de tarefas do Gemini ainda seja lenta, ocasionalmente propensa a erros e limitada a um punhado de serviços, ela demonstra um assistente de IA funcional capaz de navegar aplicativos do mundo real. As limitações da funcionalidade apontam para um desafio mais amplo da indústria: redesenhar interfaces de aplicativos para melhor atender aos agentes de IA. Se os desenvolvedores adotarem novos protocolos, versões futuras do Gemini poderiam oferecer uma experiência de assistente móvel mais suave, rápida e confiável.

Usado: News Factory APP - descoberta e automação de notícias - ChatGPT para Empresas

Também disponível em: