A OpenAI revelou o Computer-Using Agent (CUA), uma inteligência artificial inovadora projetada para realizar tarefas humanas em ambientes digitais. Alimentando o novo produto Operator, o CUA combina capacidades visuais do GPT-4o com raciocínio avançado baseado em aprendizagem por reforço. Esta tecnologia permite que o modelo interaja com interfaces gráficas de utilizador (GUIs) de forma semelhante aos humanos, sem a necessidade de APIs especializadas.
Como funciona o CUA
O CUA analisa capturas de ecrã e utiliza um rato e um teclado virtuais para executar tarefas. Este sistema é capaz de navegar por tarefas de múltiplas etapas, corrigir erros e adaptar-se a mudanças inesperadas. Graças a estas capacidades, o CUA pode preencher formulários, navegar em websites e concluir outras tarefas complexas.
O funcionamento baseia-se num ciclo iterativo:
- Perceção: Capturas de ecrã fornecem ao modelo informações visuais sobre o estado atual do sistema.
- Raciocínio: O modelo planeia próximas ações com base nas observações e nos passos anteriores.
- Ação: O CUA realiza cliques, rolagens ou digitações até concluir a tarefa ou solicitar mais instruções.
Desempenho em benchmarks
Nos testes, o CUA demonstrou desempenho avançado:
- WebVoyager: Alcançou uma taxa de sucesso de 87% em tarefas de navegação em websites ao vivo.
- WebArena: Obteve 58,1% de sucesso em cenários mais complexos.
- OSWorld: Para tarefas completas em sistemas operativos, atingiu 38,1%, enquanto o desempenho humano é de 72,4%.
Embora o modelo ainda precise de melhorias, os resultados são promissores para aplicações futuras.
Segurança como prioridade
A OpenAI implementou várias salvaguardas para evitar riscos. O CUA solicita confirmações do utilizador antes de concluir tarefas sensíveis, como introdução de dados de login. Também possui um modo de supervisão ativa em websites mais delicados. Além disso, foi projetado para ignorar ataques adversários, como phishing ou injeções de comandos.
Impacto e futuro
Disponível nos EUA como uma pré-visualização de investigação, o CUA integra o Operator, acessível em operator.chatgpt.com. Esta fase inicial permitirá à OpenAI recolher feedback e refinar o modelo. Apesar das limitações atuais, o CUA destaca-se como uma ferramenta inovadora para tarefas digitais.