A OpenAI, uma das líderes mundiais em inteligência artificial, revelou, segundo o TechCrunch, que os seus mais recentes modelos de raciocínio, o3 e o4-mini, apresentam taxas mais elevadas de alucinação do que modelos anteriores. A empresa admite que não sabe ao certo por que motivo isso acontece, embora acredite que o tipo de treino possa estar a influenciar os resultados.
Modelos alucinam mais do que os anteriores
Segundo testes internos da OpenAI, o modelo o3 apresentou 33% de respostas alucinadas em perguntas do benchmark PersonQA, focado no conhecimento sobre pessoas. Para comparação, os modelos anteriores o1 e o3-mini registaram 16% e 14,8%, respetivamente. Já o o4-mini teve um desempenho ainda pior: alucinou 48% das vezes.
Estes modelos são chamados de “raciocínio” por apresentarem melhorias em tarefas como programação e matemática. No entanto, o relatório técnico da OpenAI revela que, ao fazerem mais afirmações no geral, acabam por gerar tanto respostas mais precisas quanto mais incorretas.
Problema também identificado por terceiros
A organização sem fins lucrativos Transluce confirmou a tendência. Em testes, observou que o o3 chegou a inventar que executou código num MacBook Pro fora do ambiente ChatGPT. Na realidade, tal ação não é possível para o modelo.
Neil Chowdhury, investigador da Transluce e ex-funcionário da OpenAI, sugeriu que o tipo de aprendizagem por reforço adotado pode estar a agravar este problema.
Impacto na utilização prática
A crescente taxa de alucinação levanta preocupações, especialmente em setores onde a precisão é crítica, como o jurídico ou financeiro. Empresas podem hesitar em adotar modelos que geram erros factuais em contextos sensíveis.
Apesar disso, modelos como o o3 continuam a ser testados por startups como a Workera, que destaca a sua utilidade na programação. Contudo, também relatou problemas com links quebrados gerados pelo modelo.
Caminho para a melhoria pode passar pela pesquisa na web
Uma possível solução seria a integração de pesquisa na web. O modelo GPT-4o, com essa funcionalidade, atingiu 90% de precisão no benchmark SimpleQA. A OpenAI afirma estar a trabalhar constantemente para melhorar a fiabilidade e exatidão dos seus modelos.
Fonte: TechCrunch
Veja também: