OpenAI admite aumento de erros nos seus novos modelos

A OpenAI, uma das líderes mundiais em inteligência artificial, revelou, segundo o TechCrunch, que os seus mais recentes modelos de raciocínio, o3 e o4-mini, apresentam taxas mais elevadas de alucinação do que modelos anteriores. A empresa admite que não sabe ao certo por que motivo isso acontece, embora acredite que o tipo de treino possa estar a influenciar os resultados.

Modelos alucinam mais do que os anteriores

Segundo testes internos da OpenAI, o modelo o3 apresentou 33% de respostas alucinadas em perguntas do benchmark PersonQA, focado no conhecimento sobre pessoas. Para comparação, os modelos anteriores o1 e o3-mini registaram 16% e 14,8%, respetivamente. Já o o4-mini teve um desempenho ainda pior: alucinou 48% das vezes.

Estes modelos são chamados de “raciocínio” por apresentarem melhorias em tarefas como programação e matemática. No entanto, o relatório técnico da OpenAI revela que, ao fazerem mais afirmações no geral, acabam por gerar tanto respostas mais precisas quanto mais incorretas.

Problema também identificado por terceiros

A organização sem fins lucrativos Transluce confirmou a tendência. Em testes, observou que o o3 chegou a inventar que executou código num MacBook Pro fora do ambiente ChatGPT. Na realidade, tal ação não é possível para o modelo.

Neil Chowdhury, investigador da Transluce e ex-funcionário da OpenAI, sugeriu que o tipo de aprendizagem por reforço adotado pode estar a agravar este problema.

Impacto na utilização prática

A crescente taxa de alucinação levanta preocupações, especialmente em setores onde a precisão é crítica, como o jurídico ou financeiro. Empresas podem hesitar em adotar modelos que geram erros factuais em contextos sensíveis.

Apesar disso, modelos como o o3 continuam a ser testados por startups como a Workera, que destaca a sua utilidade na programação. Contudo, também relatou problemas com links quebrados gerados pelo modelo.

Caminho para a melhoria pode passar pela pesquisa na web

Uma possível solução seria a integração de pesquisa na web. O modelo GPT-4o, com essa funcionalidade, atingiu 90% de precisão no benchmark SimpleQA. A OpenAI afirma estar a trabalhar constantemente para melhorar a fiabilidade e exatidão dos seus modelos.

Fonte: TechCrunch

Veja também:

Últimas publicações

Klarna estreia stablecoin KlarnaUSD e reforça aposta cripto

Pagamentos cripto passam a operar no ecossistema Pix com KuCoin Pay

Investigação do ICIJ expõe redes de branqueamento envolvendo criptomoedas

Klarna estreia stablecoin KlarnaUSD e reforça aposta cripto

Pagamentos cripto passam a operar no ecossistema Pix com KuCoin Pay

Investigação do ICIJ expõe redes de branqueamento envolvendo criptomoedas

Discovery Bank lança primeira App bancária com cripto na África do Sul

Reino Unido abranda restrições e reabre porta às Stablecoins

Bruxelas volta a investigar Google por regras do DMA

Inteligência Artificial

Pagamentos digitais: evolução e impacto

Yann LeCun: Modelos atuais não alcançarão Inteligência Artificial Geral

Criptomoedas: Origem e Impacto Global

Fintechs: Revolução no Sistema Financeiro

Klarna estreia stablecoin KlarnaUSD e reforça aposta cripto

Investigação do ICIJ expõe redes de branqueamento envolvendo criptomoedas

Euro Digital pode ser lançado já em 2029, diz BCE

Coinbase desafia bancos: “Stablecoins não ameaçam depósitos”

Nova Lei pode travar negociações P2P de Bitcoin no Brasil

Blockchain do JPMorgan revoluciona fundos privados

Boom da IA leva Nvidia a recorde histórico de valor de mercado

Últimas publicações

OpenAI admite aumento de erros nos seus novos modelos

Modelos alucinam mais do que os anteriores

Problema também identificado por terceiros

Impacto na utilização prática

Caminho para a melhoria pode passar pela pesquisa na web

NEWSLETTER