A TARDE ESG
Novo tipo de agente de IA
A missão? Ensinar modelos para entender melhor como construir código levará à IA superinteligente
Por Will Night Wired

Um novo tipo de agente de inteligência artificial, treinado para entender como o software é criado, extraindo dados de uma empresa e aprendendo como isso leva a um produto final, poderia ser um assistente de software mais capaz e um pequeno passo em direção a uma IA muito mais inteligente. Com a indústria de IA agora mirando a superinteligência e empresas abastadas como a Meta investindo grandes somas em contratações e construção de infraestrutura, startups, podem achar mais desafiador competir.
O novo agente, chamado Asimov, foi desenvolvido pela Reflection, uma startup pequena, porém ambiciosa, co-fundada por importantes pesquisadores de IA do Google. Asimov lê código, além de e-mails, mensagens do Slack, atualizações de projetos e outras documentações, com o objetivo de aprender como tudo isso se une para produzir um software finalizado. O objetivo final da Reflection é desenvolver uma IA superinteligente — algo em que outros laboratórios de IA líderes afirmam estar trabalhando. A Meta criou recentemente um novo Laboratório de Superinteligência, prometendo grandes somas a pesquisadores interessados em participar do novo projeto.
O CEO da empresa, Misha Laskin, afirma que a maneira ideal de desenvolver agentes de IA superinteligentes é fazê-los dominar a codificação, já que esta é a maneira mais simples e natural de interagirem com o mundo. Enquanto outras empresas estão desenvolvendo agentes que usam interfaces de usuário humanas e navegam na web , Laskin, que trabalhou anteriormente na Gemini e em agentes no Google DeepMind, afirma que isso dificilmente é natural para um modelo de linguagem abrangente. Laskin acrescenta que ensinar a IA a entender o desenvolvimento de software também produzirá assistentes de codificação muito mais úteis.
Leia Também:
Laskin diz que o Asimov foi projetado para passar mais tempo lendo código do que escrevendo. "Todos estão realmente focados na geração de código", ele me disse. "Mas como tornar os agentes úteis em um ambiente de equipe ainda não está resolvido. Estamos em uma espécie de fase semiautônoma em que os agentes estão apenas começando a trabalhar."
O Asimov, na verdade, consiste em vários agentes menores dentro de um sobretudo. Todos os agentes trabalham juntos para entender o código e responder às perguntas dos usuários sobre ele. Os agentes menores recuperam informações, e um agente de raciocínio maior sintetiza essas informações em uma resposta coerente a uma consulta.
Daniel Jackson, cientista da computação do Instituto de Tecnologia de Massachusetts (MIT), afirma que a abordagem da Reflection parece promissora, dado o escopo mais amplo de sua coleta de informações. Jackson acrescenta, no entanto, que os benefícios da abordagem ainda não foram comprovados e que a pesquisa da empresa não é suficiente para convencê-lo de benefícios abrangentes. Ele observa que a abordagem também pode aumentar os custos computacionais e potencialmente criar novos problemas de segurança. "Seria necessário ler todas essas mensagens privadas", diz ele.
O CTO da startup, Ioannis Antonoglou, afirma que sua experiência em treinar modelos de IA para raciocinar e jogar está sendo aplicada para que eles criem código e realizem outras tarefas úteis. Engenheiro fundador do Google DeepMind, Antonoglou fez uma pesquisa inovadora sobre uma técnica conhecida como aprendizado por reforço, que foi usada principalmente para criar o AlphaGo, um programa que aprendeu a jogar o antigo jogo de tabuleiro Go a um nível sobre-humano usando a técnica.
O aprendizado por reforço, que envolve o treinamento de um modelo de IA por meio da prática combinada com feedback positivo e negativo ganhou destaque nos últimos anos por fornecer uma maneira de treinar um modelo de linguagem amplo para produzir melhores resultados. Combinado com o treinamento humano, o aprendizado por reforço pode treinar um LLM para fornecer respostas mais coerentes e agradáveis às consultas. Com treinamento adicional, o aprendizado por reforço ajuda um modelo a aprender a executar um tipo de raciocínio simulado, por meio do qual problemas complexos são divididos em etapas para que possam ser resolvidos com mais eficácia. A Asimov atualmente usa modelos de código aberto, mas a Reflection está usando o aprendizado por reforço para pós-treinar modelos personalizados que, segundo ela, apresentam desempenho ainda melhor.
Em vez de aprender a vencer em um jogo como Go, o modelo aprende a construir um software completo. Acessar mais dados de uma empresa fornece mais informações que ajudarão o agente de IA a construir uma codificação de boa qualidade de forma independente. O Reflection utiliza dados de anotadores humanos e também gera seus próprios dados sintéticos. Ele não treina com dados de clientes.
Grandes empresas de IA já estão usando aprendizado por reforço para ajustar agentes. Uma ferramenta da OpenAI chamada Deep Research , por exemplo, usa o feedback de humanos especialistas como um sinal de aprendizado por reforço que ensina um agente a vasculhar sites em busca de informações sobre um tópico antes de gerar um relatório detalhado.
“Na verdade, construímos algo parecido com o Deep Research, mas para seus sistemas de engenharia”, diz Antonoglou, observando que o treinamento em mais do que apenas código oferece uma vantagem. “Observamos que, em grandes equipes de engenharia, grande parte do conhecimento é armazenado fora da base de código.”
Compartilhe essa notícia com seus amigos
Siga nossas redes