A DeepSeek está se preparando para a próxima revolução da IA com modelos de autoaperfeiçoamento.
Há apenas alguns meses, a grande aposta de Wall Street na IA generativa enfrentou um momento decisivo quando surgiu DeepSeek Na cena. Apesar de sua natureza altamente controlada, o DeepSeek de código aberto provou que um modelo de IA inferencial inovador não requer necessariamente bilhões de dólares e pode ser alcançado com recursos modestos. Isso representa uma grande mudança em nossa compreensão do desenvolvimento de modelos avançados de IA.
Ele foi rapidamente adotado comercialmente por empresas gigantes como Huawei, Oppo e Vivo, enquanto empresas como Microsoft, Alibaba e Tencent rapidamente lhe deram um lugar em suas plataformas. Agora, o próximo alvo da badalada empresa chinesa são modelos de IA de autoaperfeiçoamento que usam uma abordagem de "julgamento-recompensa" em loop para se aprimorarem. Essa tendência reflete a busca contínua das empresas por desenvolver sistemas de IA mais eficientes e eficazes.
Em um artigo pré-impresso (via BloombergPesquisadores da DeepSeek e da Universidade Tsinghua da China descrevem uma nova abordagem que pode tornar os modelos de IA mais inteligentes e eficientes de forma autoaperfeiçoamento. A técnica subjacente é conhecida como “controle crítico baseado em princípios próprios” (SPCT), e essa abordagem é tecnicamente conhecida como “modelagem de recompensa generativa” (GRM). Essa abordagem representa um desenvolvimento significativo no campo de aprendizagem por reforço para inteligência artificial.

Em termos simples, é um pouco como criar um loop de feedback em tempo real. Um modelo de IA é aprimorado principalmente pela expansão do tamanho do modelo durante o treinamento. Isso requer muito trabalho humano e recursos de computação. O DeepSeek propõe um sistema em que um “árbitro” primário cria seu próprio conjunto de críticas e princípios para o modelo de IA enquanto prepara uma resposta às consultas do usuário. Essa abordagem visa reduzir a dependência de recursos humanos intensivos no processo de treinamento.
Esse conjunto de críticas e princípios é então comparado às regras estabelecidas no cerne do modelo de IA e ao resultado desejado. Se houver um alto grau de correspondência, um sinal de recompensa é gerado, o que efetivamente direciona a IA a ter um desempenho melhor na próxima rodada. Esse processo contínuo de avaliação e recompensa aumenta a capacidade do modelo de aprender e se adaptar.
Os especialistas por trás disso apontam que Artigo de pesquisa Para a próxima geração de modelos de IA de autoaperfeiçoamento chamados DeepSeek-GRM. Os benchmarks incluídos no artigo indicam que esses modelos têm desempenho melhor que o Gemini do Google, o Llama da Meta e o GPT-4o da OpenAI. A DeepSeek diz que esses modelos de IA de próxima geração serão lançados via código aberto. Esse compromisso com a abertura pode acelerar o ritmo da inovação em IA.
IA de autoaperfeiçoamento: é possível?

A ideia de uma inteligência artificial capaz de se autoaprimorar tem gerado discussões ambiciosas e controversas. O ex-CEO do Google, Eric Schmidt, declarou que talvez precisemos de um “interruptor de desligamento” para esses sistemas. E foi transferido Fortune Schmidt disse: “Quando um sistema pode melhorar a si mesmo, devemos considerar seriamente desenergizá-lo”. Os sistemas de IA de autoaperfeiçoamento estão entre os desenvolvimentos mais importantes no campo da IA.
O conceito de IA iterativa e autoaprimorável não é totalmente novo. A ideia de uma máquina superinteligente, capaz de fazer máquinas melhores, Retornar Na verdade, para o matemático I. J. Good em 1965. Em 2007, o especialista em inteligência artificial Eliezer Yudkowsky formulou uma hipótese sobre IA de sementes, uma inteligência artificial “projetada para autocompreensão, automodificação e autoaperfeiçoamento iterativo”.
Em 2024, a empresa japonesa Sakana AI apresentou detalhes de Conceito “AI World” é sobre um sistema capaz de navegar por toda uma linha de produção de artigos de pesquisa do início ao fim. E em uma folha Em um artigo de pesquisa publicado em março deste ano, especialistas da Meta revelaram modelos de linguagem auto-recompensadores onde a própria IA atua como um juiz para conceder recompensas durante o treinamento. Essa mudança em direção a sistemas de IA de autoaprendizagem representa uma mudança de paradigma no desenvolvimento da inteligência artificial.
O CEO da Microsoft, Satya Nadella, diz que o desenvolvimento de IA está sendo otimizado pelo modelo o1 da OpenAI e entrou em uma fase recursiva: "estamos usando IA para construir ferramentas de IA para construir uma IA melhor" foto.twitter.com/IHuFIpQl2C
- Czaratostra (@tsarnick) 21 de outubro de 2024
Os testes internos da Meta do seu modelo de IA Llama 2, usando tecnologia inovadora de autorrecompensa, mostraram que ele supera concorrentes como o Claude 2 da Anthropic, o Gemini Pro do Google e os modelos GPT-4 da OpenAI. Antrópico, apoiado pela Amazon Detalhes fornecidos O que ela chamou de manipulação de recompensa, um processo imprevisível “onde o modelo modifica diretamente seu próprio mecanismo de recompensa”.
O Google não fica muito atrás nessa ideia. Em um estudo publicado na revista Natureza No início deste mês, especialistas do Google DeepMind demonstraram um algoritmo de IA chamado Dreamer que pode se autoaprimorar, usando o Minecraft como exemplo de exercício.
Trabalho Especialistas da IBM Em sua própria abordagem chamada treinamento de fechamento inferencial, onde um modelo de IA usa suas próprias respostas e as avalia em relação aos dados de treinamento para se aprimorar. Contudo, nem toda a hipótese é positiva.
Pesquisas sugerem que quando modelos de IA tentam se treinar com dados sintéticos autogerados, eles sofrem falhas coloquialmente conhecidas como "travamentos de modelo". Será interessante ver como a DeepSeek implementará a ideia e se poderá fazê-lo de uma forma mais econômica do que seus concorrentes ocidentais.
Comentários estão fechados.