Aprenda idiomas de forma natural com conteúdo fresco e autêntico!

Toque para traduzir - gravação

Explorar por região

flag A startup chinesa de IA DeepSeek introduz um novo método para tornar os modelos grandes mais eficientes, reduzindo custos e aumentando a escalabilidade.

flag A startup chinesa DeepSeek, revelou um novo método de treinamento chamado Manifold-Constringed Hyper-Connections, projetado para tornar os grandes modelos de IA mais eficientes e escaláveis, reduzindo os custos computacionais e de energia. flag A técnica, detalhada em um artigo co-autoria do fundador Liang Wenfeng e publicada no arXiv, aborda problemas de instabilidade de treinamento e memória em modelos anteriores, permitindo treinamento estável em sistemas de parâmetros de 3 a 27 bilhões com computação mínima adicionada. flag Com base no trabalho anterior de ByteDance, a abordagem reflete o impulso da China para a inovação em IA, apesar das restrições de semicondutores dos EUA. flag A expectativa de liberação de combustíveis para o próximo grande modelo do DeepSeek, possivelmente R2, esperado em torno do Festival da Primavera em fevereiro.

7 Artigos

Leitura adicional