Aprenda idiomas de forma natural com conteúdo fresco e autêntico!

Toque para traduzir - gravação

Explorar por região

flag O software TorchPass do Clockwork.io evita falhas no treinamento de IA ao permitir a migração ao vivo da GPU, economizando milhões anualmente em grandes clusters de IA.

flag O Clockwork.io lançou o TorchPass, uma solução de software que permite a migração ao vivo da GPU e tolerância a falhas em grandes clusters de treinamento de IA, evitando reinicializações caras durante falhas de hardware, problemas de rede ou erros de driver. flag O sistema mantém a continuidade do treinamento sem checkpointing, suporta failover reativo, proativo e baseado em manutenção, e pode economizar mais de US $ 6 milhões por ano em uma configuração de 2.048-GPU. flag medida que as taxas de falha aumentam em clusters maciços – deixando cair o tempo médio para o fracasso de apenas 1,8 horas em um sistema de 16.384 GPU – o TorchPass melhora a confiabilidade, a utilização da GPU e a eficiência do treinamento do modelo. flag Os primeiros adotantes relatam melhor desempenho de throughput, resiliência e acordo de nível de serviço, oferecendo uma correção orientada por software para uma grande barreira de custo na infraestrutura de IA.

9 Artigos