Aprenda idiomas de forma natural com conteúdo fresco e autêntico!

Tópicos populares
Explorar por região
O software TorchPass do Clockwork.io evita falhas no treinamento de IA ao permitir a migração ao vivo da GPU, economizando milhões anualmente em grandes clusters de IA.
O Clockwork.io lançou o TorchPass, uma solução de software que permite a migração ao vivo da GPU e tolerância a falhas em grandes clusters de treinamento de IA, evitando reinicializações caras durante falhas de hardware, problemas de rede ou erros de driver.
O sistema mantém a continuidade do treinamento sem checkpointing, suporta failover reativo, proativo e baseado em manutenção, e pode economizar mais de US $ 6 milhões por ano em uma configuração de 2.048-GPU.
medida que as taxas de falha aumentam em clusters maciços – deixando cair o tempo médio para o fracasso de apenas 1,8 horas em um sistema de 16.384 GPU – o TorchPass melhora a confiabilidade, a utilização da GPU e a eficiência do treinamento do modelo.
Os primeiros adotantes relatam melhor desempenho de throughput, resiliência e acordo de nível de serviço, oferecendo uma correção orientada por software para uma grande barreira de custo na infraestrutura de IA.
Clockwork.io's TorchPass software prevents AI training crashes by enabling live GPU migration, saving millions annually in large AI clusters.