Skip to content

WillianJunior/SpeedUFMG

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 

Repository files navigation

Bem vindo ao SONIC

Este é o cluster de alta performance do laboratório SPEED do DCC/UFMG. Nele temos máquinas com diversas configurações para uso coletivo por meio do sistema slurm. Nesta página temos explicações completas do que está disponível para uso, assim como uma seção too long, didn’t read (TLDR) com informações resumidas para uso imediato do cluster.

Também temos um FAQ com material recente. Favor ler as dúvidas existentes caso tenha problemas. Naturalmente, por mais que tentemos, haverão gaps de informações nesta documentação, assim como possíveis problemas não recorrentes. Neste caso, pode-se pedir ajuda no grupo do Telegram, tentando se atentar a algumas recomendações de etiqueta de perguntas

Por fim, temos uma seção com soluções paliativas para auxiliar o uso imediato do cluster, mesmo ele ainda não estando em sua forma final.

Um último detalhe importante é o uso do nó phocus4 vs cerberus. SOMENTE deve ser usado o nó phocus4 para toda e qualquer operação no cluster. O nó cerberus deve apenas ser usado para acessar a phocus4!!!

Um segundo último detalhe igualmente importante: NÃO RODEM JOBS NA PHOCUS4. A phocus4 serve apenas como ponto de acesso ao cluster, onde só deve ser baixado e compilado código (dado que a compilação não acabe com a memória do sistema ou use todos os cores), ou submetido jobs para as gorgonas (via srun/sbatch). Rodar experimentos nela (i) vai ser devagar, já que ela é uma máquina antiga, e (ii) pode prejudicar o trabalho dos colegas. Como saber se estou usando a phocus4 excessivamente? rode o comando 'htop' quando conectado à ela. O htop mostra o uso de recursos de todos usuários, sendo possível filtrar por nome de usuário, nome do processo, etc., e verificar o uso de memória e cpu total do sistema, assim como todos os processos. Também é possível matar seus processos, caso vc encontre um processo seu rodando algo que não devia ser rodado.

Management

Essa é a parte de gerenciamento do cluster. Nela estão as etapas necessárias para montar o cluster do zero, ou fazer manutneção no mesmo. Se você não está prestando manutenção no cluster, não precisa ler nada daqui para baixo.

Ferramentas

About

Wiki de uso do laboratório Speed do DCC/UFMG

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages