Discussão

Armazenamento

Diferente do ano anterior, a taxa de espaço utilizado por mês não só aumentou, como duplicou. Dessa forma, estamos chegando ao limite atual da capacidade de armazenamento, com cerca de 90% de armazenamento ocupado.

O elevado consumo de inodes, decorrente do grande número de arquivos pequenos, ainda persiste no cluster. Entendemos que esse cenário pode continuar ser mitigado por meio da conscientização dos usuários sobre “boas práticas em ambiente HPC”. Quando necessário, a Equipe de Dados Biológicos poderá auxiliar no otimização de scripts e programas utilizados.

Exemplos de boas práticas são o uso de arquivos que permitam a combinação de múltiplos dados em um único arquivo (ex. multifasta para sequências) e o uso extensivo de compactação de arquivos e pastas.

Estamos em processo de aquisição de mais espaço de armazenamento. Essa aquisição adicionará 1.4PB de capacidade. Considerando um aumento de 40% no volume armazedo anualmente, a capacidade de armazenamento do Marvin será suficiente para os próximos 5 anos.

Durante a aquisição, que exigirá uma parada de 2 semanas para movimentar os dados, será feita uma reconfiguração do Lustre para reduzirmos os problemas com inodes. Além disso, estamos avaliando a mudança da HOME dos usuários para um sistema de arquivos que não seja Lustre e assim evitar a principal fonte de problemas com inodes.

Usuários

O número de usuários ativos do Marvin manteve uma trajetória de crescimento ao longo de 2025. O sistema iniciou o ano com 85 usuários ativos e encerrou dezembro com 167 usuários ativos, o que corresponde a uma taxa média de aproximadamente 6,8 novos usuários por mês. Esse crescimento é significativamente superior ao observado em 2024, quando a taxa foi de cerca de 3 novos usuários por mês.

Apesar do aumento expressivo no número de usuários, observa-se que uma parcela deles ainda utiliza predominantemente os recursos de armazenamento de dados, enquanto apenas uma fração submete jobs para as filas do Slurm. Esse cenário indica que há espaço para ampliar o uso efetivo dos recursos computacionais disponíveis.

Outubro foi o mês em que houve o maior incremento de usuários durante o ano (29 novos usuários), devido ao treinamento realizado no dia 27. Levantado como hipótese no último relatório, de fato, a realização do treinamento para o HPC contribuiu para aumentar o número de usuários.

Processamento

A média de jobs submetidos por mês cresceu aproximadamente 150%.

A duas filas com maior número de jobs foram, respectivamente, a “short-cpu” e “short-gpu-big”.

Aproximadamente 84% dos jobs são executados em menos de 1 hora.

O tempo médio de espera na fila foi de 3.7 horas. Isso ocorre porque é comum que os usuários submetam lotes de jobs para serem processados. Isso é comum em ambientes HPC, mas pode impactar usuários que desejam executar tarefas interativamente.

No final do ano, foi iniciada a configuração dos fatores que influenciam a prioridade dos jobs no Slurm. Por padrão, a prioridade na fila era baseada em FIFO (First In, First Out), ou seja, os jobs seriam alocados de acordo com a ordem de submissão.

A partir dessa configuração, optou-se por adotar uma política de prioridade baseada em múltiplos fatores, incluindo a idade do job, o uso recente de recursos pelo usuário, os recursos solicitados etc. Essa abordagem visa evitar a monopolização das filas e promover um uso mais equilibrado e justo dos recursos computacionais do ambiente HPC.

Importante ressaltar que os parâmetros de prioridade, apesar de terem sido implementados para reduzir a monopolização das filas, ainda estão em fases de ajuste e otimização utilizando tanto o feedback dos usuários quanto as informações coletadas e apresentadas nesse relatório.

Conclusão

Ao longo de 2025, observou-se o crescimento na utilização do HPC em relação ao ano anterior, tanto pela quantidade de usuários, armazenamento em disco e na quantidade total de jobs processados. Isso indica uma maior integração do HPC às atividades de pesquisa do LNBio.

No entanto, o crescimento trouxe novos desafios, como a maior disputa por recursos, menor armazenamento disponível e escassez de inodes livres. Esse panorama reforça a importância de orientar os usuários sobre boas práticas, o uso eficiente do ambiente.