Computação Distribuída com TORQUE Resource Manager

O TORQUE Resource Manager fornece controle sobre trabalhos de grupo e recursos de computação distribuída. É um produto Open Source avançado, baseado no projeto original PBS e incorpora o melhor da comunidade e do desenvolvimento profissional. Ele está atualmente em uso em dezenas de milhares de aplicações governamentais, acadêmicas e sites comerciais em todo o mundo.

[ Hits: 23.288 ]

Por: Juno Kim em 28/08/2013 | Blog: http://www.kim.eti.br


O que é o TORQUE?



O TORQUE Resource Manager fornece controle sobre trabalhos de grupo e recursos de computação distribuída.

É um produto Open Source avançado, baseado no projeto original PBS e incorpora o melhor da comunidade e do desenvolvimento profissional. Ele incorpora avanços significativos nas áreas de escalabilidade, confiabilidade e funcionalidade e está atualmente em uso em dezenas de milhares de aplicações governamentais, acadêmicas e sites comerciais em todo o mundo.

O TORQUE pode ser utilizado livremente, modificado e distribuído de acordo com as restrições da licença inclusa.

Um pouco da história do TORQUE

Antes, ele era chamado Sistema de Lotes Portátil (Portable Batch System ou, simplesmente, PBS), que é o nome do programa para computador que executa trabalho de programação. Sua principal tarefa é a de atribuir tarefas computacionais, ou seja, trabalhos em lote, entre os recursos computacionais disponíveis. Ele é frequentemente usado em conjunto com ambientes de cluster UNIX.

PBS é executado como um mecanismo agendador de tarefas por vários meta-programadores incluindo Moabe com recursos de cluster (que se tornou Adaptive Computing Enterprises Inc.)

PBS foi originalmente desenvolvido para a NASA em um projeto de contrato, que começou em 17 de junho de 1991. O contratante principal, que desenvolveu o código original, foi MRJ Soluções em Tecnologia. A MRJ foi adquirida pela Veridian no final de 1990.

E a Altair Engineering adquiriu os direitos de toda a tecnologia PBS e de propriedade intelectual de Veridian em 2003. A Altair Engineering atualmente possui e mantém a propriedade intelectual associada com PBS, e também emprega a equipe de desenvolvimento original da NASA.


As seguintes versões do PBS estão disponíveis atualmente:

OpenPBS :: versão original de código aberto lançado por MRJ em 1998:
TORQUE :: um variação do OpenPBS que é mantida pela Adaptive Computing Enterprises, Inc. (antiga Cluster Resources, Inc.):
PBS Works :: versão comercial de PBS oferecido pela Altair Engineering:
    Próxima página

Páginas do artigo
   1. O que é o TORQUE?
   2. Instalação e configuração - I
   3. Instalação e configuração - II
   4. Testes dos cluster
   5. Revisão
Outros artigos deste autor

A essência de ser Livre

Configurando o proftpd com autenticação de usuário pelo passwd

Computação Distribuída com TORQUE Resource Manager - Parte 2

Leitura recomendada

Call Center no Linux

Usando o apt-file do Debian

Desbravando o mundo do Software Livre

Criando um banco de dados para obter ajuda do sistema

Soluções: open source ou proprietária? Salada mista!

  
Comentários
[1] Comentário enviado por leodamasceno em 28/08/2013 - 13:45h

Muito interessante. Tenho total interesse em testar essa ferramenta. Parabens pelo artigo.

[2] Comentário enviado por edul0pes em 29/08/2013 - 15:56h

Parabéns pelo artigo.

[3] Comentário enviado por gnumoksha em 02/09/2013 - 13:41h

Interessante. Obrigado pelo artigo.

Em tempo, por que tanta memoria swap?

[4] Comentário enviado por juno em 02/09/2013 - 17:12h

Olá amigo tobiasgnu,
O motivo de ter a memória extensa é para precaver os nós de travarem pois rodamos um programa de reconhecimento de fala que ocupa 100% da memória física em quanto carrega.


[5] Comentário enviado por fabiofima em 08/04/2016 - 13:30h

Olá, primeiramente, obrigado pelo tutorial, como sempre desse site, muito bem explicado e didático.
Instalei o toque no nosso cluster aqui, tal contendo 1 head node e 6 slaves. A instalação e configuração deu tudo certo, o pbsnodes -a mostra corretamente os nodos, em estado "free". Se submeto um submitionfile.sh com um comando básico, como por exemplo wget ou uma sequencia de locates, ele consegue escalonar o job, executa, ficando em R no qstat até acabar e finaliza... Mas quando submeto uma execução de um software que usamos aqui chamado Gromacs, que tem instalado em todos os slave nodes, ele vai para estado E e C no qstat, sem deixar nenhum log, erro, output, nada... Nem no "Torque/serv_logs"... Se executo o mesmo comando, localmente no nodo, sem usar o torque, ele executa e fica correto como precisava ser.
Alguém poderia me ajudar? Não forneci mais informações porque não sei nem achar qual é o erro.
Obrigado desde já!!!


Contribuir com comentário




Patrocínio

Site hospedado pelo provedor RedeHost.
Linux banner

Destaques

Artigos

Dicas

Tópicos

Top 10 do mês

Scripts