Problem mit PBS (Portable Batch System)



  • Hi.

    Ich hoffe, es gibt unter euch ein paar Leute, die sich mit PBS auskennen, ich habe damit nämlich ein Problem (als Nutzer). Ich submitte einen Job an das System und der kommt dann in die Queue (Status Q). Dummerweise bleibt der da auch, obwohl die Resourcen, die dieser Job benötigt, verfügbar wären und keine anderen Jobs in der Queue sind. Der Job wird nicht gestartet. Woran kann soetwas liegen? Kann das überhaupt etwas sein, was ich kontrollieren kann?

    Ich poste hier mal mein Job-File, vielleicht sieht ja einer, ob daran etwas falsch ist:

    #PBS -l walltime=5:00:00
    #PBS -l nodes=1:ppn=2:atk
    #PBS -j oe
    #PBS -V
    #PBS -q atk
    
    cd /G/home/apia001/projects
    
    /usr/cluster/mpich_64/bin/mpirun -machinefile $PBS_NODEFILE -np 2 atk testATK.atk testATK-Output.txt
    


  • Mit Vorsicht zu genießen, da ich grad nicht auf unseren Cluster zugreifen kann um was auszuprobieren und es schon ne Weile her ist, dass ich damit zu tun hatte. Bist Du sicher, dass die Nodes alle jeweils 2 Prozessoreinheiten haben? Evtl. wartet der sich auch zu Tode, weil er keinen einzelnen Node mit den Anforderungen bekommt. Funktioniert es denn seriell bzw. mit "-l nodes=2"?



  • Walli schrieb:

    Mit Vorsicht zu genießen, da ich grad nicht auf unseren Cluster zugreifen kann um was auszuprobieren und es schon ne Weile her ist, dass ich damit zu tun hatte. Bist Du sicher, dass die Nodes alle jeweils 2 Prozessoreinheiten haben? Evtl. wartet der sich auch zu Tode, weil er keinen einzelnen Node mit den Anforderungen bekommt. Funktioniert es denn seriell bzw. mit "-l nodes=2"?

    Die haben das. Ich hatte es auch schon mit ppn=1 probiert, aber das hat auch nichts gebracht. Gibt's vielleicht ne Möglichkeit, so einen Job manuell "anzuschubsen"? ...aber vielleicht täusche ich mich auch damit, dass ich sage, die Resourcen sind nicht belegt. Die Annahme kommt daher, dass ich mich via ssh direkt auf den entsprechenden Systemen eingeloggt habe und da keinerlei Rechenaktivität feststellen konnte. Vielleicht sind die Nodes aber trotzdem irgendeinem anderen Job zugewiesen, der die einfach nicht nutzt. Ich glaube, ich muss mal ne Woche warten: Dann haben die laufenden Jobs alle ihr Zeitlimit überschritten. 🙄



  • Es gibt einen interaktiven Modus wenn man "qsub -I" aufruft. Das gibt Dir eine Shell auf einem der Nodes. Meinst Du sowas?



  • Walli schrieb:

    Es gibt einen interaktiven Modus wenn man "qsub -I" aufruft. Das gibt Dir eine Shell auf einem der Nodes. Meinst Du sowas?

    Ah, dem werde ich mal auf den Grund gehen. Weiß noch nicht, ob mir das etwas hilft, aber vielleicht habe ich ja Glück.



  • @Walli: Ich habe mir gerade die manpage dazu durchgelesen und denke, dass dieser interaktive Modus eher nicht das ist, was ich brauche.

    Kann man eigentlich irgendwie herausfinden, welche Nodes welchem laufenden Job zugewiesen sind?



  • Ah, ich habe es rausgefunden. Den aktuellen Status aller Nodes kriegt man mit:

    pbsnodes -a

    So wie es aussieht, sind die Nodes, die für mich interessant sind, momentan einem anderen Job zugewiesen. ...wenigstens hat der eine Walltime von nur 24 Stunden. ...falls mein Job dann nicht läuft, belästige ich euch weiter mit meinen Problemen. :p

    @Walli: Danke für die Mühe. 🙂


Anmelden zum Antworten