Dalton Users Documentation

Table of Contents

1. Les noeuds

1.1. Le frontal

luckyluke :

  • C'est une VM lente avec peu de CPU et mémoire. Ne pas faire de calcul ou compiler dessus.
  • Accessible sous le nom dalton.bordeaux.inria.fr uniquement depuis les passerelles 'acces'

Les autres daltons ne sont accessibles que depuis ce frontal.

Pour aller directement sur le frontal depuis l'extérieur en tapant `ssh dalton`, mettre dans le `.ssh/config` de la machine source :

Host dalton
User <login_dalton>
ProxyCommand ssh <login_inria>@acces.bordeaux.inria.fr nc dalton.bordeaux.inria.fr 22

Comme l'authentification se fait par clef ssh, il faut probablement propager votre agent ssh en ajoutant tout en haut du `.ssh/config` :

ForwardAgent yes

1.2. Les nœuds de calcul

  • betty
    • Dual-processeur AMD EPYC Icosikaitetra-core (2*24 = 48 coeurs, 48 threads) Zen2 Rome EPYC 7352 2.3GHz (x86_64)
    • 2*16Go NUMA
    • 2* GPU NVIDIA Tesla T4 16Go
    • 1* GPU NVIDIA Quatro RTX 8000 48Go
  • peabody
    • Dual-processeur Intel Xeon Icosikaihexa-core (2*26 = 52 coeurs, 104 threads) Cascade Lake Gold 6230R 2.1GHz (x86_64)
    • 2*16Go NUMA
  • billy0, billy1
    • Dual-processeur AMD EPYC Dodriaconta-core (2*32 = 64 cœurs, ~128 threads~) Zen2 Rome EPYC 7502 2.5GHz (x86_64)
    • 8*16Go NUMA
    • InfiniBand ConnectX-6 HDR
    • Atos BXI v1.3 (il faut booter avec le vieux noyau 4.19)
  • leonide (le grand duc)
    • Dual-processeur Intel Xeon Icosa-core Hyperthreadé (2*20 = 40 cœurs, 80 threads) Cascade Lake Gold 6230 v2 2.1GHz (x86_64)
    • 2*192Go DDR NUMA + 2*768Go NVDIMM NUMA
  • henri0, henri1
    • Dual-processeur Intel Xeon Octakaideca-core ~Hyperthreadé~ (2*18 = 36 cœurs, ~72 threads~) Skylake Gold 6140 2.3GHz (x86_64)
    • 2*48Go NUMA
    • Infiniband ConnectX-4 EDR
    • Atos/Bull BXI 1.3
  • joe0, joe1
    • Dual-processeur Intel Xeon Tetrakaideca-core Hyperthreadé (2*14 = 28 cœurs, 56 threads) Broadwell E5-2650L v4 1.7GHz (x86_64)
    • 2*32Go RAM NUMA
    • 2*GPU AMD Radeon R9 Fiji XT Nano sur averell1
    • Infiniband ConnectX-4 EDR
  • william0, william1 :
    • Dual-processeur Intel Xeon Octo-core Hyperthreadé (2*8 = 16 cœurs, 32 threads) Sandy Bridge E5-2650 2GHz (x86_64)
    • 2*16Go RAM NUMA
    • 1* NVIDIA Tesla M2075
    • Infiniband ConnectX-3 FDR
  • ma (ancien frontal)
    • Mono-processeur Intel Xeon Hexa-core (1*6 = 6 cœurs) Haswell E5-2603v3 1.6GHz (x86_64)
    • 32*Go RAM

Les machines finissant par un numéro disposent de réseaux rapides (InfiniBand et/ou BXI) mais elles ne sont connectées que par paire, sans switch.

1.3. Machines virtuelles

dalton32 est une VM 32bits fournie par la DSI avec les comptes/homes habituels des daltons.

2. Connexion aux noeuds

Il n'y a pas de vrai système de réservation des nœuds (voir plus bas), on peut donc faire ssh <machine> depuis le frontal pour aller sur un nœud de calcul.

Pour aller directement sur un nœud de calcul depuis l'extérieur, avec par exemple ssh betty, ajoutez au fichier .ssh/config créé ci-dessus:

Host betty peabody billy* henri* joe* william* ma leonide
User <login_dalton>
ProxyCommand ssh dalton tcpconnect %h %p

3. Stockage

Il y a trois stockages différents sur les daltons. Dans l'ordre, de moins en moins fiable, et de plus en plus rapide:

  • `/home` (et `/home/runtime` pour les données communes à tout le monde)
    • Partagé entre tous les daltons (NFS)
    • 600Go en tout, souvent plein (pensez à y faire du ménage régulièrement)
    • Fiable (RAID dans un NAS Inria, avec réplication distante chaque nuit)
    • Permet de récupérer les anciennes versions des fichiers
      • Quelque soit l'endroit où vous êtes, il y a un sous-répertoire virtuel caché `.snapshot` contenant la version des 5 heures et 2 jours précédents.
    • Pas très rapide (serveur NFS "loin"), notamment quand on n'a pas manipulé ses fichiers récemment (cache froid)
    • Monté aussi sur sync et sync2, dans /runtime/home (en autofs, donc il faut faire cd sans complétion pour y accéder).
  • `/mnt/dalton`
    • Partagé entre les daltons (NFS)
    • 300Go en tout
    • Peu fiable (stocké dans un RAID 1 sur ma qui est hors garantie)
    • Plus rapide que /home car serveur NFS sur ma et disques SSD
    • Tout le monde peut s'y créer un répertoire à lui
  • `/mnt/scratch`
    • Non-partagé entre machines, système de fichiers local à chaque machine
    • Non-fiable (RAID0 sur certaines machines, plus ou moins vieilles, pas toutes sous garantie)
    • Très rapide car stocké en local
    • Tout le monde peut s'y créer un répertoire à lui

Exemples:

  • La plupart de vos données peuvent rester dans /home
  • Si vous compilez un gros truc qui tourne sur une seule machine, ça compilera beaucoup plus vite de /mnt/scratch
  • Si vous compilez un gros truc qui doit être disponible sur plusieurs machines, /mnt/dalton est un bon compromis
  • Si vous installez un logiciel, il devrait sûrement aller dans /soft/amd64 avec les autres

A noter que le volume NFS du NAS Inria est monté sur sync et sync2 dans /runtime. Il n'y a pas de completion (montage autofs ghost). Il faut donc aller explicitement dans un sous-répertoire de /runtime pour qu'il apparaisse. Par exemple, aller /runtime/home/<login> pour votre home.

4. Node reservation

There is no reservation system per se (we don't prevent people from logging it) but a system to inform other users. By default, when one connects, the list of connected people shows up:

### Warning: host is used by: wacren ###

If somebody reserved the machine, the message turns into:

#######################################
### This node is currently reserved ###
#### user: rnamyst
#### begin: 2010-07-20 10:01:25+02:00
#### end: 2010-07-20 10:16:25+02:00
### Please do not use this machine  ###
#######################################

To reserve a node:

$ reserve-node.sh
Reserving until 2010-07-20 10:16:25+02:00

This displays a big warning on all opened terminals and in all new ssh sessions that would be opened during the reservation.

By default the reservation stops 15m later. One can specify another duration as an argument:

$ reserve-node.sh 2h
$ reserve-node.sh 35m

The reservation duration is limited to 2h during the day, 8h in the evening (after 20:00), 4h early in the morning (before 4:00) and 24h during the week-end. However, a reservation can be renewed by restarting the reservation script to update the expiration date. Lastly, one can cancel with:

$ unreserve-node.sh

To make sure not to be disturbed, and notably for long reservations or deadline periods, send a small mail to [mailto:dalton-users@inria.fr](dalton-users).

If a buildbot is currently running, one can disable it by logging in as benchmarks user and starting buildslave stop from ~benchmarks/buildbot/slaves/bidule

5. Remote administration via IPMI

All datons can be administrated remotely thanks to IPMI. For computation systems, that's only from luckyluke.

5.1. How to switch my machine on ? (Introduction)

If a machine doesn't answer to ssh, it might be off to save baby seals. To check this out, use

luckyluke $ ipmi status william0
Chassis power is off

If it's off, to switch it on you just need to run

luckyluke $ ipmi on william0
Chassis Power Control: Up/On

And wait for a few minutes so it can start.

5.2. Why are machines switched off ?

To save baby seals, machines stop automatically when they are not used for some time. To know if a node is being used, we check whether

  • somebody logged in recently
  • it was switched on recently (and thus somebody will surely use it soon)
  • a SCREEN session is opened
  • the machine is reserved
  • buildbot is running some tests
  • a file starting with /tmp/autoshutdown-disabled exists (to prevent manually the machine shutdown)

If all these conditions are false, the machine stops. This test is done every hour.

The recently word depends on the time. On the week-end it is since 4 hours. During the week it is since 12 hours.

5.3. Reboot, shutdown, reboot, ...

The ipmi script is an alias over a horrible command line which allows to control all nodes (except ma).

To see the available parameters, run the script without parameters.

5.4. Status

To know if jolly is on

$ ipmi status jolly
Chassis Power is on

5.5. Start

To switch averell0 on

$ ipmi on averell0

5.6. Proper shutdown

To shut a machine down properly (without having to connect and start sudo halt)

$ ipmi off averell1

The shutdown is software (just like sudo halt), so it can take time, or even fait. Thus, wait a bit to know whether it worked

$ ping averell1
...
<wait for not pinging any more>
...
$ ipmi status averell1
Chassis power is off

5.7. Forced shutdown reboot

If a machine is hung and one can't do sudo reboot, one can force a reboot. But always prefer sudo reboot whenever possible.

$ ipmi reset william0

What's more, if sudo halt is impossible, and if proper shutdown doesn't work, one can force a shutdwon

$ ipmi forceoff averell1
Chassis Power Control: Down/Off
<attendre>
$ ipmi status averell1
Chassis power is off

Before running several commands in a row, check that the previous one has been taken into account. For instance a forceoff will only have been completely when the status is really switched to off. In the meanwhile it might stay on or ipmi might not answer for a few seconds.

5.8. Misc

To see the status of the the jack1 sensors, even if off

$ ipmi sensors jack1
...
Temp             | 31 degrees C      | ok
Temp             | disabled          | ns
Ambient Temp     | 20 degrees C      | ok
Planar Temp      | 35 degrees C      | ok
...

To check the hardware logs

$ ipmi sel william0
 1 | 05/15/2012 | 16:42:28 | Event Logging Disabled #0x72 | Log area reset/cleared | Asserted
 2 | 05/25/2012 | 13:35:10 | Power Supply #0x63 | Power Supply AC lost | Asserted
 3 | 05/25/2012 | 13:35:11 | Power Supply #0x74 | Redundancy Lost
 4 | 05/31/2012 | 10:29:08 | Physical Security #0x73 | General Chassis intrusion | Asserted
 5 | 05/31/2012 | 10:29:14 | Physical Security #0x73 | General Chassis intrusion | Deasserted

5.9. Login over remote serial console

To access the serial console over IPMI:

$ ipmi sol jolly
Info: SOL payload already de-activated
[SOL Session operational.  Use [? for help]

Type enter, and a login prompt should appear

[SOL Session operational.  Use [? for help]
Debian GNU/Linux lenny/sid jolly ttyS1
jolly login: bgoglin
Password: 
Linux jolly 2.6.26-1-amd64 #1 SMP Thu Aug 28 11:13:42 UTC 2008 x86_64
bgoglin@jolly:~$ 

One can then log in and do usual stuff, in particular reboot with sudo reboot. One can also use this to see the kernel logs (and thus save them remotely).

To quit it, type <enter> then '[' then '.'

jolly login:   
Debian GNU/Linux lenny/sid jolly ttyS1
jolly login: [. [terminated ipmitool]
$

This technique is really useful if the kernel is failing because it allows to see the console event if the network driver or board don't work!

6. Archives

6.1. Anciens noeuds

6.1.1. Disparues en octobre/novembre 2023

  • jack0, jack1 :
    • Dual-processeur Intel Xeon Hexa-core (2*6 = 12 cœurs, 24 threads) Westmere Gulftown X5650 2.66GHz (x86_64)
    • 2*12Go RAM NUMA
    • InfiniBand ConnectX-2 QDR
    • Myri-10G

6.1.2. Disparue en mars 2023

  • alaric :
    • Dual-processeur Intel Xeon Octo-core Hyperthreadé (2\*8 = 16 cœurs, 32 threads) Sandy Bridge E5-2650 2GHz (x86_64)
    • 2\*16Go RAM NUMA
    • 2\* ATI Radeon 7970

6.1.3. Disparues en 2022

  • conan :
    • Dual-processeur Intel Xeon Octo-core Hyperthreadé (2\*8 = 16 cœurs, 32 threads) Sandy Bridge E5-2650 2GHz (x86_64)
    • 2\*32Go RAM NUMA
    • 3\* NVIDIA Tesla M2075
  • william0, william1 :
    • Dual-processeur Intel Xeon Octo-core Hyperthreadé (2\*8 = 16 cœurs, 32 threads) Sandy Bridge E5-2650 2GHz (x86_64)
    • 2\*16Go RAM NUMA
    • 1\* NVIDIA Tesla M2075
    • Infiniband ConnectX-3 FDR
  • averell0, averell1 :
    • Dual-processeur Intel Xeon Octo-core Hyperthreadé (2\*8 = 16 cœurs, 32 threads) Sandy Bridge E5-2650 2GHz (x86_64)
    • 2\*32Go RAM NUMA
    • 2\* NVIDIA Tesla M2075
    • Infiniband ConnectX-3 FDR
  • jolly :
    • Quadri-processeur AMD Opteron Hexadeca-coeurs (4\*16 = 64 cœurs) Interlagos Bulldozer 6272 2.1GHz (x86_64)
    • 8\*16Go RAM NUMA

6.1.4. Disparue à l'automne 2018

  • bertha :
    • Quadri-processeur Intel Xeon Hexa-core (4x6 = 24 coeurs) Dunnington X7460 2.67GHz (x86_64)
    • 48Go RAM
    • 3 autres noeuds interconnectés par bus mémoire propriétaire IBM, en panne depuis 3 ans avant

6.1.5. Disparues à l'été 2018

  • attila :
    • Dual-processeur Intel Xeon Hexa-core Hyperthreadé (2x6 = 12 coeurs, 24 threads) Westmere Gulftown X5650 2.67GHz (x86_64)
    • 2*24Go RAM NUMA
    • 3* NVIDIA Tesla C2050
  • hannibal :
    • Dual-processeur Intel Xeon Quadri-core Hyperthreadé (2x4 = 8 coeurs, 16 threads) Nehalem Gainestown X5550 2.67GHz (x86_64)
    • 2*24Go RAM NUMA
    • 3* NVIDIA Quadro FX5800

6.1.6. Disparues en janvier 2016

  • joe0, joe1
    • Mono-processeur Intel Xeon quad-core (1x4 = 4 coeurs) Harpertown X5460 3.16GHz (x86_64)
    • 4Go de RAM
    • Myri-10G
    • ConnectX InfiniBand DDR
  • grat :
    • Dual-processeur Intel Xeon Quad-core (2x4 = 8 coeurs) Clovertown E5345 2.33GHz (x86_64)
    • 4Go de RAM
    • Myri-10G + Myri-2G

6.1.7. Disparues en juillet 2012

  • emmett :
    • Dual-processeur Intel Xeon Quad-core (2x4 = 8 coeurs) Clovertown E5345 2.33GHz (x86_64)
    • 16Go de RAM
    • Myri-10G + Myri-2G
  • bill, bob :
    • Dual-processeur Intel Xeon Quad-core (2x4 = 8 coeurs) Clovertown E5345 2.33GHz (x86_64)
    • 4Go de RAM
    • 2* Myri-10G
  • kwak :
    • Quadri-processeur AMD Opteron Quad-Core (4x4 = 16 coeurs) Barcelona 8347HE 1.9GHz (x86_64)
    • 4*8Go RAM NUMA
  • ma :
    • Ancienne Frontale, reconverti en noeud de calcul 32bits (le seul)
    • Mono-processeur Intel Xeon Mono-core hyperthreadé (1 coeur, 2 threads) 3.00GHz (x86)
    • 1Go RAM

6.1.8. Disparues en mai 2008 (on a profité de l'incendie des algécos pour les sortir)

  • sweetie, rantanplan :
    • Dual-processeur Dual-core (4 coeurs) AMD Opteron 265 1.8GHz (x86_64)
    • 2*512Mo RAM NUMA
    • Myri-10G
    • QsNet2
  • billy, calamity :
    • Dual-processeur Mono-core (2 coeurs) Intel Itanium Madison? (ia64)
    • 1Go? RAM.
  • joe, jack, william, averell :
    • Dual-processeur Mono-core (2 coeurs) Intel Xeon (x86)
    • 1Go? RAM
    • Myri-2G sur william et averell

Author: GitLab Runner

Created: 2024-02-09 Fri 17:35

Validate