Des partenariats en amont de la phase d'exploitation
ITER a mis en place un ensemble de partenariats avec de grandes entreprises de technologie ainsi qu'avec la communauté scientifique au sens large afin de préparer le stockage, la distribution et l'analyse des vastes volumes de données qui seront générés par l'exploitation de la machine.
ITER est confronté à des défis de gestion des données comparables à ceux rencontrés par le CERN, les synchrotrons, les observatoires astronomiques et les autres grandes installations scientifiques. L'un de ces défis consistera à sauvegarder localement au moins une copie de l'ensemble des données générées lors des campagnes scientifiques. Pour être à même d'analyser les données des différentes phases expérimentales, les chercheurs auront besoin de comparer rapidement les résultats des dernières décharges de plasma avec ceux des décharges précédentes. Pour cela, il devront avoir la possibilité d'accéder très rapidement, et à tout moment, à l'ensemble des données scientifiques produites pendant la durée de vie du programme.
« Nous travaillons depuis 2020 avec IBM et son partenaire B4Restore pour valider des concepts de stockage des données à long terme et à haute performance , poursuit Peter Kroul. Nous avons accès à leurs plannings technologiques, ce qui nous permet de prévoir, par exemple, l'évolution des technologies de stockage et ainsi de mieux anticiper les systèmes et l'espace dont aura besoin le centre de calcul et de données scientifiques d'ITER. En tant que partenaire privilégié, nous avons aussi eu l'occasion de tester certains de leurs plus récents systèmes avant leur mise sur le marché. »
« Le fait de savoir où en seront IBM et les autres entreprises dans quelques années nous aide à prévoir comment nous pourrons stocker un volume croissant de données dans les limites de nos installations. Une discipline comme la gestion des capacités de données jouera un rôle clé dans l'exploitation quotidienne du centre de données. Nous devrons augmenter régulièrement notre capacité, éliminer les systèmes de stockage dépassés et les remplacer par les plus récentes technologies, et il faudra gérer tout cela sans pour autant perturber ou ralentir l'exploitation. »
Stockage hors site et distribution
Le centre de calcul et de données scientifiques d'ITER doit garantir une disponibilité des données de 99,99%, ce qui équivaut à moins de 1 heure d'interruption par an. Pour répondre à cette exigence, au moins une copie supplémentaire de l'ensemble des données sera sauvegardée dans un centre de distribution à extraction rapide situé à l'extérieur du site, afin que chaque État membre puisse accéder immédiatement aux données dont il a besoin. Cette infrastructure est en cours de construction dans un centre de données de Marseille et devrait être pleinement opérationnelle d'ici le milieu de l'année 2024. Le centre de distribution sera raccordé au site d'ITER par deux liaisons optiques géographiquement distinctes, l'un des jeux de câbles pouvant automatiquement prendre le relais de l'autre. Ce centre sera relié à l'infrastructure de réseaux de recherche de l'Union européenne par une autre paire de systèmes de câblage redondants.
« Nous organisons des réunions de coordination avec d'autres organisations relevant des Membres d'ITER car nous utilisons les mêmes réseaux de recherche, qui constituent l'épine dorsale de l'internet scientifique », souligne David Fernandez, le responsable de la section Système et opérations informatiques.
Le centre de distribution constituera une plaque tournante pour l'ensemble du trafic de données continental et intercontinental, mais également pour tous les fournisseurs de service du cloud, qui hébergeront certaines applications et pourront fournir de la puissance de calcul supplémentaire en fonction des besoins.
« Il y a un an, nous avons finalisé le premier test d'intégration des clusters de calcul de notre site avec Google Cloud et Microsoft Azure, ajoute Peter Kroul. Et l'essai a été concluant : nous sommes parvenus à intégrer notre installation directement dans ces opérateurs du cloud de manière à pouvoir transférer certaines tâches de calcul vers des services externes, et à le faire de manière transparente pour les scientifiques utilisateurs des données. Nous l'avons fait avec Google et avec Microsoft, avec d'excellents résultats. La vitesse était quasiment identique, et parfois même supérieure, à celle d'un service disponible localement, alors même que nous avions dû transférer la tâche vers Google ou Microsoft dans le cloud, faire tourner les ressources puis attendre le retour. Google nous a permis d'effectuer plusieurs calculs massifs réalisés par plus de 5000 processeurs situés dans le cloud, ce qui nous a économisé plusieurs mois de ressources et de travail sur site. »
Bien qu'il génère un coût supplémentaire, le cloud est pratique et simple à utiliser, en fonction des besoins, et il nous apporte une capacité additionnelle hybride pour les tâches de calcul réalisées localement. Si la charge de calcul est trop importante ou si les chercheurs n'ont pas le temps d'attendre que des ressources de calcul performantes soient disponibles localement, nous pouvons transférer la tâche vers le cloud.
Extraction rapide et analyses intensives
Un débit de données d'au moins 50 gigaoctets par seconde est prévu pour la phase de fonctionnement deutérium-tritium. Mais un débit encore plus élevé pourrait s'avérer nécessaire avec l'évolution des caméras et des capteurs, qui produiront des volumes de données beaucoup plus importants que ceux prévus lors des premières phases du programme. Le débit d'extraction des données devra être au moins aussi élevé que le débit de stockage.
« Une fois que nous serons raccordés à Marseille, nous pourrons commencer à mettre le système à l'épreuve , poursuit David Fernandez. Pour cela, nous réaliserons des tests visant à démontrer qu'il est possible de dupliquer des données vers le centre de données externe en respectant les contraintes de temps. Nous tenterons aussi de mettre à l'épreuve les systèmes transatlantiques lorsque nous disposerons d'une connexion à grande vitesse aux réseaux de recherche internationaux. Ces tests seront réalisés avec plusieurs partenaires. À ce jour, ces partenaires sont le réseau ESnet [Energy Sciences Network] et l'agence domestique des États-Unis, US ITER. »
En fonction des demandes des scientifiques, il pourra être nécessaire d'extraire des données de différentes sources. Pour permettre ce type d'opérations, nous devons déployer un logiciel dédié et structurer les données de manière appropriée, ce qui évitera, par exemple, qu'une demande donnée déclenche l'ouverture de milliers de fichiers différents. L'infrastructure doit être suffisamment performante pour permettre ces extractions multiples sans créer de goulets d'étranglement.
Enfin, ITER reste attentif à la manière dont l'intelligence artificielle (IA) peut être utilisée pour l'analyse de données. Aucun engagement n'a été pris à ce jour car l'IA est une discipline relativement récente et nous n'aurons besoin d'analyses intensives que dans quelques années. Cependant, le groupe responsable du centre de calcul et de données scientifiques d'ITER a déjà entamé des discussions avec de grandes entreprises de technologie afin de réfléchir à la manière dont les logiciels et matériels d'IA pourront être utilisés.
« Pour vous donner un exemple, des discussions sont en cours avec Google et NVIDIA afin de déterminer comment l'IA et l'apprentissage automatique pourraient nous aider à gérer et analyser les données , conclut Peter Kroul. Tout cela semble très prometteur. »