Recherche

Activité actuelle

Post Doctorat Coregrid : Resource Discovery in Large Collaborative Networks

Le but de ce travail est de fournir un système de découverte et de gestion de ressources efficace pour les grandes grilles (plusieurs milliers de sites) en utilisant des algorithmes Peer to Peer.

Ce travail est réalisé en deux parties. Les neufs premiers mois se sont déroulés au laboratoire ISTI-CNR à Pise. La seconde partie se déroule en ce moment à l'Université de Chypre dans l'équipe HPCLab.

Ce travail est financé par Ercim/Coregrid et s'incrit dans la section : Knowledge and Data Management Activity (WP2)

Dans ce cadre, nous travaillons en ce moment sur le concept de Distributed Resource Handler.

Les approches précédentes utilisaient principalement des structures hiérarchique (dans le projet Globus par exemple). Certains projets préfèrent une approche Peer to Peer relativement simples (par exemple SWORD), non seulement pour les gains en performance, mais aussi pour les capacité d'auto-organisation de tels systèmes.
Nous avons voulu évaluer les techniques actuelles, relativement naïves, ainsi que tenter de les améliorer.

Nous avons proposé une méthode générique d'amélioration des systèmes Peer to Peer de gestion de ressources pour tenir compte de la dynamicité. Plus précisément, nous nous sommes rapportés au problème de requêtes à intervalle dans les système Peer to Peer; type de requêtes auxquels les systèmes classiques ne sont pas capables de répondre. Qui plus est, contrairement aux études classique, nous nous sommes intéressés au cas où les données sont dynamiques. Par exemple, dans une grille le nombre de processeurs libres dans chaque cluster évolue avec le temps.

Nous avons évalué notre approche par rapport à une approche utilisant un système Peer to Peer classique capable de traiter des requêtes portant sur des intervalles (basé sur Chord), par modélisation ainsi que par simulation. Nous avons ainsi montré que les approches naïves ne tenant pas compte de la dynamicité pouvaient être largement améliorées (en terme de nombre de messages).

De façon à fournir une évaluation réaliste des performances de ces systèmes, afin de les comparer, nous avons de plus étudiés des traces d'utilisation de la grille européenne Egee sur 9 mois. Nous avons pu en extraire un certain nombre d'informations, dont celles nécessaires à générer une charge réaliste pour un système de gestion de ressources. Nous avons ainsi pu voir que la charge sur Egee est une somme de charges simples de différents projets, ou que les soumissions de requêtes sont distribués de manière très peu uniforme en fonction de l'heure de la journée.

Thèse

En 2001, les systèmes Peer to Peer étaient encore peu compris. Je me suis intéressé lors de ma thèse à compléter les outils nécessaires à cette compréhension.

Les systèmes Peer to Peer demandaient des moyens d'évaluation nouveaux, principalement à cause de la taille des systèmes considérés. En effet, les outils permettant d'étudier des systèmes de plusieurs centaines de milliers d'éléments dynamiques étaient rares.

J'ai abordé la caractérisation de l'environnement de ces systèmes car les grandes méthodes d'évaluation de performances (simulation, émulation et modélisation) reposent sur la connaissance de l'environnement pour produire des résultats.

Je me suis donc penché sur sa modélisation à partir de traces des différentes caractéristiques composant cet environnement. J'ai ainsi modélisé les caractéristiques liées aux utilisateurs, aux fichiers, et aux machines. Ces modélisations étant fortement dépendantes des données actuelles, mon travail s'est surtout porté sur la méthodologie d'extraction de modèles à partir de traces.

Une partie du travail a consisté à assembler des traces provenant de différents systèmes (traces de proxy, modification de clients Peer to Peer,...) et à obtenir à partir de ces traces un modèle de caractéristiques cohérent.

Puis, j'ai implémenté la génération des différentes caractéristiques de l'environnement des systèmes Peer to Peer dans la bibliothèque Rig. Je me suis plus particulièrement intéressé à celles liées au partage de fichiers. L'accent a été mis sur l'efficacité de Rig et la précision des environnements générés. L'efficacité est nécessaire pour pouvoir l'utiliser dans des émulations à grande échelle, la précision est nécessaire car, plus le réalisme des distributions est grand, plus il est possible de comprendre le comportement des systèmes Peer to Peer réels.

Mes contributions s'articulent autour de trois points : tout d'abord, la nécessité d'étudier les systèmes Peer to Peer à grande échelle, une méthodologie d'extraction de l'environnement de ces systèmes, ainsi que le logiciel Rig de génération de cet environnement.