Intervenant : Michael Decker Présentation Powerpoint
LSDMA = Large-scale data management and analysis
Division 2 : Informatique, économie et SHS.
Définition du 4e pilier (= 4e paradigme) : exploration des données (1e expérimentation, 2e théorie, 3e simulation).
Que faire avec les données additionnelles ? Hypothèses sont redirigées. Beaucoup de données générées dans de nombreux domaines, par ex pour accompagner la transition énergétique en cours en Allemagne, mais aussi en médecine et en économie. Des outils sont développés dans ces domaines et les SHS les attendent.
Intervenant : Achim Streit / Présentation Powerpoint
Description de la structure du LSDMA
Data Life Cycle Labs
Développement de services et d'infrastructures spécifique à chaque communauté scientifique. Chaque labo a un domaine : énergie, santé, sciences de la vie, etc.
Data Services Integration Team
Développement de services et d'infrastructures génériques multi-disciplinaires. Développe des composants qui intéressent plusieurs communautés scientifiques.
Association Helmholtz et la Helmholtz Data Federation
Association de plusieurs centres de recherches allemands. Distribue des financements provenant du ministère allemand de la recherche et du programme H2020.
Elle développe une infrastructure fédérée des données de la recherche coordonnée par le KIT (HDF / Helmholtz Data Federation) –> initiative de promotion de l'excellence de la recherche allemande par la création de services et d'infrastructures destinés au RDM et à la fédération des centres de données existants. Liens avec initiatives européennes : European Science Cloud. Le futur HDF est la brique nationale de la construction du cloud européen, la contribution allemande au projet.
3 éléments : software (RDM), support utilisateur et hardware pour stockage et analyse
Intervenant : Andrew Treloar / Présentation Powerpoint
NCRIS = National collaborative research infrastructure strategy
Finance des projets d'infrastructures de recherche et de E-Research, notamment le service des données Australian National Data Service (ANDS).
50 personnes, plus de 300 projets réalisés, financé depuis 2009 jusqu'en 2017 (mais extension probable de 10 ans)
Collections de données :
+ Agrégation des données qui font sens pour un but particulier
- Les données sont plus difficiles à trouver au niveau individuel
La plus grande partie des données produites par les chercheurs sont invisibles. ANDS transforme ces données non structurées en collections structurées découvrables et donc réutilisables.
ANDS travaille avec des institutions productrices de données, pas directement avec les chercheurs.
ANDS propose un ensemble de services destinés à :
100 000 collections en ligne dont seulement 20% en open access. Les 80% restant sont en accès plus ou moins restreint (connexion au site ou envoi du lien par mail). Le portail Research Data Australia est un moteur de recherche permettant de naviguer parmi ces collections. Son code est en open source.
Le service Research Vocabularies Australia est un site multidisciplinaire regroupant tous les vocabulaires contrôlés utilisés par les chercheurs australiens. Ceux-ci peuvent rechercher, publier, voire créer leur vocabulaire en ligne sur le site.
C'est le volet dédié, au départ, aux data librarians. L'espace formation du ANDS se composait de webinars, des “23 things” et de workshops. Maintenant, l'espace se tourne vers un public de techniciens de la donnée (Data Technologists) avec des Monthly Talks, des “Hub and Spoke Models”, etc.
ANDS est un des membres fondateurs de la Research Data Alliance (RDA). L'Australie est un grand pays avec une petite population et elle ne peut pas tout faire toute seule. Elle s'implique donc fortement dans des opérations internationales.
Intervenant : Bas Cordewener / Présentation Powerpoint
Rapport :
Funding research data management and related infrastructures - May 2016
5 partenaires (bientôt 6) forment le Knowledge Exchange (KE) :
Le KE est une collaboration entre bientôt 6 organisations nationales pour soutenir le développement d'infrastructures TIC pour l'éducation supérieure et la recherche. le KE a été fondé en 2005 pour faciliter l'échange structurel de connaissances, d'expériences, de stratégies entre les partenaires.
Science Europe est une association de plusieurs organismes financeurs et d'organisations de recherche issues de 27 pays. Elle a été créée en 2011 pour faire la promotion de leurs intérêts communs et pour encourager la collaboration.
Pourquoi explorer le financement du Research Data Management (RDM) et des infrastructures de gestion de données (RDI) ? Un bon RDM demande de bonnes RDI pour assurer la préservation et la réutilisation des données.
Les acteurs fondateurs ne font pas partie d'une structure coordonnée. Toutes les parties prenantes sont bien conscientes que la science et la recherche dépendent de plus en plus du RDI pour soutenir un RDM durable. Conséquences d'un financement non coordonné ? Les fournisseurs de RDI ont des perspectives différentes sur leurs rôles –> approche et visions différentes –> hétérogénéité Qui plus est, la plupart des financements des RDM sont indirects et émiettés (voir schémas dans la présentation)
Q/A
Les financement européens des infrastructures RDI sont basés sur les projets, or ce n'est pas aux chercheurs de financer les infrastructures. Idée de “Data Commons” évoquée lors du RDA à Denver (8e plénière) par Philip Bourne (NIH). Idée de “Cloud Coins” dédiés au financement des infrastructures par l'UE (EOSC).
Intervenant : Wilco Hazeleger, directeur de Netherlands eScience Center / Présentation Powerpoint
Vidéo de la NASA : A Year in the Life of Earth's CO2
Exemple d'usage des Big Data. Il y a de nouvelles sources de données, non traditionnelles comme les réseaux sociaux, les données téléphoniques, etc.
https://plan-europe.eu/PLAN-E : Platform of National eScience Centers in Europe ePlan : Platform of eScience/Data Research Centers in The Netherlands
La Via Appia à Rome a été inspectée et scannée en 3d sur 2 km par un archéologue néerlandais grâce à un véhicule de type Google Car. Ce système peut être utilisé par d'autres chercheurs.
Scan en 3d d'une ville par des architectes. Les modèles 3d de villes sont intéressants pour faire des simulations de flux. 64 000 fichiers d'un poids total de 10 tb. Le chargement des fichiers dans PostGIS était chronophage (2 semaines), mais a été considérablement réduit.
Le Spatial Data Management System est un ensemble de nouvelles méthodes pour accélérer l'accès et le traitement informatique des données.
Université d'Amsterdam. Textes de pièces de théâtre datant de la Renaissance jusqu'aux Lumières numérisés, puis fouille de texte pour détecter automatiquement les émotions au fil du temps. Quantification des émotions au théâtre.
Là aussi, fouille de contenu, évolution temporelle des concepts à partir du texte de 600 000 journaux numérisés (de 1955 à 1981).
Nouvelle technique de reconnaissance d'images : data-driven morphological salient regions detection.
Principe : combiner des données protéomiques structurées et non structurées grâce à Open Virtuoso et aux standards du web sémantique du W3C pour obtenir des données FAIR et liées (Linked Data).
FAIR Dataport for Life Science
EScience est un pont entre les chercheurs de multiples disciplines, les infrastructures et les informaticiens.
Intervenant : Steve Brewer / Présentation Powerpoint
Intervenant : Otto Rienhoff / Présentation Powerpoint
Intervenant : Christos Kanellopoulos / Présentation Powerpoint
Intervenant : Reinhard Heil / Présentation Powerpoint
Intervenant : Matthew Dovey / Présentation Powerpoint