Table des matières

The Challenge of Big Data in Science (5th International LSDMA Symposium)

Programme du symposium

timetable.pdf

1. Welcome, Introduction

Présentation de la Division 2 du KIT

Intervenant : Michael Decker Présentation Powerpoint

LSDMA = Large-scale data management and analysis

Division 2 : Informatique, économie et SHS.

Définition du 4e pilier (= 4e paradigme) : exploration des données (1e expérimentation, 2e théorie, 3e simulation).

Que faire avec les données additionnelles ? Hypothèses sont redirigées. Beaucoup de données générées dans de nombreux domaines, par ex pour accompagner la transition énergétique en cours en Allemagne, mais aussi en médecine et en économie. Des outils sont développés dans ces domaines et les SHS les attendent.

Ouverture du symposium et présentation du LSDMA

Intervenant : Achim Streit / Présentation Powerpoint

Description de la structure du LSDMA

Data Life Cycle Labs

Développement de services et d'infrastructures spécifique à chaque communauté scientifique. Chaque labo a un domaine : énergie, santé, sciences de la vie, etc.

Data Services Integration Team

Développement de services et d'infrastructures génériques multi-disciplinaires. Développe des composants qui intéressent plusieurs communautés scientifiques.

Association Helmholtz et la Helmholtz Data Federation

Association de plusieurs centres de recherches allemands. Distribue des financements provenant du ministère allemand de la recherche et du programme H2020.

Elle développe une infrastructure fédérée des données de la recherche coordonnée par le KIT (HDF / Helmholtz Data Federation) –> initiative de promotion de l'excellence de la recherche allemande par la création de services et d'infrastructures destinés au RDM et à la fédération des centres de données existants. Liens avec initiatives européennes : European Science Cloud. Le futur HDF est la brique nationale de la construction du cloud européen, la contribution allemande au projet.

Update 25/10/2016

3 éléments : software (RDM), support utilisateur et hardware pour stockage et analyse

2. Moving data from research enabler to trusted research output

Intervenant : Andrew Treloar / Présentation Powerpoint

NCRIS = National collaborative research infrastructure strategy

Finance des projets d'infrastructures de recherche et de E-Research, notamment le service des données Australian National Data Service (ANDS).

ANDS

50 personnes, plus de 300 projets réalisés, financé depuis 2009 jusqu'en 2017 (mais extension probable de 10 ans)

Collections de données :

+ Agrégation des données qui font sens pour un but particulier

- Les données sont plus difficiles à trouver au niveau individuel

La plus grande partie des données produites par les chercheurs sont invisibles. ANDS transforme ces données non structurées en collections structurées découvrables et donc réutilisables.

Trusted partnerships

ANDS travaille avec des institutions productrices de données, pas directement avec les chercheurs.

Les services proposés par ANDS

ANDS propose un ensemble de services destinés à :

100 000 collections en ligne dont seulement 20% en open access. Les 80% restant sont en accès plus ou moins restreint (connexion au site ou envoi du lien par mail). Le portail Research Data Australia est un moteur de recherche permettant de naviguer parmi ces collections. Son code est en open source.

Le service Research Vocabularies Australia est un site multidisciplinaire regroupant tous les vocabulaires contrôlés utilisés par les chercheurs australiens. Ceux-ci peuvent rechercher, publier, voire créer leur vocabulaire en ligne sur le site.

Enhanced capability

C'est le volet dédié, au départ, aux data librarians. L'espace formation du ANDS se composait de webinars, des “23 things” et de workshops. Maintenant, l'espace se tourne vers un public de techniciens de la donnée (Data Technologists) avec des Monthly Talks, des “Hub and Spoke Models”, etc.

Engagement international

ANDS est un des membres fondateurs de la Research Data Alliance (RDA). L'Australie est un grand pays avec une petite population et elle ne peut pas tout faire toute seule. Elle s'implique donc fortement dans des opérations internationales.

Intervenant : Bas Cordewener / Présentation Powerpoint

Knowledge Exchange

Rapport :

Funding research data management and related infrastructures - May 2016

5 partenaires (bientôt 6) forment le Knowledge Exchange (KE) :

Le KE est une collaboration entre bientôt 6 organisations nationales pour soutenir le développement d'infrastructures TIC pour l'éducation supérieure et la recherche. le KE a été fondé en 2005 pour faciliter l'échange structurel de connaissances, d'expériences, de stratégies entre les partenaires.

Science Europe

Science Europe est une association de plusieurs organismes financeurs et d'organisations de recherche issues de 27 pays. Elle a été créée en 2011 pour faire la promotion de leurs intérêts communs et pour encourager la collaboration.

RDM et RDI

Pourquoi explorer le financement du Research Data Management (RDM) et des infrastructures de gestion de données (RDI) ? Un bon RDM demande de bonnes RDI pour assurer la préservation et la réutilisation des données.

Les acteurs fondateurs ne font pas partie d'une structure coordonnée. Toutes les parties prenantes sont bien conscientes que la science et la recherche dépendent de plus en plus du RDI pour soutenir un RDM durable. Conséquences d'un financement non coordonné ? Les fournisseurs de RDI ont des perspectives différentes sur leurs rôles –> approche et visions différentes –> hétérogénéité Qui plus est, la plupart des financements des RDM sont indirects et émiettés (voir schémas dans la présentation)

Q/A

Les financement européens des infrastructures RDI sont basés sur les projets, or ce n'est pas aux chercheurs de financer les infrastructures. Idée de “Data Commons” évoquée lors du RDA à Denver (8e plénière) par Philip Bourne (NIH). Idée de “Cloud Coins” dédiés au financement des infrastructures par l'UE (EOSC).

4. Getting Science out of eScience

Intervenant : Wilco Hazeleger, directeur de Netherlands eScience Center / Présentation Powerpoint

Vidéo de la NASA : A Year in the Life of Earth's CO2

Exemple d'usage des Big Data. Il y a de nouvelles sources de données, non traditionnelles comme les réseaux sociaux, les données téléphoniques, etc.

eScience

Netherlands eScience Center

eStep

The eScience Technology Platform

ePlan et Plan-E

https://plan-europe.eu/PLAN-E : Platform of National eScience Centers in Europe ePlan : Platform of eScience/Data Research Centers in The Netherlands

Exemples de projet eScience

4D GIS Archeology

La Via Appia à Rome a été inspectée et scannée en 3d sur 2 km par un archéologue néerlandais grâce à un véhicule de type Google Car. Ce système peut être utilisé par d'autres chercheurs.

Mapping the Via Appia in 3D

3D City

Scan en 3d d'une ville par des architectes. Les modèles 3d de villes sont intéressants pour faire des simulations de flux. 64 000 fichiers d'un poids total de 10 tb. Le chargement des fichiers dans PostGIS était chronophage (2 semaines), mais a été considérablement réduit.

Le Spatial Data Management System est un ensemble de nouvelles méthodes pour accélérer l'accès et le traitement informatique des données.

Embodied Emotions

Université d'Amsterdam. Textes de pièces de théâtre datant de la Renaissance jusqu'aux Lumières numérisés, puis fouille de texte pour détecter automatiquement les émotions au fil du temps. Quantification des émotions au théâtre.

Wordvectors (word2vec)

Là aussi, fouille de contenu, évolution temporelle des concepts à partir du texte de 600 000 journaux numérisés (de 1955 à 1981).

Cheaper EEG for Epilepsy

Prediction models based on EEG characteristics

Computer recognition

Nouvelle technique de reconnaissance d'images : data-driven morphological salient regions detection.

Salient Regions Detector

FAIR Dataport for Life Science

Principe : combiner des données protéomiques structurées et non structurées grâce à Open Virtuoso et aux standards du web sémantique du W3C pour obtenir des données FAIR et liées (Linked Data).

FAIR Dataport for Life Science

EScience est un pont entre les chercheurs de multiples disciplines, les infrastructures et les informaticiens.

5. The role of the EDISON Framework in building Data Science professionals

Intervenant : Steve Brewer / Présentation Powerpoint

6. The development of national road maps for digital research infrastructures

Intervenant : Otto Rienhoff / Présentation Powerpoint

7. User Community Driven Development in Trust and Identity

Intervenant : Christos Kanellopoulos / Présentation Powerpoint

8. Assessing Societal Aspects of Big Data - the Project ABIDA

Intervenant : Reinhard Heil / Présentation Powerpoint

9. Beyond the "under-desk datacentre": lessons from research data management in the UK

Intervenant : Matthew Dovey / Présentation Powerpoint