Outils pour utilisateurs

Outils du site


aoc:seminaire-donnees-lille-21042015

Séminaire Données de la recherche en SHS, Lille (MESH), 21 avril 2015 : les outils technologiques

Suite du séminaire : rédaction d'un livre blanc avec recommandations pour publier des données en libre accès.

Enquête en cours à Lille 3 sur la production de données et sur les besoins de services et d'infrastructure technique. Les résultats serviront de base pour mettre en oeuvre projet Lille 3.

Peter Murray (Open Knowledge Foundation) : Scholarly Infrastructure : open or closed ?

Appliquer les principes de l'open source au monde académique ⇒ les chercheurs doivent construire leur système de recherche d'information, et en garder le contrôle. Modèle à suivre : wikipedia, open street map.

The ContentMine : (contentmine.org) utilise des machines pour libérer des faits issues de la littérature scientifique. Les faits ne sont pas soumis au copyright : tout ce qui peut être représenté par un triplet RDF est un fait. Equipe composée de chercheurs retraités et d'étudiants.
Le logiciel de ContentMine indexe la littérature scientifique par du TDM, et dépose les “faits” sur wikidata. Souhait de l'appliquer aux thèses (pilote pour les thèses de Cambridge, projet de l'utiliser pour HAL).
Fonctionnement de l'infrastructure de ContentMine : crawl the web, quickSCRAPE mes âges web, les normaliser selon les critères du web sémantique, fouiller les pages, cataloguer les résultats dans un index recherchable. Pour fouilles les pages, ne pas utiliser les API et les outils des éditeurs.
Crawling the web : dans les entrepôts, dans les articles en OA…
La seule limite à cette action de redistribution du contenu est la limite légale, car il n'est pas possible de redistribuer le texte intégral des publications sous licence.

Technologies d'extraction reposent sur “bag of words”, “term-frequency inverse-document-frequency”, expressions régulières, templates, natural language processing, image processing and mining, lookup.Dans certaines disciplines (chimie, par exemple), il est possible de faire du marquage sémantique du contenu d'une publication.

Limites des méthodes utilisées : impossible à utiliser avec de l'écriture manuscrite, difficile à utiliser pour les SHS car peu de formalisation de la manière de présenter les résultats de recherche. Gros problème avec les PDF : impossible de fouiller les PDF ⇒ préférer les versions XML, voire Word et LateX. Besoin de spécialistes pour maths et chimie.

Charles Huot (TEMIS) : data mining & text mining

TEMIS : entreprise leader mondial en TDM

Data driven science : on formule l'hypothèse à partir de données qui existent.

Définition du “contenu” : c'est plus que du texte (sections, tableaux, chiffres, cartes, graphiques, reconnaissance automatique de texte

20% des données aujourd'hui sont des données structurées dans des BDD, des entrepôts. Le reste : données non structurées (texte, mails? articles, rapports, posts de blog…). Il faut donc structurer ce qui ne l'est pas (avec métadonnées, web sémantique…). Taux de croissance des big data textuelles : + 50% par an.

On part de données textuelles libres, on les structure et on les enrichit (normalisation, analyse morphosyntaxique, extraction d'information, catégorisation), puis on exploite le contenu.
Pour l'analyse morphosytaxique, il faut adapter les outils aux métiers, aux disciplines. La qualité du texte que l'on met en entrée influe sur le qualité du texte structuré en sortie.

DANS

Services proposés par DANS : - Easy : dépôt de jeux de données par les chercheurs, pour archivage pérenne
- Dataverse : gestion des données et archivage intermédiaire, pendant le projet de recherche
- portail NARCI
- moissonnage
- identifiants pérennes

Le chercheur doit répondre à des prérecquis pour déposer : métadonnées minimales (dublin core), documentation du contexte de recherche (sujet, méthodologie…), accès. 4 types d'accès proposés (OA CC-0, OA pour un groupe défini, OA pour utilisateurs authentifiés dans DANS, accès restreint sur demande auprès du chercheur, pas d'accès. Embargo en option. Licence et user agreement). Dans les métadonnées, possibilité de faire un lien vers une publi extérieure, vers un site web…

Participation à RDNL : réseau NL données de la recherche. Création d'une infrastructure fédérée pour les données de la recherche. Formation des chercheurs aux DMP, soutien… DANS et DATAVERSE ne gèrent pas le versioning : pb, mais réflexion en cours dans le cadre de RDNL. dans RDNL : le front office est dans les BU, le back office est assuré par RDNL.

Importance d'être un “trusted repository” : data seal of approval. Nécessite d'avoir des processus clairs et quasi industrialisés, et de demander aux chercheurs de répondre à un certain nombre de pré-recquis.

NB : DMP de DANS sont en ligne sur leur site.

Forte hausse de la réutilisation des données (mesurée par le nb de téléchargement) et du dépôt de données depuis 2013. la majorité des données viennent des SHS.

La majorité des jeux de données sont de petite taille (quelques MB) : on est vraiment dans les long tail data.

DANS : assure formation des bibliothécaires des BU qui veulent travailler dans la gestion des données. les bibliothécaires assurent le front office en direct avec les chercheurs.

M. Roche (Université de Montpellier) : fouiller les données textuelles issues de la recherche

Processus de fouille de texte : acquisition d'un corpus brut ⇒ corpus nettoyé ⇒ corpus étiqueté (étiquettage grammatical) ⇒ extraction des termes ⇒ détection des traces de concepts ⇒ extraction d'information

Projet de fouille de texte sur corpus d'abstracts des publications scientifiques du CIRAD avec objectif de mettre à disposition les publications scientifiques en mettant en relief la sémantique des contenus : offrir des fonctions de recherche et de visualisation. Extraction automatique des termes spécialisés liés au domaine médical, afin d'enrichir les ontologies en français. Développement de l'outil BioTex qui contient un étiqueteur grammatical intégré et un thésaurus biomédical intégré (MeSH). BioTex extrait les mots clés. Ensuite un documentaliste a validé les mots-clés et leur pertinence par rapport au contenu de la publication. Enfin, visualisation spatiale des mots-clés (quels mots clés pour quels pays étudiés).

aoc/seminaire-donnees-lille-21042015.txt · Dernière modification: 2016/02/17 17:20 par Adeline Rege