Laboratoire d'Informatique Médicale et d'Ingénierie des Connaissances en e-Santé

UMRS_1142

FR EN
Logo INSERM
Logo UPMC Logo université Paris 13

Evénements

Image décorative

Exploitation de "big data" pour l'extraction de termes dans les textes

Pascal Vaillant

Le 12/09/2016 de 10:00 à 12:00

Description :

Nous présentons ici un système d'extraction de termes dans les textes
thématiques de biologie et de santé: bio-Yodie, que nous avons contribué
à adapter pour le français lors d'un séjour à l'université de Sheffield
(Royaume-Uni). Bio-Yodie est basé sur la plate-forme GATE (General
Architecture for Text Engineering). Outre les méthodes traditionnelles
d'extraction de termes, fondées sur la reconnaissance lexicale, l'analyse
syntaxique, et les mesures d'information, il fait usage de données
présentes dans de grandes sources de données (notamment UMLS), qui sont
automatiquement pré-traitées pour construire des ressources de référence
actualisées. En outre, il offre une possibilité de désambiguïsation
hiérarchisée (en classant les candidats termes dans l'ordre de leur
probabilité), fondée sur des données massives organisées sous forme de
graphes (comme les fréquences de co-occurrences de deux termes dans des
bases de données de résumés d'articles scientifiques sur des thèmes de
biologie ou de santé: "MEDLINE Co-occurrences table").

Contact

Adresse :

Téléphone :

Site web :

Adresse mail :

Traitement en cours ...