Description :
Nous présentons ici un système d'extraction de termes dans les textes
thématiques de biologie et de santé: bio-Yodie, que nous avons contribué
à adapter pour le français lors d'un séjour à l'université de Sheffield
(Royaume-Uni). Bio-Yodie est basé sur la plate-forme GATE (General
Architecture for Text Engineering). Outre les méthodes traditionnelles
d'extraction de termes, fondées sur la reconnaissance lexicale, l'analyse
syntaxique, et les mesures d'information, il fait usage de données
présentes dans de grandes sources de données (notamment UMLS), qui sont
automatiquement pré-traitées pour construire des ressources de référence
actualisées. En outre, il offre une possibilité de désambiguïsation
hiérarchisée (en classant les candidats termes dans l'ordre de leur
probabilité), fondée sur des données massives organisées sous forme de
graphes (comme les fréquences de co-occurrences de deux termes dans des
bases de données de résumés d'articles scientifiques sur des thèmes de
biologie ou de santé: "MEDLINE Co-occurrences table").