Laboratoire d'Informatique Médicale et d'Ingénierie des Connaissances en e-Santé

UMRS_1142

FR EN
Logo INSERM
Logo UPMC Logo université Paris 13

Evénements

Image décorative

Iris Ternois et Emeric Dynomant présenterons leur sujet de thèse

Le 17/12/2018 de 09:45 à 11:00

Description :

1.- Iris Ternois

Titre :Intégration du raisonnement médical et terminologique pour améliorer le codage automatique des diagnostics et actes contenus dans le dossier patient

Grâce à l’informatisation du système d’information clinique, de nombreuses données et documents textuels non structurés deviennent disponibles en volume important. Leur utilisation pour réaliser plus automatiquement la tâche de codage (d'actes et de diagnostics) peut être envisagée sous plusieurs angles :
- soit proposer de la médiation au codage en aidant le codeur à réaliser la transition entre l’expression en langue naturelle et l’expression du référentiel terminologique. Cela peut se faire en recourant à des ontologies qui permettent de conceptualiser un domaine et réalise la jonction entre la terminologie et la connaissance. Leur représentation formelle en logique de description permet de les utiliser pour inférer des raisonnements. Elles peuvent représenter le médiateur intermédiaire permettant de passer d’un terme usité par un clinicien vers un terme du référentiel terminologique et peuvent s’intégrer dans la chaine de codage automatique pour améliorer ses performances.
-soit de faire apprendre à un algorithme la tâche de codage en lui fournissant un certain nombre d’exemples. Ces approches de machine learning nécessitent néanmoins la constitution d’un ensemble d’apprentissage « propre » qu’il est parfois difficile à constituer et actuellement, ils sont encore largement améliorables en termes de performance, de champ de maladies, ou de précision du code proposé.

A ce jour, le codage automatique des actes et des diagnostics sont très peu performants en terme de précision. Ces systèmes proposent des codes très généraux (par exemple le titre du chapitre de la terminologie, « Lésions traumatiques, empoisonnements et certaines autres conséquences de causes externes » proposé pour une fracture du tibia), ou une liste longue de codes parmi laquelle l’opérateur doit choisir le bon, s’il y figure. Ainsi, leur utilité est discutable. En combinant une approche statistique d’apprentissage supervisé à des raisonnements ontologiques, on peut améliorer la précision et la cohérence du codage. Le développement de méthodes hybrides permettra la mise en place de méthodologies pour différentes catégories de problèmes.
Grâce à l’informatisation du système d’information clinique, de nombreuses données et documents textuels non structurés deviennent disponibles en volume important. Leur utilisation pour réaliser plus automatiquement la tâche de codage (d'actes et de diagnostics) peut être envisagée sous plusieurs angles :
-soit proposer de la médiation au codage en aidant le codeur à réaliser la transition entre l’expression en langue naturelle et l’expression du référentiel terminologique. Cela peut se faire en recourant à des ontologies qui permettent de conceptualiser un domaine et réalise la jonction entre la terminologie et la connaissance. Leur représentation formelle en logique de description permet de les utiliser pour inférer des raisonnements. Elles peuvent représenter le médiateur intermédiaire permettant de passer d’un terme usité par un clinicien vers un terme du référentiel terminologique et peuvent s’intégrer dans la chaine de codage automatique pour améliorer ses performances.
-soit de faire apprendre à un algorithme la tâche de codage en lui fournissant un certain nombre d’exemples. Ces approches de machine learning nécessitent néanmoins la constitution d’un ensemble d’apprentissage « propre » qu’il est parfois difficile à constituer et actuellement, ils sont encore largement améliorables en termes de performance, de champ de maladies, ou de précision du code proposé.
A ce jour, le codage automatique des actes et des diagnostics sont très peu performants en terme de précision. Ces systèmes proposent des codes très généraux (par exemple le titre du chapitre de la terminologie, « Lésions traumatiques, empoisonnements et certaines autres conséquences de causes externes » proposé pour une fracture du tibia), ou une liste longue de codes parmi laquelle l’opérateur doit choisir le bon, s’il y figure. Ainsi, leur utilité est discutable. En combinant une approche statistique d’apprentissage supervisé à des raisonnements ontologiques, on peut améliorer la précision et la cohérence du codage. Le développement de méthodes hybrides permettra la mise en place de méthodologies pour différentes catégories de problèmes


2.- Emeric Dynomant

Titre : "Deep learning for natural language processing: understanding a text with convolutionnal classification"

Résumé : With the recent rise of computational power, deep learning is nowadays a widely used technology. However, few approaches are using these techniques for natural language processing. Nevertheless, this could be highly valuable to index medical documents with specific domains-related ontologies. This is even more relevant with the medical data production rising up every year, especially since the institution of the Electronic Healths Records. To introduce deep learning in this context, three major word embedding methods (Word2Vec, FastText, GloVe) have been compared, using a dataset of 12 millions documents produced at the Rouen University hospital. Word2Vec based on the Skip-Gram architecture showed the best results, both in automatic and human evaluations. This algorithm will be used as the first layer of a deep semantic, unsupervised annotation pipeline based on multi-models hierarchical classification.

Traitement en cours ...