Identifiant : mathieu.lafourcade_n_2024-25
•
Encadrant(s) : mathieu.lafourcade@lirmm.fr
Résumé : L'informatisation des professions de santé et le développement du dossier médical personnalisé (DMP) entraîne une progression rapide du volume d'information médicale numérique. Les systèmes informatiques médicaux permettent de stocker de l'information (dossier médical, résultats d'examens complémentaires, images et comptes rendus radiologiques par exemple), d'y accéder en vue d'améliorer la prise en charge des patients, de découvrir de nouvelles informations ou de fournir une aide à la décision pour l'amélioration de la qualité des soins. Or, cette information est souvent consultée de façon individuelle et manuelle alors que le format numérique permettrait une analyse informatisée. L'information à exploiter est en grande partie sous forme textuelle et il s'agit alors de pouvoir extraire de façon automatique des données sémantiques. Le besoin de convertir toute cette information sous forme structurée est donc un enjeu majeur. Pour réaliser cette tâche il est nécessaire d'avoir une base de connaissance de spécialité structurée et dynamique (apprentissage permanent).
Pour ce sujet de TER, il s'agira de travailler sur l'extraction de relations sémantiques (synonymie, hyperonymie, causatif, caractéristique..) à partir d'articles médicaux issus de l'encyclopédie Wikipedia et du site sur les maladies rares Orphanet. Cette extraction aura pour but de consolider un réseau lexico-sémantique de spécialité inclus dans le réseau de connaissance générale JeuxDeMots. Il faudra utiliser les ressources et travaux de recherches à votre disposition afin d'élaborer des algorithmes pertinents. Le travail sera composé des tâches suivantes:
* état de l'art sur l'extraction de relations sémantiques à partir de textes non structurés.
* récupérer les pages wikipédia (voire d'autres sites comme orphanet).
* proposer un algorithme d'extraction de relations.
* création d'une base de données susceptible d'être intégrée au réseau.
Le langage de programmation utilisé sera au choix des étudiants.
PS IMPORTANT : Si les étudiants le désirent, sujet peut éventuellement être abordé via un autre domaine, par exemple, la "gastronomie", "aéronautique", etc.
Lien : - • Dernière mise à jour : 2024-10-29 14:01:14
Identifiant : mathieu.lafourcade_2_2024-25
•
Encadrant(s) : mathieu.lafourcade@lirmm.fr
Résumé : JeuxDeMots est un jeu sérieux (' Game With A Purpose ' - GWAP : jeu avec un but) qui vise à construire un réseau lexico-sémantique (un graphe avec 20 million de noeuds et 850 millions de relations). Les agents d'inférence de JeuxDeMots constituent globalement une intelligence artificielle qui opère sur cer grand volume de connaissances (de sens commun mais également expertes à plusieurs domaines) de façon à inférer de nouvelles relations.
Dans ce cadre, nous souhaitons retrouver dans le réseau les triangles permettant de fournir des exemples pour être capable par la suite de fournir des éléments d'explication pour certaines relations. Il s'agit donc de créer une combinaison entre un système à apprentissage par des exemples et un système d'inférence.
Par exemple, il est ainsi possible de déduire que "voiture" a pour conséquence "mort" à partir de "voiture" ayant pour conséquence "accident" qui a pour conséquence "mort" (1 côté du triangle). Où à l'inverse de produire l'explication de "peste" à conséquence "mort", en exhibant "peste" estun "maladie mortelle" et "maladie mortelle" conséquence "mort" (2 côtés du triangle).
Le travail attendu consiste à :
- prendre en main la base JeuxDeMots sous sa forme ' bases de données SQL en graphes ' ;
- Elaborer les requêtes SQL permettant de retrouver les triangles dans le graphe JeuxDeMots ;
- Tester et optimiser le passage des requêtes sur un serveur.
Si le temps le permet :
- Proposer des extensions pour recommander des portions du graphe où un triangle aurait dû exister (ce qui permettra d'enrichir le graphe).
** Pas de prérequis
Lien : https://cloud.lirmm.fr/index.php/s/kWV55XDJcHLtcgY • Dernière mise à jour : 2024-10-29 14:55:40