ROADEF 2023 : 24ème congrès de la Société Française de Recherche Opérationnelle et d'Aide à la Décision

sciencesconf.org:roadef2023:436319

La Sclérose Latérale Amyotrophique (SLA), ou plus communément appelée maladie de Charcot, est une maladie neurodégénérative pour laquelle il n'existe actuellement aucun traitement. L'espérance de vie médiane au moment de l'apparition des symptômes varie entre 3 et 5 ans. L'évolution des fonctions physiques d'un patient est calculée grâce à l'ALSFRS qui est une échelle largement adoptée par la communauté médicale variant de 40, quand le patient n'est pas affecté, à 0, pour indiquer une paralysie totale. Le décès du patient intervenant le plus souvent lors de la paralysie des muscles respiratoires. L'établissement d'un pronostic fiable est un enjeu majeur car il conditionne la prise en charge du patient et sa qualité de vie. Les méthodes basées sur du machine learning sur de grands jeux de données ont permis d'identifier des corrélations sous-jacentes dans les données des patients, comme dans le défi Pro-Act. Cependant, en raison d'une forte hétérogénéité des patients les modèles pronostics restent peu précis et peu fiables. De plus, la quantité d'informations, c'est-à-dire le nombre de variables associées à un patient, peut perturber l'apprentissage car certaines variables ne sont pas pertinentes et par conséquent conduisent à des modèles peu exploitables pour prédire la progression de la maladie. Il est donc nécessaire de sélectionner un sous-ensemble des variables les plus appropriées de sorte à maximiser la qualité prédictive du modèle. La difficulté de cette stratégie est qu'elle est confrontée à une explosion combinatoire. En effet, le nombre de combinaisons possibles étant exponentiel, une énumération complète des sous-ensembles n'est pas réaliste. L'utilisation de méthodes statistiques et/ou de métaheuristiques permet d'approcher la solution optimale. Dans une étude précédente nous les avons comparées, et nous avons montré que dans la majorité des cas l'évolution différentielle était la métaheuristique la plus efficace permettant d'obtenir les modèles les plus performants et fiables.

Dans ce travail, nous effectuons une régression en utilisant un jeu de données composé de 2983 patients inclus dans des essais cliniques provenant des bases de données Pro-Act et Exhonit. Nous utilisons les données récupérées chez les patients entre le premier mois (T0) et le troisième mois (T3) de la maladie pour prévoir son évolution au cours de la première année (T6, T9 et T12). Nous proposons un modèle autorégressif permettant à chaque prévision de l'ALSFRS chez un patient de réinjecter cette valeur prédite dans le modèle afin de prévoir sa nouvelle valeur 3 mois plus tard. De plus, une nouvelle version améliorée de l'évolution différentielle est appliquée afin de déterminer le sous-ensemble de variables optimal.

En effectuant une sélection de variables nous parvenons à améliorer les performances de notre modèle peu importe la période. En effet, le RMSE indique que globalement, le modèle est à une distance de 3.03 points en moyenne de la valeur réelle tandis que le R²-ajusté indique que le modèle permet d'expliquer 84.37% de la variation de l'ALSFRS chez les patients.

Nous obtenons également une meilleure prédiction que dans d'autre études sur la pente de l'ALSFRS de T3 à T12 avec un RMSE de 0.443. Pour chacun des patients, une estimation de l'évolution de l'ALSFRS est tracée en fonction de ses caractéristiques. Le modèle fonctionne bien lorsqu'un patient présente une progression lente ou modérée de la maladie. En revanche, le modèle ne parvient pas à prévoir un rétablissement ou une très forte progression sur un court laps de temps.

La sélection de variables par une métaheuristique permet d'éliminer 11 variables sur les 40 présentes initialement, tout en améliorant la prédiction de la progression de la maladie. De plus, l'utilisation d'un modèle autorégressif permet de réaliser des prévisions quelle que soit la progression de la maladie chez le patient.

Type :	:	Article
Thématiques	:	Recherche Opérationnelle et Santé (GT ROSa)
Mots-Clés	:	machine learning ; sélection de variables ; santé ; optimisation ; heuristiques

Vie privée | Accessibilité