Impact de la pollution environnementale et des
conditions météorologiques sur l'incidence de
survenue des SCA ST+ inclus dans le registre
France PCI, un modèle prédictif généré
par Intelligence Artificielle.
Résumé du projet
CONTEXTE
L'athérosclérose coronaire est un processus évolutif dont la complication aiguë, l’infarctus du myocarde, en fait toute sa gravité. Le facteur déclenchant de la réaction athéro-thrombotique reste toutefois exceptionnellement documenté. De récentes études appelant une méthodologie classique cas-témoins croisés dans le temps, (Liu et al., JACC, 2021), ont mises en évidence une augmentation modeste de l’incidence et de la mortalité de l’infarctus du myocarde en lien avec des épisodes de pollution atmosphérique, notamment en présence de particules fines (PM2.5, PM10) et d’ozone. Ces polluants, d’origine majoritairement anthropique (combustion de d’énergies fossiles), peuvent également provenir de phénomènes naturels, comme le transport de poussières sahariennes. Par ailleurs, certaines variations des conditions météorologiques (dépression atmosphérique, forte humidité, baisse brutale de température) ont également été associés à un surrisque d’incidence des syndromes coronariens aigus (SCA). Didier et al; Archives of Cardiovascular Disease 2020.
A ce jour, les mesures de prévention du développement de l'athérosclérose générale (sevrage tabagique, statines) ou ciblée (Colchicine, anti-IL-1) n’intègrent pas de dimension environnementale, le niveau de preuve de son impact sur l’incidence de l’infarctus du myocarde et sa magnitude étant insuffisamment caractérisés.
OBJECTIFS
Développer un modèle prédictif de survenue de SCA ST+ par Intelligence Artificielle,
en croisant les données du registre France PCI avec des données spatio-temporelles de
pollution atmosphérique et de conditions météorologiques.
METHODOLOGIE
1) Triage des flux de données puis représentation graphique et spatio-temporelle en utilisant la bibliothèque Matplotlib en langage python (https://matplotlib.org/). Via ce graphique, il sera possible d’appliquer des filtres sur des critères de représentation spatio-temporelles ainsi que sur chaque type de données via :
a. Représentation des données climatologiques mises à disposition sur le portail data.gouv sur les 5 dernières années (https://www.data.gouv.fr/fr/dataservices/api-donnees-dobservation/). Ce sont des données décadaires proposées en téléchargement, par département et par lots de période au format csv compressé.
b. Récupération par API (API tabulaire du portail data.gouv) et représentation des données de pollution PM2.5, PM10 et Ozone mises à disposition par le centre de recueil de données de l’INERIS sur les 5 dernières années.
c. Récupération des données de SCA issus des centres affiliés au registre France-PCI (données anonymisées afin de respecter les règles RGPD).
2) Utilisation d’une technique de Machine Learning Interprétable telle que Random Forest afin de construire un algorithme capable de prédire des Syndromes Coronaires Aigues (SCA).
Machine Learning prédictif de SCA
À partir des données pertinentes identifiées et des résultats de corrélation, nous concevons un réseau neuronal ou un modèle XGBoost (https://xgboost.readthedocs.io/en/stable/) pour prédire les événements cardiovasculaires. Nous prévoyons de tester plusieurs algorithmes, puis de les comparer et de sélectionner l'approche la plus performante.
