ROADEF 2026 - Sciencesconf.org

sciencesconf.org:roadef2026:682966

Création de sous-ensembles d'entraînement pour un modèle prédictif : une approche frugale par k-anonymisation

Amandine Pitteman 1, @ , Emilien Arnaud 1, 2, @ , Gilles Dequen 1, @

1 : Modélisation, Information et Systèmes - UR UPJV 4290

Université de Picardie Jules Verne, Université de Picardie Jules Verne : UR4290

2 : Département de Médecine d'Urgence

CHU AMIENS

De par l'expansion du phénomène de big data, entraîner des modèles prédictifs peut s'avérer de plus en plus chronophage et consommateur de ressources par l'utilisation de grandes quantités de données. Les problématiques environnementales actuelles tendent à rendre les chercheurs attentifs à l'impact de leurs travaux expérimentaux et consciencieux quant à l'élaboration de méthodes permettant de réduire cet impact.

La réduction de la taille des ensembles de données d'entraînement de modèles d'apprentissage automatique est une piste majeure pour s'inscrire dans une démarche de frugalité et répondre à cet enjeu. L'ensemble réduit permet ainsi d'entraîner un modèle sur moins de données, consommant moins de ressources, tout en préservant ses performances.

Cette solution demeure moins explorée dans le cadre des ensembles de données tabulaires que pour les données visuelles telles que les images. Nos travaux proposent une nouvelle méthode de réduction du nombre d'instances dans les données tabulaires basée sur les principes de la k-anonymisation, visant à obtenir de meilleures performances qu'avec les techniques existantes.

Type :	:	Résumé
Export du papier vers HAL	:	Non
Thématiques	:	[GT DAAO] Données, Apprentissage Automatique et Optimisation
Mots-Clés	:	Sélection d'instances ; Données tabulaires ; Réduction de données

Vie privée | Accessibilité