De par l'expansion du phénomène de big data, entraîner des modèles prédictifs peut s'avérer de plus en plus chronophage et consommateur de ressources par l'utilisation de grandes quantités de données. Les problématiques environnementales actuelles tendent à rendre les chercheurs attentifs à l'impact de leurs travaux expérimentaux et consciencieux quant à l'élaboration de méthodes permettant de réduire cet impact.
La réduction de la taille des ensembles de données d'entraînement de modèles d'apprentissage automatique est une piste majeure pour s'inscrire dans une démarche de frugalité et répondre à cet enjeu. L'ensemble réduit permet ainsi d'entraîner un modèle sur moins de données, consommant moins de ressources, tout en préservant ses performances.
Cette solution demeure moins explorée dans le cadre des ensembles de données tabulaires que pour les données visuelles telles que les images. Nos travaux proposent une nouvelle méthode de réduction du nombre d'instances dans les données tabulaires basée sur les principes de la k-anonymisation, visant à obtenir de meilleures performances qu'avec les techniques existantes.

