L'intérêt croissant de l'interprétabilité pour les algorithmes de Machine Learning rend d'autant plus pertinent l'utilisation des arbres de décision comme modèles de classification supervisée. Les algorithmes heuristiques sont encore très utilisés mais de plus en plus de méthodes exactes, basées sur des formulations en nombres entiers, se développent afin d'obtenir des arbres fournissant de meilleures performances. Le plus grand challenge pour ces approches est le passage à l'échelle. C'est pourquoi dans ce papier nous proposons plusieurs algorithmes de regroupements des données visant à réduire la taille des formulations tout en garantissant l'optimalité de la solution obtenue.classification supervisée ; arbre de classification ; clustering ; programmation mathématique