améliorez la qualité et la précision de vos données grâce à l'enrichissement des métadonnées, optimisant ainsi la gestion et la valorisation de vos contenus.

EN BREF

  • Projet Image Metadata Generation lancé par Decathlon pour enrichir sa médiathèque.
  • quotas mutualisés sur un seul compte AWS.
  • Traitement de 2 millions d’images avec des descriptions, balises et mots-clés SEO.
  • Adoption d’un traitement asynchrone et d’inférence par lots.
  • Utilisation de prompts uniques avec variantes pour générer du contenu
  • Workflow de prétraitement quotidien et traitement horaire pour la mise à jour.
  • Capacité de traiter 25 000 images par jour.
  • Estimation d’1,2 M€ d’économies annuelles grâce à l’optimisation des processus.
  • Coûts du traitement de 3229 € pour le traitement des 2 millions d’images.
  • Exploration de nouveaux cas d’usages, dont l’identification de mannequins reconnaissables.

Decathlon a mis en œuvre un projet innovant appelé Image Metadata Generation pour enrichir sa médiathèque, qui contient environ 20 millions d’assets. Ce projet, lancé fin 2025, vise à générer des descriptions, des balises et des mots-clés SEO pour les photos de produits (environ 2 millions). Face à des enjeux de quotas mutualisés sur AWS et des défis techniques, Decathlon a opté pour un traitement asynchrone en inférence par lots, permettant de traiter 25 000 images par jour tout en réduisant les coûts et en gérant les erreurs efficacement. Grâce à un workflow quotidien de prétraitement et de traitement, les images sont redimensionnées et compressées tout en maintenant un haut niveau de performance, avec des taux de validation atteignant 93%. Cette initiative pourrait générer jusqu’à 1,2 M€ d’économies annuelles, améliorer la recherche dans le DAM et favoriser la conformité aux normes d’accessibilité.

https://www.youtube.com/watch?v=YYxHZnriQ4M

Decathlon, le célèbre distributeur d’articles de sport, a largement intégré l’intelligence artificielle au sein de ses opérations, notamment grâce aux modèles de traitement du langage naturel, les LLM (Large Language Models). Dans le cadre de son projet d’Image Metadata Generation, l’entreprise s’efforce d’enrichir sa médiathèque, qui compte près de 20 millions d’assets. Ce projet, qui a débuté en production fin 2025, a pour but de générer automatiquement des descriptions, des balises et des mots-clés SEO pour optimiser la recherche et l’accessibilité. Cet article explore comment la structure, le processus ainsi que les défis rencontrés lors de l’implémentation des LLM ont permis à Decathlon de transformer son approche de la gestion des images.

Pourquoi utiliser les LLM pour enrichir les métadonnées?

Dans le contexte actuel où la data est devenue un atout commercial majeur, la gestion des métadonnées se révèle essentielle pour toute entreprise souhaitant se démarquer. Decathlon a fait le choix d’utiliser les LLM pour répondre à plusieurs besoins cruciaux :

  • Automatisation : La génération manuelle de métadonnées pour des millions d’images serait non seulement chronophage mais également source d’erreurs. Les LLM permettent de générer automatiquement des descriptions précises en un temps record.
  • Accessibilité : Conformément à la directive européenne sur l’accessibilité, l’enrichissement des métadonnées est vital pour garantir que tous les utilisateurs, y compris ceux en situation de handicap, puissent accéder aux informations pertinentes.
  • Optimisation SEO : Un bon référencement est indispensable dans l’environnement numérique. Les mots-clés optimisés générés par les modèles permettent de mieux indexer les images dans les moteurs de recherche.

Le projet Image Metadata Generation

Le projet Image Metadata Generation a été conçu pour enrichir la médiathèque de Decathlon. En englobant environ 2 millions de photos de produits, il se focalise sur la création automatisée de descriptions et de balises.

Avec une médiathèque organisée autour de trois types d’assets — communication, identité de marque, et présentation des produits — l’enjeu est de traiter des millions d’images en respectant des quotas mutualisés, notamment pour l’inférence.

Les défis rencontrés

Malgré les ambitions du projet, Decathlon a été confronté à plusieurs défis au fur et à mesure de l’implémentation des LLM.

Tout d’abord, la nature asynchrone du traitement a dû être repensée. Le PoC (Proof of Concept), qui avait été testé avec une centaine d’images, avait montré que le traitement séquentiel créait une saturation inacceptable en production. Le ML engineer Lévi Bernadine a souligné qu’une invocation synchrone et unitaire « était presque un antipattern », révélant ainsi des goulets d’étranglement inévitables.

Ensuite, la gestion des coûts est devenue une préoccupation majeure. Chaque traitement d’une image consomme un nombre de tokens proportionnel à sa taille, et une procédure à la demande entraînerait des coûts exorbitants.

La solution : traitement asynchrone par lots

Pour pallier ces différents problèmes, Decathlon a opté pour un traitement asynchrone, en utilisant une approche par lots. Ce choix ressort comme une solution efficace capable de réduire la saturation des ressources système, tout en maîtrisant les coûts.

Le traitement par lots consiste à regrouper les images pour un traitement massif plutôt qu’individuel. Chaque image est redimensionnée à 300 pixels en hauteur ou en largeur, tout en respectant le ratio original, et les résultats obtenus sont significativement plus légers, offrant une réduction moyenne de 96 % des fichiers d’origine.

Workflow de prétraitement et de traitement

Le workflow mis en place par Decathlon se décompose en plusieurs étapes clés.

Le prétraitement quotidien

Le processus de prétraitement est initialisé chaque jour et comprend :

  • Localisation des assets : Identifier dans le DAM (Digital Asset Management) les fichiers qui n’ont pas encore été traités ou nécessitent des mises à jour.
  • Téléchargement : Récupérer les images en qualité originale via le CDN de Decathlon.
  • Préparation des prompts : Genérer des prompts pour les modèles de traitement comme Claude et Nova.
  • Redimensionnement et compression : Appliquer un redimensionnement et une compression pour alléger les fichiers.
  • Stockage : Enregistrer les images et les fichiers liés au traitement.

Le traitement horaire

Chaque heure, un traitement parallélisé est exécuté pour traiter les images en statut « staging ». Ces images sont regroupées en lots de 500 à 2000 selon leur statut. Cela garantit une transmission efficace vers Bedrock en utilisant un pont IAM et permet ainsi à l’API Batch de pousser les résultats générés dans S3.

Airflow, un outil de gestion de flux de travail, surveille le statut des jobs toutes les demi-heures, permettant ainsi à l’entreprise de suivre l’état d’avancement avec des timeouts fixés à 48 heures.

Des résultats prometteurs

Le système mis en place a démontré des performances impressionnantes. Avec une capacité de traitement de 25 000 images par jour, Decathlon attend des taux de validation des métadonnées atteignant « jusqu’à 93 % » à travers différents évaluateurs.

Le projet d’enrichissement des métadonnées présente un potentiel énorme pour optimiser la recherche dans le DAM, réduire la duplication d’images, et améliorer l’indexation dans les moteurs de recherche. En termes de résultats financiers, Decathlon estime que ce projet pourrait engendrer jusqu’à 1,2 million d’euros d’économies par an face à un coût d’environ 7 millions d’euros pour la création, la correction et la traduction des contenus réalisés précédemment.

Coûts et rentabilité du projet

Il est essentiel de noter que les coûts associés à l’exploitation des LLM ont été soigneusement évalués. Pour traiter les 2 millions d’images, la facture a été de 3229 euros, en décomposant les coûts entre l’entrée et la sortie des tokens. À l’inverse, des traitements à la demande en pleine résolution pourraient coûter jusqu’à 160 000 euros.

Cas d’utilisation et perspectives futures

Decathlon continue d’explorer de nouvelles avenues d’utilisation des LLM au-delà de l’enrichissement des métadonnées. Par exemple, l’identification de la présence de mannequins reconnaissables dans les images fait partie des projets en cours d’évaluation. De plus, la possibilité d’A/B testing pour évaluer l’impact des images et des descriptions sur les ventes en ligne pourrait bientôt être intégrée dans leurs pratiques.

Avec l’adoption des technologies avancées de traitement de langage, Decathlon se positionne comme un acteur clé dans le domaine de l’intelligence artificielle au sein de la distribution. La synergie entre l’innovation et la stratégie d’enrichissement des métadonnées assure à l’entreprise la capacité de mieux servir ses clients tout en optimisant ses coûts et ses ressources. L’expérience de Decathlon fait office de modèle pour d’autres entreprises souhaitant s’engager dans l’automatisation et l’efficacité.

améliorez la qualité et la pertinence de vos données grâce à l'enrichissement des métadonnées, optimisant ainsi la recherche, la gestion et l'analyse de l'information.

Témoignages sur l’utilisation des LLM par Decathlon pour l’enrichissement des métadonnées

Décathlon a relevé le défi d’industrialiser le traitement de métadonnées pour sa médiathèque, qui contient près de 20 millions d’assets. Grâce à la solution Image Metadata Generation, déployée depuis fin 2025, l’entreprise enrichit continuellement ses contenus avec des descriptions et des balises optimisées, répondant ainsi aux standards imposés par la directive européenne sur l’accessibilité.

En effet, le traitement a été réalisé à partir de 2 millions d’images, en générant des mots-clés et des descriptions particulièrement adaptées. Lévi Bernadine, ML engineer chez Decathlon Digital, souligne que l’usage des LLM a permis de créer des prompts uniques, facilitant la cohérence des résultats par rapport aux exigences des packshots et des images contextuelles, tout en minimisant les requêtes API nécessaires.

Le passage à un traitement asynchrone avec l’inférence par lots a été une décision stratégique. Cela a permis de soulager les équipes en évitant les goulets d’étranglement, tout en permettant de réduire de moitié les coûts liés à chaque image traitée. En configurant des images à 300 pixels, les résultats obtenus étaient non seulement optimisés en termes de poids, mais aussi en capacité de traitement, permettant ainsi de gérer jusqu’à 25 000 images par jour.

Le workflow de prétraitement, déclenché quotidiennement, permet de suivre l’état des images dans le DAM et de garantir des mises à jour constantes. Lévi précise que les images sont téléchargées en qualité originale, puis redimensionnées et compressées pour les rendre plus légères avant leur traitement. Cela permet la réduction de la duplication d’images tout en améliorant l’indexation dans les moteurs de recherche.

Le projet d’enrichissement des métadonnées a un potentiel d’économies significatif, estimé à 1,2 M€ par an, en comparaison avec les coûts fixes annuels de 7 M€ liés à la création et à la traduction de contenus. Lévi évoque même la possibilité d’explorer d’autres cas d’usage, comme l’identification de mannequins reconnaissables et l’A/B testing des images, renforçant ainsi l’importance stratégique de cette initiative pour Decathlon.