Table des matières :
- L’arborescence de site, ce “détail” qui pilote crawl, UX et revenus
- Étape 1 — Auditer l’existant : inventaire d’URL, profondeur de clic et réalité du crawl
- Étape 2 — Mapper intentions et mots-clés sur des gabarits (pas sur des “pages” bricolées)
- Étape 3 — Concevoir la taxonomie : profondeur, silos, et règles non négociables
- Étape 4 — Industrialiser le maillage interne : menus, breadcrumbs, hubs et liens contextuels
- Étape 5 — Dompter facettes, filtres, pagination et duplication (sinon Google vous ignore poliment)
- Étape 6 — Déployer sans casser : redirections, sitemaps, et monitoring post-mise en prod
L’arborescence de site, ce “détail” qui pilote crawl, UX et revenus
Une arborescence de site (aka architecture de l’information) n’est pas un dessin PowerPoint pour rassurer un comité. C’est la traduction concrète — dans les URL, les menus, les breadcrumbs, les liens internes — de la façon dont votre contenu est découpé, hiérarchisé, et relié. Et comme Google (et les humains) ne lisent pas dans les pensées, cette structure sert de contrat implicite : « voilà comment naviguer, voilà ce qui est important, voilà ce qui est parent/enfant ».
Techniquement, on parle de plusieurs couches : (1) la structure logique (catégories, collections, thématiques), (2) la structure physique (chemins d’URL, répertoires, paramètres), (3) la structure de navigation (menu, footer, facettes, recherche interne), et (4) la structure de maillage interne (liens contextuels, pages hub, breadcrumbs). Vous pouvez en optimiser une et saboter les autres — c’est même un sport national sur certains e-commerces.
Le sujet n’est pas “théorique” : une arborescence mal posée se traduit souvent par des signaux très concrets (et coûteux) :
- des pages business importantes qui n’entrent pas dans l’index, ou qui mettent des semaines à être recrawlées ;
- des catégories en concurrence avec des filtres (cannibalisation) ;
- des parcours de navigation où l’utilisateur “se perd” (rebonds, baisse du panier moyen, baisse du taux de conversion) ;
- et, côté SEO, une impression de “plafond” : vous publiez, mais la croissance organique ne suit plus.
Google n’a jamais été subtil sur le sujet. Dans son guide officiel, il recommande une hiérarchie claire : “Make it as easy as possible for users to go from general content to the more specific content they want on your site.” (Google Search Central, SEO Starter Guide : https://developers.google.com/search/docs/fundamentals/seo-starter-guide). Et Peter Morville a résumé l’enjeu UX (donc SEO) avec une phrase qui pique : “You can’t use what you can’t find.” (Morville, Ambient Findability, 2005). Autrement dit : une arborescence bancale, c’est de la visibilité perdue, des crawls gaspillés, et des conversions qui s’évaporent.
Étape 1 — Auditer l’existant : inventaire d’URL, profondeur de clic et réalité du crawl
Avant de “refaire l’arborescence”, il faut savoir ce qui existe vraiment (spoiler : ce n’est pas ce que votre CMS affiche). Commencez par un inventaire multi-sources : crawl (Screaming Frog / Sitebulb), export des URLs indexées (Google Search Console), extraction sitemap, et idéalement analyse de logs. Si vous ne savez même pas combien d’URL votre site expose, vous pilotez à l’aveugle — et ça se mesure. Le point de départ pratique : l’article interne sur le sujet compter les URL sans dépendre de Google : https://www.les-vikings.fr/article/comment-compter-les-url-dun-site-internet-sans-utiliser-les-resultats-de-recherche-google/
Pour que l’audit serve vraiment à quelque chose, forcez-vous à croiser les sources. Une même URL peut être :
- présente dans le sitemap mais jamais crawlée,
- crawlée mais non indexée (ou indexée via une autre version),
- indexée alors qu’elle ne devrait pas l’être (pages de tri, recherche interne, paramètres).
Un format simple (et très “opérationnel”) consiste à bâtir un tableau de consolidation avec, pour chaque URL : statut HTTP, canonical déclarée, profondeur de clic, présence dans le sitemap, indexation (GSC), nombre de liens internes, et objectif business (catégorie, produit, contenu support, etc.).
| Signal | Où le récupérer | Ce que ça détecte vite |
|---|---|---|
| Profondeur de clic | Crawl (Screaming Frog/Sitebulb) | Pages trop loin des hubs / menus |
| URL indexées | Google Search Console | Index bloat, pages “inutiles” indexées |
| Sitemap | Fichier(s) XML | Hygiène : uniquement URLs 200, uniquement URLs canoniques |
| Logs serveur | Analyse de logs | Priorités réelles de Googlebot (pas supposées) |
Ensuite, mesurez la profondeur (click depth), le taux de pages orphelines, et la distribution des codes HTTP. Dans un audit technique sérieux, on sort rapidement des métriques actionnables :
- % d’URL à plus de 4 clics de la home (souvent corrélé à la sous-indexation)
- chaînes de redirection (3xx → 3xx → 200) et boucles
- 4xx “utiles” (volontaires) vs 4xx “accidentels” (générés par des filtres, un moteur interne, une recherche)
- ratio pages crawlées / pages réellement stratégiques
Le vrai révélateur reste la log analysis : Googlebot ne “crawl” pas votre sitemap par bonté d’âme, il suit des liens et arbitre son temps. Sur des e-commerces volumineux, on observe fréquemment des situations absurdes : une majorité de hits bots sur des URLs à paramètres, des pages de tri, ou des variantes quasi-dupliquées, pendant que les pages de catégories à fort potentiel sont crawlées trop rarement.
Mini-scénario (très courant) : vous vendez des produits en France avec des facettes “taille”, “couleur”, “marque”. Sans règles, vous vous retrouvez avec des URL du type :
/chaussures/?couleur=noir&taille=42&sort=prix-asc/chaussures/?taille=42&couleur=noir&sort=prix-asc/chaussures/?utm_source=newsletter&couleur=noir&taille=42
Trois URLs pour “la même page” du point de vue d’un utilisateur… et potentiellement des centaines de variantes à l’échelle d’un catalogue.
Si votre infrastructure tient déjà le choc côté perf, tant mieux — sinon, allez lire (et appliquer) des fondamentaux comme dans cet article sur la réduction du temps de chargement : https://www.les-vikings.fr/article/optimisation-performance-web-5-astuces-pour-reduire-le-temps-de-chargement/ car une arborescence qui multiplie les pages multiplie aussi… la charge (serveur, cache, DB, rendu front, etc.).
Étape 2 — Mapper intentions et mots-clés sur des gabarits (pas sur des “pages” bricolées)
Le SEO performant ne consiste pas à créer 300 pages “Catégorie + Ville + Pas cher” et espérer que ça passe. La bonne approche : partir des intentions de recherche (informationnelle, navigationnelle, transactionnelle, commerciale) et les mapper sur des types de pages (gabarits) maîtrisables : page catégorie, page sous-catégorie, fiche produit, page marque, guide, comparatif, FAQ, etc.
Un mapping utile se fait à l’échelle des clusters sémantiques, pas au mot-clé isolé. Oui, on peut accélérer cette phase avec de l’IA (embeddings, clustering, classification d’intent), mais l’IA ne “sauve” pas une taxonomie incohérente : elle l’automatise. Si vous voulez creuser les stratégies modernes côté IA + SEO, cet article sur IA et SEO (outils & stratégies) pose de bonnes bases : https://www.les-vikings.fr/article/intelligence-artificielle-seo-outils-et-strategies-gagnants-pour-2025/
Concrètement, faites une matrice Intent → Page cible → KPI → Éléments indispensables. Le dernier champ évite un piège classique : créer la bonne page… mais sans les éléments attendus par l’utilisateur (et observés dans la SERP).
| Intention (exemple) | Page cible | KPI principal | Éléments “non négociables” |
|---|---|---|---|
| “acheter [produit]” | Fiche produit | Conversion / revenu | Prix, dispo, livraison/retours, avis, médias |
| “[catégorie]” | Catégorie (listing) | Trafic qualifié / revenu assisté | Tri utile, contenu de contexte, filtres propres, maillage vers sous-catégories |
| “meilleur [catégorie]” | Guide/comparatif | Leads / clics vers produits | Critères, tableau comparatif, FAQ, sélection expliquée |
| “avis [marque]” | Page marque + UGC | Ajout panier / confiance | Présentation, garanties, avis modérés, liens vers collections |
Deux points souvent oubliés :
1) Gabarits ≠ pages : si votre CMS génère 1 000 pages, mais que vous ne maîtrisez pas les règles (URL, canonical, contenu par défaut, facettes indexables), vous créez surtout 1 000 problèmes.
2) Localité et intention : en France, beaucoup de requêtes mélangent service + ville (ex. “réparation iPhone Lyon”, “agence web Lyon”, “location utilitaire Villeurbanne”). L’arborescence doit prévoir des pages locales légitimes (avec preuves de présence, informations utiles, différenciation) et éviter les “portes” purement SEO. Souvent, un bon pattern est : une page “Zone” (ex. Lyon / Rhône / Auvergne-Rhône-Alpes) réellement informative, reliée à des pages services — plutôt que des dizaines de clones.
Ce travail empêche le grand classique : cannibalisation (plusieurs pages qui se battent sur la même intention) et thin content (des pages “SEO” qui n’existent que pour être indexées). Si vous voulez un cadre plus large, le guide interne “SEO technique, on-page et off-page” est un bon rappel : https://www.les-vikings.fr/article/seo-technique-on-page-et-off-page-guide-pour-entreprises/
Étape 3 — Concevoir la taxonomie : profondeur, silos, et règles non négociables
Une arborescence de site efficace tient généralement en 3 à 4 niveaux pour les contenus stratégiques : Accueil → Catégorie → Sous-catégorie → (Produit / Article). Au-delà, vous augmentez la profondeur, diminuez le PageRank interne transmis, et complexifiez la navigation. Oui, certains catalogues imposent plus, mais alors il faut compenser avec des pages hub, des liens contextuels, et une stratégie de crawl.
Le “siloing” n’est pas une religion : c’est une technique pour renforcer la cohérence thématique via des liens internes majoritairement intra-cluster. Ça marche… tant que vous ne transformez pas votre site en bunker où aucune catégorie ne parle à sa cousine. Exemple : lier des catégories complémentaires (cross-sell) est souvent rentable et SEO-friendly si c’est fait avec parcimonie et logique utilisateur.
Pour éviter que la taxonomie parte en vrille au bout de 6 mois, posez des règles “non négociables” (et documentez-les). Par exemple :
- 1 page = 1 rôle (catégorie, sous-catégorie, marque, guide…). Si une page fait tout, elle ne fait rien bien.
- 1 concept = 1 URL canonique : pas deux chemins différents pour atteindre la même catégorie (ex.
/homme/chaussures/et/chaussures/homme/). - Pas de tags libres sans gouvernance (sinon, “tag sprawl” = centaines de pages pauvres et orphelines).
- Éviter les catégories fourre-tout (“Autres”, “Divers”) : elles deviennent des poubelles à crawl.
Définissez des règles de nommage stables : slugs courts, minuscules, séparateurs cohérents, pas de dates dans les URL si le contenu est evergreen, et surtout pas de dépendance à un ID interne illisible (sauf contrainte technique). Un exemple simple et lisible :
/categorie//categorie/sous-categorie//categorie/sous-categorie/produit/
Sur Shopify, WooCommerce ou un CMS headless, la capacité à contrôler URL, collections, tags et facettes n’est pas équivalente : le comparatif interne sur Shopify vs WooCommerce met le doigt sur ces impacts “maintenance + scalabilité” qui finissent toujours par toucher le SEO : https://www.les-vikings.fr/article/shopify-vs-woocommerce-comparatif-couts-maintenance-et-scalabilite-e-commerce/
Et si vous industrialisez le catalogue, un PIM/DAM peut éviter une taxonomie “inventée” au fil des imports (ce qui finit presque toujours en doublons et incohérences) : https://www.les-vikings.fr/article/pim-dam-plm/
Étape 4 — Industrialiser le maillage interne : menus, breadcrumbs, hubs et liens contextuels
Une arborescence de site sans maillage interne solide, c’est une carte routière sans routes. Vos liens déterminent : la découvrabilité (crawl), la priorité (importance relative), et la compréhension (contextualisation) des pages. Les menus (header/footer) doivent porter les catégories business-critical ; le reste se travaille via pages hub (“guides”, “collections”), liens contextuels dans les contenus éditoriaux, et blocs “produits associés” propres.
Un repère simple : si une page est stratégique (CA, lead, marge, différenciation), elle ne doit pas dépendre uniquement :
- du moteur de recherche interne,
- d’une facette,
- ou d’un carrousel “aléatoire”.
Elle doit être atteignable via une chaîne de liens volontaire (menu → catégorie → sous-catégorie → produit, ou hub → guide → catégorie, etc.).
Le breadcrumb n’est pas juste “sympa” pour l’UX : il matérialise la hiérarchie et améliore la compréhension. Implémentez-le proprement + données structurées. Exemple JSON-LD minimaliste :
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "BreadcrumbList",
"itemListElement": [
{"@type": "ListItem", "position": 1, "name": "Accueil", "item": "https://example.com/"},
{"@type": "ListItem", "position": 2, "name": "Catégorie", "item": "https://example.com/categorie/"},
{"@type": "ListItem", "position": 3, "name": "Sous-catégorie", "item": "https://example.com/categorie/sous-categorie/"}
]
}
</script>
Ajoutez ensuite des liens transactionnels qui ne sentent pas le spam : “Top ventes”, “Nouveautés”, “Comparatifs”, “Accessoires”, etc. Le but est double : renforcer la pertinence sémantique et pousser la conversion.
Deux pratiques “industrialisables” (et souvent sous-exploitées) :
- Pages hub éditoriales : une page “Guide d’achat [catégorie]” qui renvoie vers 8–12 sous-pages (comparatifs, FAQ, catégories principales), et qui est elle-même reliée depuis les catégories.
- Liens contextuels dans le contenu : dans un article, faire des liens vers les catégories et les guides uniquement quand ça aide l’utilisateur (évitez les pavés de liens en fin de page).
Ce n’est pas un hasard si l’upsell et le cross-sell vivent dans la même zone que le SEO interne : optimiser la recommandation produit, c’est aussi structurer des chemins et des liens. À ce sujet, l’article sur l’upsell en e-commerce complète bien la logique : https://www.les-vikings.fr/article/ameliorer-lupsell-en-e-commerce-upsell-ou-vente-incitative/ Un bon maillage, c’est du SEO qui paie, pas du SEO qui “fait joli dans un audit”.
Étape 5 — Dompter facettes, filtres, pagination et duplication (sinon Google vous ignore poliment)
La navigation à facettes est la première cause de “mon site a 2 000 pages” qui devient “mon site a 2 millions d’URL”. Tri, filtres, pagination, paramètres de tracking : tout ça produit des variantes. Et Google, lui, ne vous doit pas un crawl infini. Résultat classique : dilution du budget de crawl, duplication, et index bloat.
Le traitement doit être règle-driven, pas émotionnel. Décidez quelles combinaisons de facettes méritent une page indexable (souvent les plus demandées / les plus business), puis bloquez ou canonicalisez le reste. Google documente clairement la consolidation des doublons via canonicals : https://developers.google.com/search/docs/crawling-indexing/consolidate-duplicate-urls (et oui, ça suppose que vos pages ne se contredisent pas). Pour le cadre, référez-vous aussi à l’article interne sur les canoniques et le contenu dupliqué : https://www.les-vikings.fr/article/definition-contenu-duplique-et-url-canoniques-quest-ce-que-cest-et-comment-les-optimiser/
Quelques patterns efficaces (à adapter) :
- Paramètres non-stratégiques (
?sort=,?view=,?utm=) : canonical vers l’URL “propre” + éventuellementnoindex,followsi vous êtes envahi. - Facettes stratégiques : créer des pages dédiées (URL stables, contenu unique, liens internes), plutôt que laisser le moteur générer des permutations infinies.
- Pagination : des liens HTML crawlables, pas un scroll infini qui cache les pages aux bots. Et non,
rel=next/prevn’est plus un “signal d’indexation” depuis des années ; ça n’empêche pas d’avoir une pagination propre.
Ajoutez une nuance importante (souvent mal comprise) : noindex n’empêche pas le crawl. Si votre objectif est de réduire la charge et le crawl de millions d’URLs, noindex seul ne suffit pas. À l’inverse, bloquer via robots.txt empêche le crawl mais peut limiter la capacité de Google à voir le canonical et à consolider correctement. La décision dépend du problème :
- Si l’enjeu est surtout l’index (trop de pages non désirées indexées),
noindex+ canonical peut être pertinent. - Si l’enjeu est surtout le crawl (explosion infinie de combinaisons), il faut aussi agir à la source (réduire la génération d’URLs, limiter les facettes combinables, rendre certaines combinaisons non crawlables, etc.).
Le point sarcastique mais vrai : si votre moteur génère 50 URLs pour “chaussures noires 42”, ne vous étonnez pas que Google choisisse… une version au hasard. Et ensuite, on appellera ça “instabilité de ranking” (c’est plus chic).
Étape 6 — Déployer sans casser : redirections, sitemaps, et monitoring post-mise en prod
Refondre une arborescence de site, c’est une migration IA (information architecture) déguisée. Donc il faut une checklist de prod : mapping des anciennes URLs vers les nouvelles, 301 (pas 302 “temporaire” parce que quelqu’un a lu un tweet), suppression des chaînes, mise à jour des liens internes, et tests automatisés. Pour les gros sites, traitez ça comme un chantier CI/CD : génération des règles depuis un fichier de mapping, tests d’intégration (ex: vérifier que chaque URL historique renvoie bien 200 ou 301 vers une page pertinente), puis déploiement.
Checklist de déploiement (compacte, mais redoutablement efficace) :
- Avant mise en prod
- Export des top URLs (trafic, conversions, backlinks) pour prioriser le mapping.
- Crawl de préprod + comparaison (anciennes vs nouvelles structures, statuts, canonicals).
- Vérification des templates : breadcrumb, pagination, balises canonicals, robots meta.
- Jour J
- Activation des 301 + test de non-chaînes (une seule redirection max si possible).
- Mise à jour des menus, footers, breadcrumbs, liens contextuels (sinon vous “redirigez” votre propre maillage).
- Déploiement des sitemaps segmentés.
- Semaine 1–4
- Monitoring 404/500, anomalies GSC, crawl stats, indexation.
- Analyse logs bots pour voir si Googlebot “comprend” la nouvelle structure.
Côté crawl, segmentez vos sitemaps (par type : catégories, produits, contenus), gardez-les propres (200 only, canonicals only), et surveillez la Search Console : stats de crawl, pages indexées, anomalies. Un indicateur simple post-déploiement : le ratio URLs envoyées dans sitemap vs URLs indexées et le temps de stabilisation. Sur un e-commerce bien cadré, on vise une stabilisation en quelques semaines, pas une dérive sur 6 mois.
Enfin, mettez de l’observabilité : logs bots, alerting sur hausse de 404/500, suivi de la profondeur moyenne, et monitoring business (trafic catégorie, revenus organiques, taux de conversion). Ne séparez pas “tech” et “SEO” : une structure qui génère trop d’URLs, ou qui complexifie le rendu, finit par impacter le temps de chargement et donc l’expérience (cf. les recommandations de performance déjà évoquées : https://www.les-vikings.fr/article/optimisation-performance-web-5-astuces-pour-reduire-le-temps-de-chargement/).
Si vous avez besoin d’un cadre plus global de pilotage, vous pouvez coupler ça à un audit et une démarche de refonte structurée (par exemple via l’offre de consulting numérique https://www.les-vikings.fr/groupe-vikings-technologies-tous-nos-domaines-intervention/consulting-numerique/ et l’accompagnement de refonte de sites existants https://www.les-vikings.fr/groupe-vikings-technologies-tous-nos-domaines-intervention/agence-web-lyon-site-web-e-commerce-intranet-extranet-maintenance-tma/refonte-de-sites-internet-existants/). Et si vous préférez des indicateurs “prêts à l’emploi” côté e-commerce, jetez un œil à Vikings Central : https://www.les-vikings.fr/vikings-suite-outils-metier-sur-etagere-erp-entreprise/vikings-central-outil-veille-analyse-audit-e-commerce/
Une arborescence SEO performante, ce n’est pas un diagramme : c’est un système vivant. La bonne nouvelle ? Une fois les règles posées, c’est l’un des rares sujets SEO qui se rentabilise deux fois : en visibilité organique et en expérience utilisateur. La mauvaise nouvelle ? Oui, il faut être rigoureux. On ne peut pas “faire une arbo vite fait” et espérer que Google compensera par magie.