Chaque page qui se charge dans un navigateur Web a un code de réponse inclus dans les en-têtes HTTP, qui peut être visible ou non sur la page Web elle-même.
Il existe de nombreux codes de réponse différents qu'un serveur donne pour communiquer l'état de chargement de la page; l'un des codes les plus connus est le code de réponse 404.
En règle générale, tout code compris entre 400 et 499 indique que la page n'a pas été chargée. Le code de réponse 404 est le seul qui porte une signification spécifique – que la page a effectivement disparu et ne reviendra probablement pas de sitôt.
Qu'est-ce qu'une erreur Soft 404?
Une erreur logicielle 404 n'est pas un code de réponse officiel envoyé à un navigateur Web. Il s'agit simplement d'une étiquette que Google ajoute à une page de son index.
Au fur et à mesure que Google explore les pages, il alloue soigneusement les ressources en s'assurant qu'aucun temps n'est perdu en explorant les pages manquantes qui n'ont pas besoin d'être indexées.
Cependant, certains serveurs sont mal configurés et leur page manquante charge un code 200 alors qu'elle devrait afficher un code de réponse 404. Si l'en-tête HTTP invisible affiche un code 200 même si la page Web indique clairement que la page est introuvable, la page peut être indexée, ce qui constitue un gaspillage de ressources pour Google.
Pour lutter contre ce problème, Google note les caractéristiques des 404 pages et tente de discerner si la page 404 est vraiment une page 404. En d'autres termes, Google a appris que s'il ressemble à un 404, sent comme un 404 et agit comme un 404, il s'agit probablement d'une véritable page 404.
Potentiellement mal identifié comme Soft 404
Il existe également des cas où la page n'est pas réellement manquante, mais certaines caractéristiques ont incité Google à la classer comme page manquante.
Certaines de ces caractéristiques incluent une petite quantité ou un manque de contenu sur la page et avoir trop de pages similaires sur le site.
Ces caractéristiques sont également similaires aux facteurs que l'algorithme Panda aborde. La mise à jour Panda considère le contenu mince et en double comme des facteurs de classement négatifs.
Par conséquent, la résolution de ces problèmes contribuera à éviter à la fois les problèmes de 404 et de Panda.
Les erreurs 404 ont deux causes principales:
Une erreur dans le lien, redirigeant les utilisateurs vers une page qui n'existe pas. Un lien vers une page qui existait et qui a soudainement disparu.
Erreur de liaison
Si la cause du 404 est une erreur de liaison, il vous suffit de corriger les liens.
La partie difficile de cette tâche consiste à trouver tous les liens rompus sur un site.
Cela peut être plus difficile pour les grands sites complexes qui comptent des milliers ou des millions de pages. Dans des cas comme celui-ci, les outils d'exploration sont utiles. Vous pouvez essayer d'utiliser des logiciels tels que Xenu, DeepCrawl, Screaming Frog ou Botify.
Une page qui n'existe plus
Lorsqu'une page n'existe plus, vous avez deux options:
Restaurez la page si elle a été accidentellement supprimée.301 redirigez-la vers la page associée la plus proche si elle a été supprimée exprès.
Tout d'abord, vous devez localiser toutes les erreurs de liaison sur le site. Semblable à la recherche de toutes les erreurs de liaison pour un site Web à grande échelle, vous pouvez utiliser des outils d'exploration. Cependant, les outils d'analyse peuvent ne pas trouver de pages orphelines, qui sont des pages qui ne sont liées depuis aucun endroit des liens de navigation ou depuis l'une des pages.
Les pages orphelines peuvent exister si elles faisaient partie du site Web, puis après une refonte du site Web, le lien menant à cette ancienne page a disparu, mais des liens externes d'autres sites Web peuvent toujours y être liés. Pour vérifier si ces types de pages existent sur votre site, vous pouvez utiliser une variété d'outils.
Google Search Console
La console de recherche signalera 404 pages au fur et à mesure que le robot d'exploration de Google parcourt toutes les pages qu'il peut trouver. Cela peut inclure des liens depuis d'autres sites vers une page qui existait auparavant sur votre site Web.
Google Analytics
Par défaut, vous ne trouverez pas de rapport de page manquante dans Google Analytics. Cependant, vous pouvez les suivre de plusieurs façons.
D'une part, vous pouvez créer un rapport personnalisé et segmenter les pages dont le titre de page mentionne l'erreur 404 – Page non trouvée.
Une autre façon de rechercher des pages orphelines dans Google Analytics consiste à créer des groupes de contenu personnalisés et à affecter les 404 pages à un groupe de contenu.
Site: Commande de recherche d'opérateur
La recherche de «site: example.com» sur Google répertorie toutes les pages d'exemple.com indexées par Google. Vous pouvez ensuite vérifier individuellement si les pages sont en cours de chargement ou si elles donnent des 404.
Pour ce faire à grande échelle, j'aime utiliser WebCEO, qui a une fonctionnalité pour exécuter le site: opérateur non seulement sur Google, mais aussi sur Bing, Yahoo, Yandex, Naver, Baidu et Seznam.
Étant donné que tous les moteurs de recherche ne vous fourniront qu'un sous-ensemble, son exécution sur plusieurs moteurs de recherche peut vous aider à élargir la liste des pages de votre site. Cette liste peut être exportée et exécutée sur des outils pour une vérification de masse 404. Je fais simplement cela en ajoutant toutes les URL sous forme de liens dans un fichier HTML et en le chargeant sur Xenu pour vérifier massivement les erreurs 404.
Autres outils de recherche Backlink
Les outils de recherche de backlink comme Majestic, Ahrefs, Moz Open Site Explorer, Sistrix, LinkResearchTools et CognitiveSEO peuvent également vous aider.
La plupart de ces outils exporteront une liste de backlinks reliant à votre domaine. De là, vous pouvez vérifier toutes les pages qui sont liées et rechercher les erreurs 404.
Comment corriger les erreurs Soft 404
Les outils d'exploration ne détectent pas un 404 logiciel, car il ne s'agit pas vraiment d'une erreur 404. Mais vous pouvez utiliser des outils d'exploration pour détecter autre chose. Voici quelques éléments à trouver:
Contenu mince: Certains outils d'exploration non seulement signalent des pages au contenu fin, mais affichent également un nombre total de mots. À partir de là, vous pouvez trier les URL en fonction du nombre de mots de votre contenu. Commencez par les pages qui contiennent le moins de mots et évaluez si la page a un contenu fin.Contenu en double: Certains outils d'exploration sont suffisamment sophistiqués pour discerner quel pourcentage de la page est le contenu du modèle. Si le contenu principal est presque le même que de nombreuses autres pages, vous devez examiner ces pages et déterminer pourquoi un contenu en double existe sur votre site.
Mis à part les outils d'exploration, vous pouvez également utiliser Google Search Console et vérifier sous les erreurs d'exploration pour trouver les pages répertoriées sous 404 logicielles.
L'exploration d'un site entier pour trouver des problèmes qui provoquent des 404 souples vous permet de localiser et de corriger les problèmes avant même que Google ne les détecte.
Après avoir détecté ces problèmes 404, vous devrez les corriger.
La plupart du temps, les solutions semblent être du bon sens. Cela peut inclure des choses simples comme développer des pages avec un contenu fin ou remplacer un contenu en double par des nouveaux et uniques.
Tout au long de ce processus, voici quelques éléments à considérer:
Consolider les pages: Parfois, un contenu mince est dû au fait d'être trop spécifique avec le sujet de la page, ce qui peut vous laisser peu de choses à dire. La fusion de plusieurs pages fines en une seule page peut être plus appropriée si les sujets sont liés. Non seulement cela résout les problèmes de contenu léger, mais il peut également résoudre les problèmes de contenu en double. Par exemple, un site de commerce électronique vendant des chaussures de différentes couleurs et tailles peut avoir une URL différente pour chaque combinaison de tailles et de couleurs. Cela laisse un grand nombre de pages avec un contenu mince et relativement identique. L'approche la plus efficace consiste à tout mettre sur une seule page et à énumérer les options disponibles.Rechercher les problèmes techniques qui provoquent un contenu en double: En utilisant même l'outil d'analyse Web le plus simple comme Xenu (qui ne regarde pas le contenu mais uniquement les URL, les codes de réponse et les balises de titre), vous pouvez toujours trouver des problèmes de contenu en double en consultant les URL. Cela inclut des choses comme les URL www vs non www, http et https, avec index.html et sans, avec des paramètres de suivi et sans, etc. Un bon résumé de ces problèmes de contenu en double courants trouvés dans les modèles d'URL peut être trouvé sur la diapositive 6 de cette présentation.
Google traite les erreurs 404 et les erreurs 404 logicielles de la même manière
Un 404 logiciel n'est pas une véritable erreur 404, mais Google désindexera ces pages si elles ne sont pas corrigées rapidement. Il est préférable d'explorer votre site régulièrement pour voir si des erreurs 404 ou 404 logicielles se produisent. Les outils d'exploration devraient être un composant majeur de votre arsenal SEO.
Crédits d'image
Image vedette: Paulo Bobita