Peut-il vraiment aider votre référencement?

Comme de nombreux autres concepts en SEO, TF-IDF en fait un sujet très débattu.

Tout d’abord, vous avez lu qu’il s’agissait d’une solution miracle pour classer votre contenu sur Google.

Puis, tout de suite, vous entendez que TF-IDF est tellement old-school que cela ne vaut aucun effort.

La vérité se situe généralement quelque part au milieu.

Cet article explorera pourquoi vous ne devriez pas vous attendre à ce que TF-IDF substitue une stratégie d’optimisation complète et quels sont les véritables avantages de l’utiliser pour le référencement.

TF-IDF: Quel genre de bête est-ce?

Pour un cerveau humain, il ne faut pas de maths pour dire de quoi parle mon article. Il s’agit de TF-IDF, non?

Mais lorsque la pertinence est évaluée (et, surtout, comparée pour plusieurs articles) par une machine, nous avons besoin d’une représentation numérique pour voir que:

L’article A concerne TF-IDF (par opposition à, disons, le renforcement des liens) .L’article A concerne davantage TF-IDF que l’article B.

Pourrions-nous simplement compter le nombre de fois où notre mot-clé, TF-IDF, apparaît dans chaque document?

Non, nous ignorons donc évidemment la taille des documents.

Pouvons-nous comparer le nombre de nos mots clés au nombre total de mots?

C’est ce que nous appelons la densité des mots clés – une mesure d’optimisation de contenu largement utilisée du passé.

Mais s’appuyer sur la densité des mots clés me fait penser que le mot «être» (et non «TF-IDF») est le plus important de cet article.

Existe-t-il un moyen d’ajuster mes calculs pour le fait que certains mots apparaissent plus fréquemment dans le discours en général?

C’est là que TF-IDF entre en jeu, nous permettant de voir comment la fréquence d’utilisation de «TF-IDF» dans cet article se compare à sa fréquence d’utilisation moyenne dans d’autres documents sur le Web.

Ainsi, nous pouvons accorder moins d’attention à tous les mots couramment utilisés et distinguer un sujet très spécifique pour un élément de contenu particulier.

La formule de mes calculs ressemble à ceci:

Ou, pour le dire simplement (avertissement: je simplifie exagérément volontairement ici pour transmettre l’idée de base), nous prenons:

Fréquence du terme = (nombre de termes) / (nombre total de mots dans le document)Fréquence inverse du document = journal (nombre de documents) / (documents contenant un mot clé)

Lorsqu’elle est multipliée par la fréquence inverse du document, la fréquence du terme diminue pour les mots couramment utilisés et augmente pour les termes uniques d’identification de sujet.

Revenons à notre exemple, le verbe «être» est utilisé dans chaque article en anglais. Mais très peu d’articles mentionnent “TF-IDF”, “mots-clés”, “contenu” et autres sous-thèmes importants que je couvre dans mon article.

Donc, TF-IDF pour ces termes devient plus élevé et… le tour est joué! La machine sait de quoi parle mon article.

Généralement, TF-IDF est utilisé lorsque nous avons besoin d’une machine pour identifier les sujets d’un vaste ensemble de documents. Par exemple, il est largement appliqué dans les systèmes de recommandation des bibliothèques numériques.

Google utilise-t-il TF-IDF comme signal de classement?

La réponse courte est non.”

TF-IDF est désigné dans un certain nombre de brevets Google comme quelque chose que le moteur de recherche peut utiliser pour supprimer les mots vides, qui consiste à se débarrasser de tous les mots de fonction dans une requête de recherche et dans le contenu de la page:

Mais l’utilisation de ce mécanisme exact pour identifier et comparer la pertinence est très peu probable.

Tout simplement parce qu’il est un exemple de mécanisme de recherche lexicale, TF-IDF est incapable de regarder au-delà des mots clés.

Le modèle considère les mots clés comme des chaînes de caractères et ne peut pas identifier les relations sémantiques entre eux, contrairement aux modèles de recherche sémantique les plus probablement utilisés par Google.

En d’autres termes, TF-IDF lui-même est ne pas un signal de classement qui détermine la position de votre page.

Il n’y a aucune valeur TF-IDF attendue que vous devez faire correspondre pour chaque mot clé de votre contenu. Et vous feriez mieux de fuir quiconque essaie de vous convaincre du contraire.

Recherche sémantique et co-occurrences

Ainsi, Google est passé à la recherche sémantique, essayant de faire correspondre la signification d’une requête de recherche à un contenu d’actualité, par opposition à la correspondance des mots clés de la requête avec les mêmes mots clés sur les pages.

En pratique, cela signifie qu’au lieu de compter les mots clés eux-mêmes, Google a commencé à compter les cooccurrences, en utilisant le contexte environnant pour comprendre leur signification.

Par exemple, supposons que vous rencontriez les phrases suivantes et que vous ne savez pas ce qu’un truite est:

La truite est riche en acides gras oméga-3. La truite a une chair tendre et une saveur douce et légèrement noisette.Lors du choix de la truite, nous prêtons attention à une couleur rouge-orange claire.

Et vous rencontrez également les éléments suivants. Je suppose que la plupart des lecteurs savent ce qu’un Saumon est:

Le saumon est un type de poisson populaire dans la cuisine occidentale, qui se marie bien avec le vin blanc.La viande de saumon tendre peut être ajoutée aux pâtes.La peau du saumon est super riche en nutriments, alors gardez-la pourquoi vous cuisinez.

Le fait que la truite se produit avec des mots comme oméga-3, chair et pâtes pourrait suggérer que la truite est une sorte de poisson comestible similaire en quelque sorte au saumon.

Sur la base de cette simple compréhension du contexte, Google est en mesure de construire un système élaboré de vecteurs de mots, utilisé pour comprendre les requêtes des utilisateurs et la pertinence du contenu.

Et même si je ne vous dis pas et que je devrais essayer de procéder à une rétro-ingénierie de l’ensemble du système vectoriel, donner plus de signaux de pertinence en enrichissant votre contenu avec plus de cooccurrences semble logique (et, comme le montrent plusieurs études de cas, influence vraiment le classement Google) .

Comment TF-IDF peut-il aider votre référencement?

Trouver des termes concomitants est exactement là où TF-IDF entre en jeu.

Bien sûr, nous n’avons pas accès à chaque page Web, comme le fait Google. Mais pourquoi en aurions-nous besoin?

Pour obtenir toute une liste d’idées de cooccurrence, il suffit parfaitement de regarder un tas de pages (disons 20 à 30).

Et la beauté est que l’utilisation de TF-IDF n’est pas sorcière. Tout ce que vous avez à faire tient en trois étapes simples.

1. Écrivez votre contenu

Je ne vous exhorte pas à faire de TF-IDF le but de votre contenu.

En fin de compte, une écriture non naturelle ne sera tout simplement pas convertie, même si la page se classe bien et génère le trafic nécessaire.

Donc, tout d’abord, vous vous asseyez et écrivez sur tout ce que vous avez sur votre plan de contenu.

2. Branchez un outil TF-IDF

La plupart des outils que j’ai vus fonctionnent de manière assez similaire.

Vous saisissez une URL et les mots clés pour lesquels vous souhaitez l’optimiser. L’outil vérifie ensuite les pages qui se classent sur Google pour ce mot clé, analyse leur contenu, calcule TF-IDF pour tous les termes qu’il trouve et compare vos statistiques de contenu à celles de vos concurrents.

Avec des outils de base, comme Seobility, vous obtiendrez une liste à mot clé unique.

Si vous utilisez WebSite Auditor, Ryte ou Text Tools de SEO PowerSuite, vous aurez également une liste de phrases clés (ou N-grammes, si vous aimez un peu la science), qui est certainement plus informative. (Divulgation: je travaille pour SEO PowerSuite.)

3. Enrichissez votre contenu avec les suggestions de cooccurrence TF-IDF

Certaines phrases seront simplement synonymes de ce que vous avez déjà dans votre contenu.

Le cas échéant, essayez de les utiliser en cours de route.

Certaines phrases indiqueront les nouveaux sujets qui ne vous ont pas encore traversé l’esprit.

Passez en revue les idées et réfléchissez aux moyens de les utiliser dans votre contenu (sans vous obséder).

TF-IDF pour la recherche de mots clés

Un petit conseil bonus.

Récupérer les termes les plus utilisés dans le contenu de vos concurrents peut également stimuler de nouvelles idées dans votre recherche de mots clés et votre planification de contenu, en particulier lorsque vous ressentez le besoin d’une réflexion et d’une inspiration prêtes à l’emploi.

Conclusion

Plusieurs fois, vous verrez TF-IDF utilisé comme appât de clic – des articles promettant que la formule soit “algorithme Google rétro-conçue” ou “brisant le mythe de TF-IDF”.

Mais je vous encourage à prendre les choses pour ce qu’elles sont et à utiliser les opportunités offertes par l’optimisation TF-IDF. Sans miser l’intégralité de votre campagne SEO dessus.

Davantage de ressources:

Crédits d’image

Image vedette: Créé par l’auteur, octobre 2019
Toutes les captures d’écran prises par l’auteur, octobre 2019