Entretien avec le directeur de la division de recherche de Seznam

Comme nous le savons tous, Google n'est pas le seul moteur de recherche utilisé par les utilisateurs du monde entier et doit faire face à la concurrence de certains pays, tels que Yandex et Baidu.

Il existe toutefois un autre moteur de recherche en concurrence avec Google – un moteur que la plupart des professionnels du référencement ne rencontrent jamais, car il est limité au marché tchèque, Seznam.

Seznam a été fondé en 1996 par Ivo Lukačovič et a atteint un pic vers 2010 lorsqu'il a été estimé que la population de la République tchèque de l'époque (10,5 millions) visitait le moteur de recherche une fois par mois, voire plus souvent. Toutefois, depuis 2010, Google a acquis une position de leader sur le marché.

Contrairement à d'autres marchés, Seznam et ses différents produits détiennent toujours une part de marché importante (environ 30% du marché de la recherche et du traitement de 15 millions de requêtes par jour).

L’optimisation du moteur doit toujours être prise en compte lors de l’entrée en République tchèque.

Pour tout moteur de recherche en concurrence avec Google, comprendre votre approche de la bataille peut s'avérer utile (en tant que référencement) dans vos propres processus de réflexion et de pensée critiques.

Tomáš Pergler, directeur de la division de recherche de Seznam

Pour mieux comprendre l’approche de Seznam, j’ai eu la chance de poser à Tomáš Pergler, directeur de la division de recherche de Seznam, quelques questions sur l’approche de Seznam en matière de recherche moderne et sur la façon dont son moteur de recherche traite les sites Web modernes utilisant JavaScript.

De nombreuses sources externes attribuent à Seznam une part de marché de 11% sur le marché tchèque des moteurs de recherche, contre environ 30% en janvier 2010. Où se situe Seznam sur le marché en termes de part de marché? Dusan Janovsky a déjà cité 25%, est-ce toujours exact?

Tomáš Pergler (TP): C'est difficile à dire, car Google ne publie pas ses numéros en République tchèque.

Nous supposons que nous avons environ 30% de partage sur les ordinateurs de bureau, mais que nous perdons sur les appareils mobiles. Il est très difficile pour nous de concurrencer Google car ses applications sont préinstallées sur tous les appareils Android.

Au début de cette année, l'agence de publicité Evisions a publié son étude de cas sur la manière dont ses clients utilisent Google et Seznam. C’est uniquement en tchèque, mais je suis sûr que vous pourrez comprendre les graphiques.

Lorsque nous (en tant que professionnels du référencement) parlons de l'optimisation de sites Web, nous avons tendance à nous concentrer sur trois domaines principaux, à savoir les liens de retour, technique et contenu. Sans dévoiler les secrets de l’algorithme de Seznam, pouvez-vous nous expliquer comment Seznam attribue ces facteurs et établit son système de classement?

TP: À un certain niveau d'abstraction, nous divisons le problème de la pertinence et le hiérarchisons en trois dimensions essentielles: précision, utilité et qualité.

Précision traite du sujet de la requête de l'utilisateur, du document ou du site Web et de la correspondance entre eux.Utilité signifie à quel point le résultat donné pourrait être utile pour la plupart des utilisateurs. Certains résultats peuvent être précis mais inutiles – produits en rupture de stock, actualités obsolètes, texte manquant, etc.Qualité traite de la convivialité, de la navigation, de la structure d’information et de la crédibilité. Certains résultats peuvent être précis et utiles, mais de qualité médiocre.

Fondamentalement, nous classons chaque document ou document de requête dans les trois dimensions indépendamment.

La précision et l'utilité sont basées sur des documents de requête, ils doivent donc être évalués dans un délai de requête.

La qualité peut être évaluée immédiatement après le téléchargement du document car il s’agit uniquement d’une classification basée sur les documents.

Chaque classificateur utilise des fonctionnalités spécifiques:

Les caractéristiques des graphiques de liens sont essentielles pour leur utilité et leur qualité. La taille du texte est l'une des caractéristiques importantes de son utilité. Dans la plupart des cas, le corps du texte vide est inutile.HTTPS a une certaine importance pour la qualité.Les fonctionnalités de rétroaction de l'utilisateur sont puissantes pour la prédiction de la qualité.Les fonctionnalités basées sur le dictionnaire sont solides en termes d'utilité et de qualité.

Les résultats visibles dans le SERP étant supposés être précis et utiles, nous les classons principalement en fonction de la qualité.

Backlinks ont une importance générale pour nous. Chaque dimension les utilise de manière différente. Lors de la prévision de l'exactitude, nous devons savoir en quoi consiste la page ou le site.

Backlinks contiennent les informations sur la façon dont les utilisateurs se souviennent du site. Les informations du texte d'ancrage sur une page très visitée sont précieuses, car beaucoup de gens l'utilisent pour la navigation.

C’est pourquoi nous avons besoin de backlinks pour les requêtes de navigation. Cependant, plus de backlinks ne signifie pas plus de précision.

L'utilité est une tâche entièrement différente. Les caractéristiques du graphe de liens sont importantes ici, c'est pourquoi les liens fonctionnent en référencement. Mais il ne devrait pas s'agir simplement de plus de backlinks = de meilleurs classements.

Historiquement, nous avons eu recours à certains mécanismes pour prédire quels liens sont bons ou naturels et lesquels sont mauvais, mais c’est une tâche très compliquée et il pourrait y avoir de meilleurs moyens.

Les liens directs et indirects provenant de sites Web hautement crédibles peuvent avoir une incidence positive sur le niveau de qualité de la cible. Les sites Web hautement crédibles ne vendent pas souvent de backlinks; par conséquent, ils fournissent une confiance qui se propage à travers le graphe de liens.

Lorsqu'il s'agit de précision, un contenu lui-même est la source d'informations la plus facilement disponible. Il nous dit essentiellement de quoi parle la page.

Un titre de page et une extraction avancée du corps du texte sont essentiels. Nous utilisons des fonctions de notation similaires à BM25 et nous nous concentrons sur le tchèque.

Dans quelle mesure Seznam est-il capable de traiter les sites Web JavaScript?

TP: Nous expérimentons depuis quelque temps déjà avec le rendu de pages Web – il y a plusieurs années, chaque extrait de code dans le SERP contenait une vignette de page (il ne s'agissait que d'une fonction de "conception").

De nos jours, nous utilisons le rendu de page Web pour une meilleure compréhension du contenu et de la présentation de la page Web.

Actuellement, cela se fait uniquement sur de faibles volumes d’analyses, principalement pour les articles de presse. À partir d'une page rendue, nous pouvons extraire très précisément le texte principal, l'image principale ou la date de publication de l'article.

À l'avenir, nous souhaitons augmenter et équilibrer le ratio trafic de crawling rendu par rapport à la consommation du budget d'analyse du robot d'exploration.

Désormais, une analyse de rendu moyenne d'une page Web consomme des dizaines de requêtes GET par rapport à une requête GET pour une analyse non rendue.

Nous utilisons la dernière version stable de chrome (actuellement 73.x) pour le rendu de la page, ce qui signifie que notre robot d'exploration obtient les mêmes résultats qu'un utilisateur réel.

L’utilisation de la technologie mobile dans les déterminations de classement de Seznam est-elle déterminante?

TP: Notre classificateur de qualité actuel ne fait pas la distinction entre ordinateur de bureau et mobile, mais nous préparons une nouvelle évaluation de la qualité.

Nos évaluateurs évalueront la qualité directement sur leur téléphone portable. Sur la base de ce type de données, nous allons probablement trouver de nouvelles fonctionnalités. Nous prévoyons de les intégrer à notre modèle de classement d’ici la fin du troisième trimestre de 2019.

À quelle fréquence Seznam met-il à jour ses critères de classement / algorithmes?

TP: L'année dernière, nous avons complètement reconstruit notre principal modèle de pertinence. Une fois que. Ensuite, il y a eu quelques modifications mineures au cours de l'année.

Notre équipe a grandi et cette année, nous voulons aller plus vite.

Comment Seznam gère-t-il un site Web international (c'est-à-dire un site avec plusieurs versions linguistiques, tchèque inclus)?

TP: Le moteur de recherche SeznamBot se concentre sur les pages que nos utilisateurs peuvent éventuellement rechercher. Cela signifie qu’il cherche en premier lieu sur le Web des pages en langue tchèque.

SeznamBot explore également d'autres pages pour permettre au moteur de recherche de répondre à des requêtes «globales» – par exemple: navigation vers des sites internationaux, sociétés internationales, programmation, vidéos, réseaux sociaux, etc., de sorte qu'il explore également le Web international.

Si certains sites Web servent du contenu dans plusieurs langues sur les mêmes URL, le robot d'exploration ne dispose que d'une version linguistique – de préférence tchèque.

Si les versions linguistiques sont accessibles via différentes URL, SeznamBot peut alors explorer plusieurs versions linguistiques des pages, par exemple le même contenu sur Wikipedia en tchèque, slovaque et anglais.

SeznamBot rencontre-t-il des problèmes avec l'exploration de sites Web non tchèques?

TP: Malheureusement, nous rencontrons de graves problèmes d’accès lorsque nous explorons le Web international. Le nombre croissant de sites Web tend à bloquer tout le trafic, à l'exception de GoogleBot.

Par exemple, nous avons récemment communiqué avec ProjectHoneyPot.org pour l’ajouter à la liste blanche des adresses IP de nos robots d’exploration, car SeznamBot est un robot d'exploration de moteurs de recherche standard et son blocage n'apporte aucun avantage.

Ce serait formidable si cet article incite les webmasters à autoriser SeznamBot à accéder à leurs sites. Il pourrait donc susciter des visites d'utilisateurs en République tchèque.

Ou du moins pour leur montrer qu'il est utile d'avoir un contact technique dans la section commentaires du fichier robots.txt sur leur site Web.

Laissant de côté la recherche, quelle est la popularité des autres actifs de Seznam (tels que Novinky, Sreality, Mapy)?

TP: Seznam.cz touche 95% de la population Internet tchèque. Plus de 3,5 millions de personnes visitent notre page d'accueil chaque jour et en l'espace de deux ans, nous avons réussi à attirer près d'un million de visiteurs par jour sur SeznamZpravy.cz (notre propre service de nouvelles).

Certains points forts de nos produits plus vastes incluent:

Email.cz – Le service de messagerie facilite 71,5 millions de courriels par jour.Firmy.cz – Firmy est un catalogue structuré d’entreprises avec des informations de contact et des critiques répertoriant plus de 670 000 entreprises.Kupi.cz – Un répertoire en ligne de codes de réduction et de bons de réduction, avec plus de 10 000 réductions et 300 circulaires publicitaires par jour.Mapy.cz – En tant que fournisseur de cartes, jusqu’à 1 million d’utilisateurs par jour pendant la saison touristique.Novinky.cz – Le site de presse tchèque en ligne le plus populaire, avec 57% du marché de la lecture de nouvelles en ligne.Sport.cz – Le site Web sportif le plus visité en République tchèque, avec plus de 1 600 articles et 160 flux en ligne quotidiennement.Stream.cz – Un service de streaming de télévision en ligne, avec plus de 35 millions de visionnements par mois.

Plus de ressources:

Crédits d'image

Image de Tomas Pergler dans ihned.cz, avril 2019

Nous remercions également Seznam, Tomáš Pergler et Aneta Kapuciánová d'avoir facilité l'entretien.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *