Il n'y a pas si longtemps, mes collègues et moi dans Advanced Web Ranking avaient développé une étude HTML basée sur quelque 8 millions de pages d'index compilées à partir des vingt résultats principaux de Google pour plus de 30 millions de mots clés.
Nous avons écrit sur les résultats marqués et sur la manière dont les vingt pages principales des résultats de Google les mettent en œuvre, puis sommes allés encore plus loin et avons obtenu des informations sur l'utilisation du HTML dans ceux-ci.
Qu'est-ce que cela a à voir avec le référencement?
La façon dont le HTML est écrit dicte ce que les utilisateurs voient et comment les moteurs de recherche interprètent les pages Web. Une page HTML valide et correctement formatée réduit également les erreurs d’interprétation (de données structurées, de métadonnées, de langage ou de codage) par les moteurs de recherche.
Il s’agit d’un audit technique de référencement, ce que nous voulions faire depuis le début: une ventilation de l’utilisation du HTML et un rapport entre les résultats obtenus et les techniques de référencement modernes et les meilleures pratiques.
Dans cet article, nous aborderons des éléments tels que les balises méta comprises par Google, les données JSON-LD structurées, la détection de la langue, l'utilisation de vedettes, les liens sociaux et la méta-distribution, AMP, etc.
Meta tags que Google comprend
Quand on parle des principaux moteurs de recherche en tant que sources de trafic, malheureusement, seuls Google et les autres, Duckduckgo gagnant de la puissance ces derniers temps et Bing presque inexistante.
Dans cette section, nous allons donc nous concentrer uniquement sur les balises méta répertoriées par Google dans le centre d'aide de la console de recherche.
SELECTOR
COUNT
4 391 448
374 649
13 831
Aux extrêmes, nous avons trouvé 685 341 méta-éléments contenant moins de 30 caractères et 1 293 842 éléments dont le texte de contenu contient plus de 160 caractères.
Le titre ] n'est techniquement pas une balise méta, mais elle est utilisée ensemble to avec meta name = "description".
Il s'agit de l'une des deux balises HTML les plus importantes en matière de référencement. C'est également une obligation en vertu du W3C, ce qui signifie qu'aucune page n'est valide sans balise titre manquant.
Les recherches suggèrent que si vous conservez vos titres avec moins de 60 caractères raisonnables, vous pouvez vous attendre à ce que vos titres soient affichés correctement dans les SERP. Dans le passé, il y avait des indications que la longueur du titre des résultats de recherche Google avait été allongée, mais il ne s'agissait pas d'un changement permanent.
Compte tenu de tout ce qui précède, sur les 6 263 396 titres que nous avons trouvés, 1 846 642 balises de titre semblent trop longues (plus de 60 caractères) et 1 985 020 titres avaient une longueur jugée trop courte (moins de 30 personnages).
SELECTOR
COUNT
* [1 9659027] 6 263 396
manque l’étiquette
1 285 738
Une autre chose intéressante est que, parmi les sites classés dans le Les pages 1 à 2 de Google, 351 516 (~ 5% du total 7,5 millions) utilisent le même texte pour t Titre et h1 dans ses pages d'index.
De plus, saviez-vous qu'avec HTML5, il vous suffit de spécifier le type de document HTML5 et un titre pour avoir une page parfaitement valide?
red
«Ces balises méta peuvent contrôler le comportement du suivi et de l'indexation sur les moteurs de recherche. La balise Meta des robots s'applique à tous les moteurs de recherche, tandis que la balise Meta "googlebot" est spécifique à Google. "
- Les balises Meta que Google comprend
SELECTOR | COUNT |
---|---|
1 577 202 | |
] | 139,458 |
Les méta-directives robot fournissent donc des instructions aux moteurs de recherche sur la manière de suivre et d’indexer le contenu d’une page. Mis à part l’objectif de comptage de googlebot qui est un peu bas, nous étions curieux de voir les paramètres de robot les plus fréquents, étant donné qu’une grosse erreur est d’ajouter une balise méta de robot dans la tête de votre code HTML. meilleur:
SÉLECTEUR | COUNT |
---|---|
632 822 | |
180 226 | |
115,128 | |
. [1 9659228] 83 639 |
“Lorsque les utilisateurs effectuent une recherche sur votre site, les résultats de recherche Google affichent parfois un champ de recherche spécifique pour votre site, ainsi que d'autres liens directs vers votre site. Cette balise META indique à Google de ne pas afficher le champ de recherche des liens de sites. ”
- Les balises META comprises par Google
SELECTEUR | COUNT |
---|---|
1 263 |
Comme prévu, peu de sites ont choisi explicitement d'indiquer à Google de ne pas afficher de zone de recherche pour les liens de sites. Votre site apparaît dans les résultats de recherche.
"Cette balise META indique à Google que vous ne souhaitez pas que nous fournissions une traduction pour cette page." - Meta tags que Google comprend
Il peut arriver que vous ne vouliez pas fournir votre contenu à un groupe beaucoup plus large d'utilisateurs. Comme il est indiqué dans la réponse précédente au service d'assistance de Google, cette balise META indique à Google que vous ne souhaitez pas qu'ils fournissent une traduction pour cette page.
SELECTEUR | COUNT |
---|---|
7 569 |
"Vous pouvez utiliser cette balise sur la page de niveau supérieur de votre site pour vérifier la propriété de Search Console."
- Meta tags que Google comprend
SELECTEUR | COUNT |
---|---|
1 327 616 |
Tandis que nous en parlions, saviez-vous que si vous êtes un propriétaire vérifié d'une propriété Google Analytics, Google vérifiera automatiquement ce même site Web dans la console de recherche?
"Cela définit le type de contenu de la page et le jeu de caractères."
- Les balises META comprises par Google
Il s'agit fondamentalement de l'une des bonnes balises META. Définissez le type de contenu et le jeu de caractères de la page. En prenant en compte le tableau ci-dessous, nous notons que près de la moitié des pages d'index analysées définissent un méta-jeu de caractères.
SELECTOR | COUNT |
---|---|
3.909.788 |
"Cette balise META envoie l'utilisateur vers une nouvelle URL après un certain temps et est parfois utilisée comme une simple forme de redirection."
- Balises META qui Google comprend
Il est préférable de rediriger votre site à l’aide d’une redirection 301 plutôt que d’une méta-mise à jour, en particulier lorsque nous supposons que les redirections 30x ne perdent pas le PageRank et que le W3C recommande de ne pas utiliser cette balise. est un fanatique et vous recommande d’utiliser une redirection côté serveur 301.
SELECTOR | COUNT |
---|---|
7,167 |
Sur un total de 7,5 millions de pages indexées, 7 167 pages ont été trouvées avec le mot clé Méthode de redirection précédente Les auteurs ne contrôlent pas toujours les technologies côté serveur et utilisent apparemment cette technique pour autoriser les redirections côté client. e.
En outre, l'utilisation de Workers est une alternative de pointe pour résoudre les problèmes rencontrés lors du travail avec des piles de technologies héritées et des limitations de plates-formes.
“Cette balise indique au navigateur comment représenter une page sur un appareil mobile. La présence de cette balise indique à Google que la page est adaptée aux appareils mobiles. "
- Balises méta que Google comprend
SELECTOR | COUNT |
---|---|
4 992 791 |
Au 1er juillet 2019, Tous les sites ont commencé à être indexés à l'aide de la première indexation mobile de Google. Lighthouse vérifie s'il existe une balise meta name = "viewport" dans l'en-tête du document. Cet objectif doit donc être Sur chaque page Web, quel que soit le framework ou le CMS que vous utilisez.
Compte tenu de ce qui précède, nous nous attendions à plus de sites Web que les 4 992 791 des 7,5 millions de pages d'index analysées qui utilisent un [goalname méta]. = "viewport" valide dans ses sections principales.
Les sites respectueux de la conception des appareils mobiles garantissent que vos pages fonctionnent correctement sur tous les appareils. Assurez-vous donc que votre site Web est compatible. e avec les appareils mobiles ici.
"Identifiez une page comme contenant du contenu réservé aux adultes, pour indiquer qu'elle sera filtrée par les résultats de SafeSearch."
- Meta tags que Google comprend
SELECTOR | COUNT |
---|---|
133 387 | |
Cette balise indique le degré de maturité du contenu. Il n'a pas été ajouté aux balises méta que Google comprenait jusqu'à récemment. Voir cet article de Kate Morris sur la façon de baliser le contenu réservé aux adultes.
Données structurées JSON-LD
Les données structurées sont un format normalisé permettant de fournir des informations sur une page et de classer le contenu de cette page. Le format des données structurées peut être Microdata, RDFa et JSON-LD; Tout cela aide Google à comprendre le contenu de votre site et à activer des fonctionnalités spéciales de résultats de recherche pour vos pages.
Tout en conversant avec l'incroyable Dan Shure il a eu la bonne idée de rechercher des données structurées, telles que le logo de l'organisation, les résultats de la recherche et le graphe de connaissances.
Dans cette section, nous utiliserons JSON-LD (notation d'objet JavaScript pour les données liées) uniquement pour collecter des informations de données structurées. C’est ce que Google recommande quand même de fournir des indices sur la signification d’une page Web.
Quelques informations utiles à ce sujet:
- Dans Google I / O 2019, il a été annoncé que l'outil de test de données structurées serait remplacé par le riche outil de test de résultats.
- Googlebot indexe désormais les pages Web à l'aide de la dernière version de Chromium, au lieu de l'ancienne version de Chrome 42, ce qui signifie qu'elle peut également atténuer les problèmes de référencement rencontrés dans le passé, avec un support structuré.
- Jason Barnard a eu une conférence intéressante à SMX Londres 2019 sur le fonctionnement du classement dans la recherche Google. Selon sa théorie, nous pouvons compter sur sept facteurs de classement; Les données structurées en font certainement partie.
- Le guide de Builtvisible sur les microdonnées, JSON-LD et Schema.org contient tout ce que vous devez savoir sur l'utilisation de données structurées sur votre site Web.
- Voici un guide étonnant pour JSON-LD destiné aux débutants de Alexis Sanders .
- Enfin, de nombreux articles, présentations et publications vous permettront de vous immerger dans le site officiel JSON for Linking Data.
L'étude HTML Advanced Web Ranking est basée uniquement sur l'analyse de page d'index. La chose intéressante est que, bien que cela ne soit pas mentionné dans les instructions, Google ne semble pas s'inquiéter des données structurées sur les pages d'index, comme indiqué dans une réponse de Stack Overflow de Gary Illyes il y a plusieurs années. Cependant, dans les types de données structurés JSON-LD compris par Google, nous avons trouvé un total de 2 727 045 fonctionnalités:
FONCTIONS DE DONNÉES STRUCTURÉES
COUNT
Article [19659103] 35 961
Breadcrumb
30 306
Livre
143
Carrousel
13.884
. ] 2,740
Jeu de données
28
] Classification globale de l'employeur
7
Evénement
1 8.385
Vérification des faits
7
Foire aux questions
16
Instructions
8
Publication de travail [19659102] 355
Live Streaming [19659102] 232
Entreprises locales
200 974
Logo
442 324
Support
1 274
Profession
0
Produit
16,090
Questions et réponses page ] 20
Recette
434
Fragment de révision
72 732
Boîte de recherche pour le lien de site
1 354 754
Profil social
478,099
Application logicielle [19659102103] 780
780
780
Talkable
516
Contenu de souscription et de paiement
363
Vidéo
14,349
rel = canonical
rel = canonical, souvent appelé "lien canonique", est un élément HTML qui aide le Les webmasters évitent les problèmes de contenu en double. Pour ce faire, spécifiez "l'URL canonique", la version "préférée" d'une page Web.
SELECTEUR | COUNT |
---|---|
3 183 575 |
meta name = "keywords" [19659004] Il n'est pas nouveau que soit obsolète et Google ne l'utilise plus. Il semble également que soit un signal de spam pour la plupart des moteurs de recherche.
"Bien que les principaux moteurs de recherche n'utilisent pas de méta-mots-clés pour le classement, ils sont très utiles pour les moteurs de recherche du site comme Solr."
- JP Sherman sur les raisons pour lesquelles cet objectif obsolète pourrait encore être utile aujourd'hui.
SELECTEUR
COUNT
2 577 850
256 220
14 127
Manchettes
- JP Sherman sur les raisons pour lesquelles cet objectif obsolète pourrait encore être utile aujourd'hui.
SELECTEUR | COUNT |
---|---|
2 577 850 | |
256 220 | |
14 127 |
Dans les 7,5 millions de pages, ] h1 (59,6%) et h2 (58,9%) font partie des vingt-huit éléments utilisés dans la plupart des pages. Malgré tout, après avoir réuni tous les titres, nous trouvons que h3 est le titre qui compte le plus grand nombre de participations: 29 565 562 h3s sur un total de 70 428 376 titres trouvés.
Faits aléatoires: [19659091] Les éléments h1 - h6 représentent les six niveaux de titres de section. Voici les statistiques complètes sur l’utilisation des vedettes, mais nous trouvons également 23 116 de h7s et 7 276 de h8s . C'est drôle parce que beaucoup de personnes n'utilisent même pas très souvent h6s .
Balises alt manquantes
Cet éternel problème de référencement et d'accessibilité semble toujours être courant après l'analyse de cet ensemble de données. Sur un total de 669 591 743 images, près de 90% ne possèdent pas l'attribut alt ou ne l'utilisent pas avec une valeur vide.
SELECTEUR
COUNT
img
669 591 743
img alt = "*
79,953,034
img alt =" "19659103] 42 815 769
img w / missing alt
546 822 940
Détection de la langue
Selon les spécifications, les informations sur la langue spécifiées via un agent utilisateur peuvent utiliser l'attribut lang pour contrôler le rendu de plusieurs manières. .
La partie qui nous intéresse ici concerne "aider les moteurs de recherche".
"L’attribut lang HTML est utilisé pour Indiquez la langue du contenu du texte sur le Web. Ces informations aident les moteurs de recherche à renvoyer des résultats spécifiques à une langue. Elles sont également utilisées par les lecteurs d'écran qui modifient les profils de langue pour fournir l'accent et la prononciation corrects. "
- Léonie Watson
Il y a quelque temps, John Mueller a déclaré que Google ignore l'attribut HTML lang et a recommandé l'utilisation du lien hreflang à la place. La documentation de la console de recherche Google indique que Google utilise des balises hreflang pour faire correspondre la préférence de langue de l'utilisateur à la variation correcte de ses pages.
Nous sommes allés un peu plus loin et avons recherché ces nouvelles valeurs d'attributs de lien, en trouvant 278 rel = "sponsorisé" et 123 rel = "ugc". Pour nous assurer que nous disposons des données pertinentes pour ces requêtes, nous mettons à jour le jeu de données des pages d'index spécifiquement deux semaines après l'annonce de Google à ce sujet. Ensuite, en utilisant les métriques d’autorité de Moz, nous classifions les principales URL qui utilisaient au moins l’une des paires rel = "sponsorisée" ou rel = "ugc":
- https://www.seroundtable.com/ [19659092] https://letsencrypt.org/
- https://www.newsbomb.gr/
- https://thehackernews.com/
- https://www.ccn.com/
- https: //www.chip.pl/
- https://www.gamereactor.se/
- https://www.tribes.co.uk/
AMP
Pages mobiles accélérées (AMP) ) sont une initiative de Google qui vise à accélérer le Web mobile. De nombreux éditeurs rendent leur contenu disponible parallèlement au format AMP.
Pour que Google et les autres plates-formes soient au courant, vous devez associer des pages AMP et non-AMP.
Parmi les millions de pages que nous avons vues, nous n'avons trouvé que 24 807 pages non-AMP faisant référence à leur version AMP avec rel = amphtml.
Social
Nous voulions savoir à quel point un site Web est partageable ou social, alors sachant que Josh Buchea a dressé une liste impressionnante de tout ce qui pourrait figurer dans l'en-tête de votre page Web, nous avons extrait les sections sociales et obtenu les numéros suivants:
Facebook Open Graph
SELECTEUR
COUNT [19659231] metaproperty = "fb: app_id" content = "*" 277,406
metaproperty = "og: url "content =" * "
2 909 878
metaproperty =" og: type "content =" * "
2 660 215
metaprop iedad = "og: title" content = "*"
3 050 462
metaproperty = "og: image" content = "*"
2 603 057 [19659028] metaproperty = "og: image: alt" content "" * "
54 513
metaproperty =" og: description "content =" * "
1 384 658
metaproperty =" og: site_name "content =" * "
2 618,713
metaproperty =" og: locale "content =" * "
1 384 658
metaproperty =" article: auteur "content =" * "
14 289
graphique de la carte Twitter
SELECT | COMPTAGE | ||||||
---|---|---|---|---|---|---|---|
6180313 | |||||||
5214768 | |||||||
1148828 | |||||||
1019970 [19659017] Apparemment, de nombreux sites Web sont toujours liés à vos profils Google+, ce qui est probablement un oubli compte tenu de la fermeture peu récente de Google+. rel = prev / nextSelon Google, l'utilisation de rel = prev / next n'est plus un signal d'indexation, comme annoncé plus tôt cette année: «Lors de l'évaluation de nos signaux d'indexation, Nous avons décidé de prendre notre retraite rel = prev / next. Des études montrent que les utilisateurs aiment le contenu d'une seule page, soulignez-le lorsque cela est possible, mais plusieurs parties valent également pour Google Search. " Cependant, dans le cas où Bing dit les utiliser comme indices pour la découverte de pages et la compréhension de la structure du site. «Nous les utilisons (comme la plupart des marques) comme indices pour Découverte de pages et compréhension de la structure du site À ce stade, nous ne fusionnons pas les pages de l'index et nous n'utilisons pas prev / next dans le modèle de classement. ” Cependant, voici les statistiques d'utilisation que nous avons trouvées en consultant des millions de pages d'index:
C'est tout!Savoir à quoi ressemble un site Web moyen en utilisant des données provenant d’environ 8 millions de pages d’index peut nous donner une idée plus précise des tendances et nous aider à visualiser l’utilisation courante du HTML dans les techniques de référencement modernes et émergentes. Mais cela peut être une saga sans fin: bien qu'il y ait beaucoup de chiffres et de statistiques à explorer, il reste encore beaucoup de questions à résoudre:
Nous aimerions également aborder d'autres points, tels que les valeurs de "temps jusqu'au premier octet" (TTFB), qui sont fortement corrélées avec la classification ; Je recommande fortement HTTP Archive pour cela. Ils surveillent régulièrement les principaux sites Web et enregistrent des informations détaillées sur presque tout. Selon les informations les plus récentes, ils ont analysé 4 565 694 sites Web uniques avec les partitions complètes de Lighthouse et des technologies particulières mémorisées telles que jQuery ou WordPress pour l’ensemble des données. Un grand soutien pour Rick Viscomi qui fait un travail incroyable en tant qu '"administrateur", comme il se dit lui-même. La réalisation de cette étude à grande échelle a été un voyage amusant. Nous avons beaucoup appris et espérons que les chiffres précédents sont aussi intéressants que nous. Si vous souhaitez voir les numéros d'une étiquette ou d'un attribut particulier, faites-le moi savoir dans les commentaires ci-dessous. Encore une fois, regardez les résultats complets de l'étude HTML et dites-moi ce que vous en pensez! [ad_2] |