Table of Content

[Explained] Comment fonctionne un moteur de recherche?

[ad_1]



Vous êtes-vous déjà demandé comment fonctionne un moteur de recherche? Nous utilisons les moteurs de recherche autant que nous appelons, texte ou conduire. Mais comment fonctionnent-ils? Le but de cet article est d'essayer d'expliquer les concepts de base d'un moteur de recherche à l'aide d'exemples simples et clairs.

Un moteur de recherche comprend trois opérations importantes:
Web
ramper
Indexation
et classement
.

Suivi Web


Un robot ou une araignée est une partie automatisée
logiciels qui systématiquement (sur la base de règles logiques ou probabilistes) surfe sur Internet et
recueille des informations (documents) à utiliser dans le processus d'indexation à l'avenir. Un vrai
Une analogie globale serait de visiter chaque arrêt de bus (site web) le
votre ville de résidence (site Web) et prenez une photo de l’horaire des bus à
chacun s'arrête (rassemble le contenu pour l'index) puis visite une autre ville et fait exactement la même chose.

Un moteur de recherche comme
Google dispose de nombreux robots Web (connus sous le nom de Googlebots, le cas échéant) car il existe
Des milliards et des milliards de pages sur Internet. L'exploration Web est sans fin
processus puisque Internet est en croissance constante. Les moteurs de recherche modernes aussi
suivre d'autres types de documents et de supports et pas seulement des pages Web.

Aller à chaque arrêt de bus dans chaque grande ville serait un
La tâche est ardue et, par conséquent, les robots d'exploration du Web fonctionnent en parallèle (tout en prenant des photos des horaires d'autobus à Toronto, votre ami fait exactement la même chose à Montréal au même moment).

Le processus d'exploration Web commence généralement par une liste d'URL.
de pages Web généralement générées à partir du processus de suivi Web précédent. Le web
Le tracker visite chacune de ces pages Web et détecte les liens vers d'autres pages Web.
Ces liens récemment détectés sont ajoutés à la liste des pages à suivre.

Le traqueur
Il enregistre également le contenu de la page Web pour pouvoir l'indexer ultérieurement. Le web
le processus d'exploration se termine lorsqu'il n'y a plus de pages Web à explorer ou lorsqu'un
La condition algorithmique est remplie. "Il suffit d'explorer 1 000 pages Web dans les 24 heures à venir" est un exemple de
condition algorithmique


Indexation


Une fois que le robot d'indexation Web a terminé la collecte de contenu
processus, la table d'index doit être créée ou mise à jour. Une table d'index
il est utilisé en raison des avantages qu'il offre en termes de rapidité lors du retour au moteur de recherche
résultats pour l'utilisateur. Le processus de création ou de mise à jour d’une table d’index est
généralement un long processus; cependant, cela est acceptable car le processus est caché
de l'utilisateur

Les principales étapes pour créer un index sont les suivantes:

1. Ranger
Les documents renvoyés par le robot Web. Supposons le web
le traqueur n'a renvoyé que les documents suivants:

2. Enlever
mots vides et signes de ponctuation des documents. Les mots vides sont extrêmement
Mots courants en anglais tels que "a", "the" et "or". Ces mots sont
supprimé pour améliorer l'efficacité du moteur de recherche au retour
les résultats.
Ils sont aussi appelés "mots courants".


3. Supplémentaire
Le traitement linguistique est complété en transformant chaque mot en son mot racine.
Par exemple, "télécharger" pour "télécharger" ou "amis" sur "ami" ou "enfants" sur
"enfant" Ce processus s'appelle "renvoi".

4. Créez un index de termes contenant le document et la fréquence d'affichage du mot. Vous trouverez ci-dessous un échantillon de l'index basé sur le contenu précédent:

Cet exemple est une méthode d'indexation très simple. Les moteurs de recherche actuels utilisent des techniques plus complexes. La fréquence d'un terme dans un document est une propriété importante; cependant, d'autres propriétés (telles que le positionnement d'un terme dans un document ou l'emplacement géographique du serveur qui héberge le document, l'âge du contenu) peuvent également être ajoutées à la table d'index.

Classification

Le processus de classification des documents se produit lorsque l'utilisateur entre des mots (la requête) dans le moteur de recherche et appuie sur OK. Supposons que l'utilisateur recherche la requête suivante "J'aime les puces humbles". De toute évidence, le moteur de recherche renvoie les documents D1 et D3, mais quel document est le plus pertinent pour l'utilisateur? Ce n'est pas un problème pour cet utilisateur car l'ensemble des documents est trop petit. Mais si ce n'est pas le cas?

Les moteurs de recherche classent aujourd'hui les documents à l'aide d'une technique sophistiquée basée sur de nombreux facteurs (sauce secrète) comme propriété de fréquence dans notre exemple précédent. L’ingénierie inverse de ces facteurs est ce que certains professionnels de la technologie et du marketing appellent l’optimisation des moteurs de recherche (SEO).

L'objectif d'un professionnel du référencement est d'exploiter ces facteurs, s'ils sont découverts, afin d'améliorer le classement d'une page Web. Malheureusement, de nombreuses sociétés de moteurs de recherche améliorent et affinent constamment leurs algorithmes de recherche. Cela rend les connaissances acquises dans l'industrie du référencement obsolètes.

Lectures supplémentaires


Voici une liste de lectures que vous pouvez effectuer si vous souhaitez plus d'informations sur le fonctionnement d'un moteur de recherche:

















[ad_2]

Post a Comment