Qu’est-ce qu’un crawler ?

crawler

Un web crawler est un programme automatisé ( ou un script) qui va scanner (« to crawl » en anglais) l’ensemble des pages Internet dans le but de créer un index de données le plus exhaustif possible. On entend parfois parler de « web spider », « web robot », « crawler » ou encore « automatic indexer » pour désigner ces web crawler.

Les moteurs de recherche ont recours aux web crawlers pour déterminer ce qui est disponible sur les pages web. A l’origine, les web crawlers étaient utilisés pour collecter des données permettant à l’internaute qui entrait un terme dans un moteur de recherche d’être directement redirigé vers des sites web de grande qualité.

Dès lors qu’un moteur de recherche parcourt une page web, il passe en revue le contenu de l’article, du texte, des liens, des mots clé etc. Avec toutes ces informations, le moteur de recherche sera alors en mesure de déterminer le sujet du site et ainsi, il pourra indexer les données. Le site web en question sera ensuite enregistré dans la base de données du moteur de recherche et dans son programme de classement.

crawler Mais il arrive parfois que ce soient des professionel du web qui décident d’utiliser un web crawler, et ce, pour plusieurs raisons. La principale d’entre elles étant de réaliser une analyse de texte. Les référenceurs s’en serviront quant à eux afin de dégager des tendances dans les marchés. Toute personne recherchant des informations sur Internet est susceptible d’utiliser un crawler.

Un web crawler a, en général, une durée de vie déterminée. Si vous souhaitez en faire un usage plus poussé, il vous faudra alors le programmer de telle sorte qu’il parcourt les pages web périodiquement afin de constater les changements qui ont eu lieu. Le web crawling est une méthode excellente pour ne pas perdre le rythme face à la vitesse de profusion des informations sur Internet, leur ajout, suppression ou leur modification. C’est le web crawling qui permet, en somme, de certifier de la mise à jour des données sur le web. Chaque moteur utilise son propre crawler pour maintenir son index à jour afin que vous ne tombiez pas sur une page qui n’existe plus ou dont le contenu ne correspond plus à votre recherche.

Retour au Glossaire