Comment créer un Spider Web

Une toile d'araignée est une application informatique qui télécharge une page Web, puis suit tous les liens sur cette page et les télécharge ainsi. araignées Web sont utilisés pour stocker des sites Web pour une lecture hors ligne, ou pour le stockage des pages Web dans les bases de données qui seront utilisés par un moteur de recherche. Création d'une toile d'araignée est une tâche difficile, approprié pour une classe de programmation de niveau collégial. Ces instructions supposent que vous avez une expérience de programmation solide, mais pas connaissance de l'architecture d'araignée. Les étapes exposent une architecture très spécifique pour écrire une toile d'araignée dans la langue choisie.

Choses que vous devez

  • navigateur Web qui répond à des commandes de programmation
  • Langage de programmation avec des fonctions d'accès en lecture-écriture du disque et la base de données

Instructions

  1. Initialiser votre programme avec la page Web initiale que vous souhaitez télécharger. Ajouter l'URL de cette page à un nouveau tableau d'URL de base de données.




  2. Envoyer une commande pour le navigateur Web lui ordonnant d'aller chercher cette page web, et l'enregistrer sur un disque. Déplacez le pointeur de la base de données d'un pas passé l'URL que vous venez de télécharger, qui va maintenant pointer vers la fin de la table.

  3. Lire la page Web dans le programme, et de l'analyser pour les liens vers des pages Web supplémentaires. Cela se fait généralement par la recherche de la chaîne de texte "http: //," et capturer le texte entre cette chaîne et un caractère de terminaison (tels que " ", "."Ou "gt;"). Ajouter ces liens vers la base de données d'URL table- le pointeur de la base de données doit rester en haut de cette nouvelle liste.

  4. Testez les entrées de la table de base de données pour l'unicité, et de supprimer toutes les URL qui apparaissent plus d'une fois.




  5. Si vous souhaitez appliquer un filtre d'URL (par exemple, pour empêcher le téléchargement de pages provenant de sites à différents domaines), l'appliquer maintenant à la table de base de données d'URL et de supprimer toutes les URL que vous ne souhaitez pas télécharger.

  6. Mettre en place une boucle de manière programmatique votre araignée revient à l'étape 2 ci-dessus. Cette façon récursive télécharger toutes les URL de vos rencontres d'araignée. Retrait URL en double assure que l'araignée correctement fin quand il atteint la dernière URL unique.

Conseils & Avertissements

  • Si vous utilisez un système d'exploitation Unix, consultez la documentation Unix (ou "pages de manuel") Pour friser et wget. Ces commandes comprennent de nombreuses options intégrées spidering, qui peut considérablement réduire le temps de programmation et de la complexité.
» » » » Comment créer un Spider Web