Semalt partage un moyen facile d'extraire des informations de sites Web

Le Web Scraping est une méthode populaire pour obtenir du contenu à partir de sites Web. Un algorithme spécialement programmé arrive sur la page principale du site et commence à suivre tous les liens internes, assemblant les intérieurs des divs que vous avez spécifiés. En conséquence, un fichier CSV prêt à l'emploi contenant toutes les informations nécessaires se trouvant dans un ordre strict. Le CSV résultant peut être utilisé pour la création future de contenu presque unique. Et en général, en tant que tableau, ces données sont d'une grande valeur. Imaginez que la liste complète des produits d'un atelier de construction soit présentée dans un tableau. De plus, pour chaque produit, pour chaque type et marque de produit, tous les champs et caractéristiques sont renseignés. Tout rédacteur travaillant pour une boutique en ligne serait heureux d'avoir un tel fichier CSV.

Il existe de nombreux outils pour extraire des données de sites Web ou de scraping Web et ne vous inquiétez pas si vous n'êtes pas familier avec les langages de programmation, dans cet article, je vais vous montrer l'une des façons les plus simples - en utilisant Scrapinghub.

Tout d'abord, allez sur scrapinghub.com, inscrivez-vous et connectez-vous.

La prochaine étape concernant votre organisation peut être simplement ignorée.

Ensuite, vous accédez à votre profil. Vous devez créer un projet.

Ici, vous devez choisir un algorithme (nous utiliserons l'algorithme "Portia") et donner un nom au projet. Appelons cela quelque peu inhabituel. Par exemple, "111".

Nous entrons maintenant dans l'espace de travail de l'algorithme où vous devez taper l'URL du site Web dont vous souhaitez extraire les données. Cliquez ensuite sur "New Spider".

Nous allons passer à la page qui va servir d'exemple. L'adresse est mise à jour dans l'en-tête. Cliquez sur "Annoter cette page".

Déplacez le curseur de votre souris vers la droite pour faire apparaître le menu. Ici, nous sommes intéressés par l'onglet "Élément extrait", où vous devez cliquer sur "Modifier les éléments".

Pourtant, la liste vide de nos champs s'affiche. Cliquez sur "+ Champ".

Ici, tout est simple: vous devez créer une liste de champs. Pour chaque élément, vous devez saisir un nom (dans ce cas, un titre et un contenu), spécifier si ce champ est obligatoire ("Obligatoire") et s'il peut varier ("Varier"). Si vous spécifiez qu'un élément est "requis", l'algorithme sautera simplement les pages où il ne pourra pas remplir ce champ. S'il n'est pas signalé, le processus peut durer éternellement.

Maintenant, cliquez simplement sur le champ dont nous avons besoin et indiquez de quoi il s'agit:

Terminé? Ensuite, dans l'en-tête du site Web, cliquez sur "Enregistrer l'échantillon". Après cela, vous pouvez retourner à l'espace de travail. Maintenant, l'algorithme sait comment obtenir quelque chose, nous devons lui attribuer une tâche. Pour ce faire, cliquez sur "Publier les modifications".

Accédez au tableau des tâches, cliquez sur "Exécuter Spider". Choisissez le site Web, la priorité et cliquez sur "Exécuter".

Eh bien, le grattage est en cours. Sa vitesse est indiquée en pointant votre curseur sur le nombre de requêtes envoyées:

La vitesse de préparation des chaînes en CSV - en pointant un autre nombre.

Pour voir la liste des articles déjà fabriqués, cliquez simplement sur ce numéro. Vous verrez quelque chose de similaire:

Une fois terminé, le résultat peut être enregistré en cliquant sur ce bouton:

C'est ça! Vous pouvez désormais extraire des informations de sites Web sans aucune expérience en programmation.