Back to Question Center
0

Tutorial de rastreador web de Chrome desde Semalt Expert

1 answers:

Se está a usar Google Chrome, hai unha extensión para o seu navegador que pode axudar a raspar páxinas web. É coñecido como Scrapper, e pode usarse sen problemas. Scrapper axudará a raspar un contido do sitio web e subir os resultados a documentos de Google.

¿Como desechar un sitio web usando a extensión Scraper?

1. Seleccione Chrome Web Store en Google Chrome;

2. En extensións, realice unha busca de '' Scrapper '';

3. O primeiro resultado da busca é a extensión coñecida como '' Scrapper '';

4. Seleccione o botón enumerado como "Engadir a Chrome";

5. Volve á lista dos deputados do Reino Unido;

6. Faga clic no seguinte link ;

7. Agora busque un MP e asegúrese de que a entrada está marcada;

8. Fai clic co botón dereito para escoller "Scrape" Opción similar ... "

9. A consola para scrapper aparecerá noutra ventá;

10. Ver o contido rascado no rascador console;

11. Para garantir que o contido gárdase como unha folla de cálculo de Google, seleccione "Gardar en Google Docs ..."

Rasgado estendido

Antes de pegar a esta receita , é útil comprender os conceptos básicos do HTML. Por exemplo, pode ler unha breve introdución ao HTML a través desta ligazón

Imos imaxinar que estamos interesados ​​en todas as películas que protagonizaron Asia Argento, unha famosa actriz italiana.

1. Hai un arquivo moi detallado de actores no IMDB. O sitio de Asia Argento é: https://www.imdb.com/name/nm0000782/;

2. Aquí, podes ver todos os papeis tocados pola actriz..Empecemos a desmantelar a información que nos interesa;

3. Intente raspar como se describiu anteriormente;

4. Verás que a lista está un pouco distorsionada. Isto débese ao feito de que a lista aquí pode ser estruturada de forma diferente;

5. Diríxete á consola de rascado. Na parte superior esquerda, verás a pequena caixa que di XPath;

6. Xpath é un tipo de linguaxe de consulta que funciona para XML e HTML;

7. XPath pode axudar a localizar as partes da páxina en que interese. A seguinte cousa é atopar un elemento axeitado e escribir XPath para iso;

8. Agora imos organizar a nosa mesa;

9. Verás que o noso XPath existente, que ten todos os datos necesarios, é "// div [3] / div [3] / div [2] / div";

10. XPath informa ao Sistema para ver o documento HTML e escolle o terceiro elemento, entón o segundo elemento e todos eles;

11. Pero, queremos que os nosos datos sexan separados;

12. Utilice a sección de columnas na consola para o scrapper para facelo;

13. Primeiro atopemos o noso título РІР,“ Use Inspect Element para ver o título;

14. Comprobe o título dentro dunha etiqueta. Engade a etiqueta ao XPath;

15. A expresión parece funcionar de forma adecuada, así que faga a nosa primeira columna;

16. Na sección "Columnas", substitúa o nome da primeira columna a "título";

17. Agregue o XPath a este;

18. Na sección da columna, os XPaths son relativos e isto significa que "./b" escollerá o elemento

19. Na XPath para a columna título, engade "./b" e selecciona "raspar";

20. Agora imos seguir durante un ano. Os anos poden atoparse nun só lapso;

21. Cree unha nova columna seleccionando a pequena máis próxima á columna para o seu título;

22. Usando XPath "./span" crea unha columna para "ano";

23. Fai clic en raspar e ver como se engadiu o ano;

24. Feito!

1 week ago
Tutorial de rastreador web de Chrome desde Semalt Expert
Reply