Back to Question Center
0

Semalt Elaborates On URLitor - Ferramenta de extracción de datos e ferramenta de extracción de datos moi doada

1 answers:

URLitor é unha ferramenta nova e eficaz de extracción de datos e rascado. Para usar URLitor, só precisa engadir unha lista de todas as URLs do contido que desexa raspar en liña no modelo proporcionado. Entón tes que especificar o elemento HTML que queres extraer das páxinas web e fai clic no botón Enviar. É tan fácil como iso. Con esta ferramenta, non fai falta facer unha copia ou pegar desde o navegador.

xPath é un idioma que se usa para buscar información en ficheiros XML. Utiliza determinadas expresións para seleccionar conxuntos de nodos ou nodos en ficheiros XML. As expresións que XPath entende son bastante similares ás que se usan cos ficheiros ou documentos normais da computadora.

Aínda que XPath úsase con varios idiomas de programación, esta ferramenta foi construída para usuarios que non teñen ningún coñecemento de programación. Entón, non necesita ser un programador para facer uso dela. Con esta ferramenta, pode extraer datos de varias páxinas HTML e XML.

Por simplicidade de uso, varias expresións XPath usadas con frecuencia foron predefinidas nun menú despregable para que os usuarios só teñan que seleccionar calquera deles segundo o seu obxectivo. Non obstante, os usuarios altamente experimentados de XPath teñen a liberdade de usar as súas expresións personalizadas sempre que queiran..

A ferramenta foi deseñada con capacidade para 100 URL nunha única sesión de raspado e leva un máximo de 10 expresións á vez. Noutras palabras, pode raspar datos dun máximo de 100 URL ao mesmo tempo.

Algunhas expresións personalizadas XPath importantes que poden ser modificadas ou engadidas foron esbozadas a continuación:

1. // div [2] - Esta expresión selecciona a segunda div xerárquicamente;

2. // enlace [@ rel = 'canonical'] / @ href - Esta expresión selecciona a localización (ref) da etiqueta que se usa para Establecer o atributo de rel equivalente ao canónico;

3. / html / head / meta [@ name = 'description'] / @ content - Esta expresión úsase para seleccionar contido;

4. // * [@ class = 'class-name'] - Pode usar esta expresión para seleccionar todos os elementos con 'nome de clase' como Clase CSS;

5. // h2 | // título - Esta expresión pódese empregar para seleccionar tanto o primeiro título H2 como a páxina;

6. // * [nome

= 'h1' ou nome

= 'título'] - Esta expresión funciona exactamente como a anterior. Non obstante, a expresión presentada anteriormente é mellor xa que é máis curta;

7. // * [contén (@class, 'thumb')] - Esta expresión selecciona cada elemento que ten clase CSS e tamén contén "miniatura" para a extracción;

8. // pai: * [texto

= 'Benvido'] - Esta expresión selecciona o pai de calquera elemento que teña o texto "Benvido ';

Esta ferramenta é unha versión Beta e aínda pode funcionar con algúns erros. Non obstante, aínda é unha gran ferramenta para os usuarios con pouco ou ningún coñecemento de programación xa que todas as expresións usadas con frecuencia foron predefinidas nun menú como se mencionou anteriormente.

1 week ago
Semalt Elaborates On URLitor - Ferramenta de extracción de datos e ferramenta de extracción de datos moi doada
Reply