scraper

n8n node for advanced web scraping with multiple extraction modes

Package Information

Downloads: 0 weekly / 26 monthly
Latest Version: 1.0.4
Author: n8n

Documentation

n8n-nodes-scraper

Este paquete contiene un nodo para n8n que permite realizar web scraping avanzado con múltiples modos de extracción.

Smart Scraper

El nodo Smart Scraper permite extraer contenido de páginas web con diferentes estrategias:

Modos de extracción

  • rawHtml: Devuelve el HTML completo de la página
  • text: Extrae solo el texto de la página
  • article: Extrae el contenido principal de un artículo (título, autor, fecha, contenido)
  • product: Extrae información de productos (nombre, precio, descripción, imágenes)
  • seo: Extrae metadatos SEO (título, descripción, palabras clave, OG/Twitter)
  • reviews: Extrae reseñas y valoraciones

Características principales

  • Parseo de JSON-LD (Article, Product, Reviews)
  • Extracción de metadatos SEO (OG/Twitter)
  • Extracción de headings y enlaces
  • Fallbacks automáticos cuando la extracción principal falla
  • Estrategias de fetch: HTTP directo o Render endpoint para sitios con JavaScript
  • Headers personalizables, timeout, retries
  • Respeto de robots.txt
  • Selector CSS "best-effort"
  • Paginación básica
  • Retorno binario del HTML
  • Usable como herramienta en otros nodos

Instalación

  1. Ir a Configuración > Comunidad de nodos
  2. Buscar "scraper"
  3. Hacer clic en Instalar

Uso

Añade el nodo "Smart Scraper" a tu flujo de trabajo y configura la URL y el modo de extracción deseado.

Discussion