Ucademy

Sara

Qué es y cómo determinar las páginas web a las que realizar webcrawling.


Lección II: Web Crawling - pt.I

workcamps - Modulo 7.1.mp4

Material Complementario

Calendario clases en directo

¿Qué es la IA? Módulo 2

Definición y Evolución de la IA Módulo 2

Ejercicios prácticos Chat GPT 4 Módulo 2

Apuntes Módulo 3

Ejercicios Módulo 3

Infografías Módulo 3

Apuntes Módulo 4

Workcamp IA for Business

Módulo Web scraping (Con proyecto final)

la clase. Vamos a ver el componente de webcraper. sobre el mismo. Lo que vamos a aprender en esta sesión es qué es en qué consiste este tipo de de módulos de webscrapping. Qué consideraciones tenemos que tener en cuenta a la hora de utilizar este tipo de componentes, cuáles son sus limitaciones y cómo tenemos que organizar los proyectos de webscrapping para poder obtener la información de fuentes públicas de Internet. En primer lugar, comencemos con la definición de que es webscrapping. Pues es que a mí no deja de ser un código software que programa que programamos desarrollamos. etcétera, con el principal objetivo de acceder automáticamente a páginas webs que hay en Internet y guardar la información de las páginas web para posteriormente poder analizarla, mantener un histórico y poder explotar dicha información. Estos módulos de webscrapping también son conocidos, eh como Scrappers, crawlers o bots y el ejemplo más significativo, eh, probablemente sea el de los buscadores de Internet, como son Google, Bing, etcétera. um que por detrás lo que utilizan son este tipo de módulos de webscrapping para rastrear las páginas que hay en Internet, obtener la información de la misma, indexarla y luego, cuando nosotros realizamos búsquedas sobre estos buscadores, nos muestran las páginas web que mejor pueden responder o tener la información que nosotros deseamos y que puede responder a nuestra consulta. Otros ejemplos que quizás sean más específicos del uso de componentes de webscrapping, puedan ser los servicios que ofrecen diferentes entidades financieras, como por ejemplo, BBVA en en el que nos permiten valorar automáticamente un inmueble, dándoles únicamente la la información de dónde está ese inmueble, su dirección. En el caso de BBVA, por ejemplo, es el BBVA valora y cuando indicamos una dirección de un inmueble. nos indica de forma automática cuál puede ser su valor en el mercado inmobiliario y lo hace, entre otras cosas, utilizando información de anuncios de portales inmobiliarios que se han obtenido mediante módulos de webscrapping. Otro ejemplo concreto y que me gustaría enseñaros, eh? porque es muy ilustrativo. Es el de la página web idea lo que es un comparador de precios de productos, como podemos ver. pues aquí tienen un catálogo de productos que obtienen de forma automática mediante módulos de web scrapping y van rastreando las diferentes páginas web, las diferentes plataformas que venden este tipo de productos. como podemos ver aquí. y lo hacen de forma diaria y van obteniendo los precios que hay en esas plataformas para estos productos y nos ofrecen pues, eh, informaciones, eh? como estas gráficas de aquí que nos pueden servir para identificar si el precio, eh de uno de estos productos, eh, es bueno o no, no, eh, para poder identificar si, por ejemplo, una oferta realmente es una oferta o si hay otras plataformas. en las que podamos obtener ese producto por un precio menor. Entonces. Esta es una aplicación, por ejemplo, de módulo de web scrapping, que es bastante ilustrativa. y que utiliza esta plataforma para poder brindarnos este tipo de servicios. Una vez visto. en qué consiste el componente webscrapping que como vemos, lo que nos permite es obtener información de forma automática de fuentes de Internet. lo que vamos a ver si son las consideraciones que tenemos que tener en cuenta. para poder, eh utilizar este tipo de componentes. normalmente este tipo de páginas, eh o la mayoría de las páginas que ofrecen información que es valiosa, pues pueden ser suelen tener un archivo que es el robots. txt en el que establecen una serie de reglas que tienen que seguir estos módulos de web scrapping para acceder a la información. Vamos a ver un ejemplo de Airbnb. que vamos a ver a continuación y como podemos ver es la ruta principal de Airbnb barrarobots punto TXT Cualquier página importante um que se os pueda venir a la cabeza. Normalmente va a tener este fichero en la que establecen las reglas que deben de seguir estos módulos de webcrapping para obtener la información. y aquí podemos ver en concreto. Cuáles son las reglas? En este caso, por ejemplo, para el bot de Google, como decíamos antes, uno de los principales, eh? eh web scrappings, eh, que hay en el mundo es Google y aquí, por ejemplo, Airbnb lo que establece son las reglas que tiene que seguir el bot de Google para obtener la información de su página. eh, aquí podemos ver diferentes. eh reglas que establecen para bots o módulos de web scrapping en concreto y al final del todo. donde vemos este asterisco y USDI en dos puntos asterisco es para todos aquellos eh módulos de web scrapping que no se hayan mencionado anteriormente. eh? Probablemente si nosotros desarrollamos uno nuevo, pues tendremos que acogernos a las reglas que nos ponen aquí. y aquí lo que nos indican son a las rutas a las que podemos acceder mediante nuestro módulo de webscrapping y aquellas a las que no debemos acceder con nuestro módulo de webscrapping. y aquí nos listan todas aquellas rutas a las que no debemos acceder con este tipo de módulos. volviendo. a nuestra presentación. y ya teniendo en cuenta la primera consideración que es, eh, las reglas de acceso que tenemos que, eh tener en cuenta. a la hora de eh obtener información de forma automática en una página web. También tenemos que tener en cuenta que tenemos que seguir un ritmo de scrapping razonable. Por. Qué Porque las páginas webs al final lo que tienen es un servidor web que, eh responde a la demanda de esa página web y esa demanda, pues um suele um tratar de responder al número de usuarios que suelen acudir a esa página de forma concurrent, por así decirlo. Entonces, si nosotros desarrollásemos un bot y accedésemos de forma muy frecuente y hiciésemos muchísimas peticiones al servidor web. es probable que ese servidor no pueda dar respuesta al resto de usuarios que están accediendo a la página. por ello que podríamos estar provocando un ataque de denegación de servicio. Perdón. y lo que provocaríamos es, por ejemplo, no sé si os ha ocurrido, pero cuando accedes a una página web y aparece un error 500 es porque se ha caído el servidor se suele decir, se ha caído el servidor porque una de las posibles razones por las que ha ocurrido eso es porque haya un módulo de web scrapping que no haya tenido un ritmo de scrapping razonable. y el servidor web no haya sido capaz de eh poder dar respuesta a la demanda de los usuarios y a la demanda del modelo de web scrapping. Entonces el servidor se cae. Por tanto, es es lo de los temas que tenemos que tener en cuenta a la hora de programar nuestros módulos de webscrapping. Por último, otra consideración que tenemos que tener en cuenta es que si bien la información que hay en Internet. eh suele ser pública, por así decirlo, eh, puede tener propiedad intelectual, es decir, por ejemplo, en los medios digitales. Las noticias, eh, pues suelen ser suelen tener los medios propiedad intelectual sobre las mismas. De hecho, ehm de New York Times, eh recientemente. ha prohibido o ha bloqueado. al componente de web scrapping de OpenAI para que no pueda acceder a al contenido de de sus noticias para así que no pueda Open AI entrenar sus modelos utilizando los artículos de noticias de de New York Times. Pues esa es una medida que hay algunas páginas web que pueden adoptar para proteger su información y en este caso de New York Times lo ha hecho para evitar que OpenAI pueda utilizar. su contenido para entrenar sus propios modelos utilizando la información de sus noticias. Entonces. Estas son tres consideraciones que tenemos que tener muy en cuenta a la hora de crear nuestro módulo de webcrapple. Al igual que estas consideraciones, también tenemos que tener en cuenta las limitaciones que tienen este tipo de módulos que son tres principalmente. la primera son aquellas páginas que carguen contenido de forma dinámica. es decir, que la primera vez que accedes ehm. no esté todo el contenido ya cargado, sino que a medida que haces scroll va cargando contenido. esas páginas van a ser ciertamente complejas de obtener la información de las mismas. Un ejemplo puede ser Pinterest. y otras redes sociales. son también, eh, ejemplos muy ilustrativos. En este caso, en este tablón de animales. Si quisiésemos obtener fotografías de animales, pues tendríamos que ir haciendo scroll. para ir obteniendo fotografias. Como podéis ver cuando hemos hacido el tablón, pues todas estas fotografias que no se nos están cargando ahora no estaban entonces este tipo. de páginas web son más complejas de obtener la información de las mismas. otra limitación que tenemos es aquellas páginas web en las que aparecen los famosos capchas en las que nos piden identificar dentro una fotografía donde hay bicicletas, donde hay semáforos, etcétera. Esas son herramientas que lo que buscan es evitar que componentes de web scrubbing accedan a esas páginas web para obtener información. de aquellas páginas que cuentan con esta tecnología, pues van a ser mucho más complejas de obtener la información de la misma. Y por último, aquellas páginas web también que precisen de un login de usuario. Es decir, que necesitamos un usuario, una contraseña para poder acceder a la información también van a ser más complejas. Entonces, con estos criterios, lo que podemos hacer es sobre todo descartar qué páginas web no vamos a poder obtener información de forma automática. Por último, para organizar un proyecto de webscrapping, es decir, para establecer una estrategia de extracción de información de fuentes públicas de Internet. En primer lugar, tenemos que elegir qué información queremos y por tanto, de qué páginas web, de qué fuentes públicas queremos obtener la información. Y. Cómo podemos elegir esas fuentes? en función. como digo, de la información que queramos, podemos tener ya una idea de qué páginas web queremos visitar, pero tenemos que tener en cuenta tanto las consideraciones que hemos visto como las limitaciones. es decir, vamos a tener que analizar el robots. TXT para ver a qué rutas de esas páginas web podemos acceder. Vamos a tener que ver si esa información tiene propiedad intelectual y cómo vamos a utilizar esa información para ver si estaríamos incumpliendo. alguna normativa. y vamos a tener que ver las limitaciones. es decir, vamos a tener que ver que no tenga contenido que se carga dinámicamente. Vamos a tener que ver um que no necesitemos un usuario y contraseña para acceder a la información y que no haya cchas. y de esa forma podemos ya establecer cuáles son las fuentes a las cuales vamos a acceder. una vez escogía las fuentes. Pues vamos a ver también cómo vamos a extraer la información de cada una de ellas. y para eso vamos a necesitar analizar el mapa web de de la fuente. que ahora veremos un ejemplo con idealista y por último, la calendarización, es decir, cada cuánto tiempo voy a acceder a esa página web para extraer la información. que ese también es otro factor que tenemos que tener en cuenta para ver un ejemplo de cómo podemos analizar un mapa web, vamos a entrar a la web de idealista, que es uno de los principales portales inmobiliarios que hay en España. y esto es lo que podría ser un mapa web. Entonces aquí, en función de qué información queramos extraer, por poner un ejemplo, si queremos extraer información de um a inmuebles en alquiler en la ciudad de Jaén y en concreto, um voy a querer a aquellos que sean um viviendas, no? Pues entonces aquí podemos ver que idealista nos ofrece en el mapa web los diferentes enlaces a los cuales podemos acceder para obtener la información de los anuncios. y en concreto, aquí tendríamos la ciudad, bueno, la provincia de Jaén, aquelas viviendas que están en alquiler. Entonces aquí podríamos acceder y aquí nos ofrecería idealista todos los enlaces, todas las páginas de los municipios de la provincia de Jaén, en los cuales hay anuncios de viviendas en alquiler. y podríamos utilizar esta información para recoger todas las rutas que tenemos que visitar para obtener dicha información. y este sería un ejemplo. de cómo podemos analizar. esas páginas web y luego la calendarización que tendríamos que tener aquí en cuenta, pues probablemente en el caso de idealista pudiese ser una actualización diaria en el cual recogiésemos los anuncios que cada día se fuesen publicando sobre este portal.

**Resumen académico sobre el uso de módulos de web scraping****1. Definición y Funcionalidad del Web Scraping**El web scraping es un proceso mediante el cual se utiliza código software para acceder automáticamente a páginas web con el objetivo de extraer y almacenar información. Este proceso permite el análisis posterior de los datos recopilados, facilitando la creación de históricos y la explotación de la información. Los módulos de web scraping, también llamados scrapers, crawlers o bots, son utilizados por motores de búsqueda como Google y Bing para rastrear e indexar contenido en la web.**2. Aplicaciones Prácticas**Existen múltiples aplicaciones del web scraping en diferentes sectores. Por ejemplo, el BBVA utiliza esta técnica para valorar inmuebles basándose en datos extraídos de portales inmobiliarios. Otro caso ilustrativo es el de plataformas comparadoras de precios, que emplean módulos de web scraping para recopilar información de precios de productos en diversas páginas web, permitiendo a los usuarios identificar ofertas y comparar costos de manera efectiva.**3. Consideraciones para el Uso de Módulos de Web Scraping**Al implementar un módulo de web scraping, es crucial considerar varios aspectos:   **3.1. Reglas de Acceso (robots.txt)**   Las páginas web suelen tener un archivo llamado robots.txt que establece las reglas para el acceso automatizado. Este archivo indica qué rutas pueden ser accedidas por los bots y cuáles están restringidas.   **3.2. Ritmo de Scraping**   Es fundamental mantener un ritmo de scraping razonable para evitar sobrecargar los servidores web. Un acceso excesivo puede provocar la caída del servidor, lo que resulta en errores como el 500, indicando que el servidor no puede manejar la demanda.   **3.3. Propiedad Intelectual**   Aunque la información en Internet es mayormente pública, puede estar sujeta a derechos de propiedad intelectual. Ejemplos recientes incluyen la prohibición del New York Times a OpenAI para el acceso a su contenido, resaltando la importancia de respetar las normativas de uso de datos.**4. Limitaciones del Web Scraping**El uso de módulos de web scraping también presenta limitaciones:   **4.1. Contenido Dinámico**   Las páginas que cargan contenido dinámicamente, como Pinterest, complican la extracción de datos, ya que requieren interacción para cargar más información.   **4.2. CAPT

Consideraciones y Aplicaciones del Webscraping: Definición y Normativas en el Desarrollo de Proyectos

Consideraciones y Aplicaciones del Webscraping: Definición y Normativas en el Desarrollo de Proyectos

Resumen con marca de tiempo

¡Ey! Que seguro que esta no es la única duda que tienes...