Durante el último año, el Instituto Nacional de Estadística ha estado recurriendo a técnicas de ‘web scraping’ (es decir, de extracción automatizada de datos a partir del contenido visible de páginas web) para descargar información que le permitiera estimar el número de viviendas turísticas existentes en nuestro país.

Desde finales de 2019, este organismo público ha incorporado proyectos de ‘estadística experimental’ para incorporar nuevas fuentes de datos, un paso necesario ante la tradicional negativa de las grandes plataformas del campo de la vivienda turística a compartir información.


De hecho, la propia Airbnb afirmaba hace un mes lo siguiente en el folleto de su salida a Bolsa:

«Si una nueva regulación nos obliga a compartir datos de anfitriones con una ciudad, los ingresos caerán porque habrá anfitriones que no quieran y se vayan de la plataforma».

En cuanto al web scraping, eran otro tipo de organizaciones (empresas como AirDN o DataHippo, o proyectos abiertos —y, por ello, no siempre exhaustivos a nivel geográfico—) quienes acostumbraban a recurrir a esta técnica para recopilar los datos sobre pisos turísticos.

Pero ahora, el proyecto técnico del INE (PDF) resalta la necesidad de que la Admón. Pública cuente con su propia información actualizada sobre este campo para analizar mejor su impacto y optimizar la normativa.

Para ello, se ha estado aplicando el web scraping a las webs de Airbnb, Vrbo y Booking. Ha facilitado el proceso el hecho de que el esquema de funcionamiento de las tres webs era muy similar, al disponer de «un motor de búsqueda con las siguientes celdas a completar»:

  • Destino/Nombre del alojamiento.
  • Fecha de entrada y de salida.
  • Número de huéspedes.

Esto ha permitido al INE descargar distintas variables categorizadas por zonas, que recogen la información básica de todos los alojamientos presentes en las mismas:

«Durante el presente año se ha realizado una descarga completa para cada una de las plataformas obteniendo más de 100.000 alojamientos para todas ellas».

Vía | ElDiario.es