Ya he aprendido otra cosa :D

por Áureo Ares

Filtros Bloom escalables.

abril 7th, 2014

Hace dos semanas publiqué un ejemplo de filtro Bloom básico. En mis aventuras con web scraping el que realmente uso es una versión escalable ya que suele ser muy difícil estimar el número máximo de enlaces que voy a necesitar almacenar.

No existe (que yo sepa) un modo de aumentar el tamaño del array de bits de un filtro Bloom una vez que ya se han empezado a añadir elementos. El modo de implementar un filtro escalable no es ni más ni menos que utilizar más de un filtro a la vez.

Filtros Bloom en web scraping.

marzo 24th, 2014

En mis aventuras con web scraping me encontré con un problema muy común al detectar automáticamente las URLs:

Cuando sabes lo que buscas es muy fácil fabricar un listado de URLs que necesitas revisar. Puede incluso ser una sola URL. Sin embargo, cuando necesitas ir detectando sobre la marcha nuevas URLs tienes que guardar un registro de las que ya has visitado. De lo contrario te encontrarás visitando las mismas páginas enlazadas entre sí una y otra vez hasta el fin de los tiempos.