Filtros Bloom en web scraping.

En mis aventuras con web scraping me encontré con un problema muy común al detectar automáticamente las URLs:

Cuando sabes lo que buscas es muy fácil fabricar un listado de URLs que necesitas revisar. Puede incluso ser una sola URL. Sin embargo, cuando necesitas ir detectando sobre la marcha nuevas URLs tienes que guardar un registro de las que ya has visitado. De lo contrario te encontrarás visitando las mismas páginas enlazadas entre sí una y otra vez hasta el fin de los tiempos.

Si sabemos que serán pocas las URLs a visitar, esto no es un gran problema. Simplemente nos guardamos una lista de las que vamos visitando y nos aseguramos de no repetir. El problema está cuando nos enfrentamos a sitios web muy grandes de los que necesitamos revisar una gran cantidad de páginas. Entonces eso de tener la lista de URLs en memoria se convierte rápidamente en una mala idea.

En estos casos, si las URLs en sí son relevantes (es decir, si cada URL es un dato que necesitas guardar por alguna otra razón) seguramente necesites una base de datos. Pero si lo único que necesitas saber es si ya has visitado antes una URL, los filtros Bloom son una opción increíblemente eficiente y rápida.

Bonita historia, pero ¿qué es un filtro Bloom?

No lo voy a explicar en profundidad ya que aparece muy bien explicado en la Wikipedia (inglés), incluyendo muchas referencias interesantes al final del artículo. De modo que comentaré lo más importante.

Las características principales de los filtros Bloom son las siguientes:

Tiene un cierto margen de error (falsos positivos), calculable y ajustable.
Al buscar un elemento, un resultado negativo significa que con toda seguridad no está en la lista.
Un resultado positivo significa que un elemento probablemente está en la lista (debido a la posibilidad de falsos positivos).
Requiere muy poco espacio en memoria y las consultas son muy rápidas.

El funcionamiento es muy sencillo, para implementarlo necesitaremos:

Encontrar una implementación ya realizada que nos guste (nos parezca apropiada) y podamos utilizar (licencia), en cuyo caso ya habremos terminado :D.

Una lista de elementos binarios (bit array).
Una o más funciones de hashing.

En mi caso necesitaba una implementación en Python ya que es el lenguaje que suelo utilizar para las tareas de scraping. La implementación de pybloom la verdad es que no me gustó nada y no encontré ninguna otra que me sirviese. De modo que opté por hacerme la mía.

La elección de la función de hashing es muy importante. El requisito indispensable es que sea uniforme (todos los posibles valores tienen la misma probabilidad de aparecer como resultado) y determinista (un mismo valor de entrada genera siempre el mismo valor de resultado). También es importante, aunque no imprescindible, que sea no criptográfica. Las funciones de hashing criptográficas están muy bien para otros usos, pero son más lentas (este es uno de los principales inconvenientes que le veo a pybloom). No soy ningún experto en hashing, pero leyendo un poco la que más me convence por el momento es MurmurHash3.

Resumiendo, para la implementación en Python utilicé lo siguiente:

# Requiere instalar previamente bitarray y mmh3 (murmurhash3)
# sudo pip install bitarray
# sudo pip install mmh3

from bitarray import bitarray
import mmh3
from math import log, ceil

# Requiere instalar previamente bitarray y mmh3 (murmurhash3)

# sudo pip install bitarray

# sudo pip install mmh3

from bitarray import bitarray

import mmh3

from math import log, ceil

Añadir un elemento al filtro:

Para añadir un elemento realizaremos varios hashes del mismo. Se pueden utilizar distintas funciones de hashing o una sola función con diferentes semillas. Teniendo ya una función que me gusta y sin saber cuántos hashes diferentes voy a necesitar, me parece más lógico utilizar una sola con diferentes semillas:

# hash_count = número de hashes a realizar.
# size = tamaño del bitarray.
for seed in xrange(hash_count):
	position = mmh3.hash(element, seed) % size
	bit_array[position] = 1
element_count += 1

# hash_count = número de hashes a realizar.

# size = tamaño del bitarray.

for seed in xrange(hash_count):

position = mmh3.hash(element, seed) % size

bit_array[position] = 1

element_count += 1

Los hashes mmh3 son numéricos, de modo que se pueden ajustar al tamaño del bitarray calculando el “módulo” (resto de división) con el operador “%”. El resultado es la posición del bitarray que marcamos a 1.

Buscar un elemento en el filtro:

Buscar un elemento en el filtro es muy parecido, simplemente comprobamos las posiciones que corresponderían al elemento que estamos buscando.

# hash_count = número de hashes a realizar.
# size = tamaño del bitarray.
for seed in xrange(self.hash_count):
	position = mmh3.hash(element, seed) % self.size
	if self.bit_array[position] == 0:
		return False
return True

# hash_count = número de hashes a realizar.

# size = tamaño del bitarray.

for seed in xrange(self.hash_count):

position = mmh3.hash(element, seed) % self.size

if self.bit_array[position] == 0:

return False

return True

Imagen extraída de la Wikipedia, donde se muestra la idea básica de un filtro Bloom utilizando 3 hashes para cada elemento.

El tamaño del bitarray y el número de hashes:

La mayoría de implementaciones que encontré eran clases cuyo constructor recibía como parámetros el tamaño del bitarray y el número de hashes a utilizar. Aunque se puede utilizar de esta manera, en la práctica creo que es mucho más cómodo especificar lo que realmente me importa: el número de elementos que quiero guardar y el margen de error que estoy dispuesto a permitir.

Para esto es necesario calcular el tamaño del bitarray y el número de hashes necesarios para poder almacenar el número de elementos que queremos con un margen de error menor o igual al especificado. Las fórmulas y su explicación se pueden ver también en la Wikipedia, pero escritas en Python serían algo así:

# capacity = número de elementos a guardar.
# error_rate = tasa de error, entre 0 (0%) y 1 (100%). Por ejemplo, 0.01 sería un 1%.
def calc_size():
	return int(ceil(- (float(capacity) * log(float(error_rate))) / (log(2))**2))

# Para calcular el número de hashes tenemos que haber calculado primero el tamaño del bitarray.
# size = tamaño del bitarray.
def calc_hash_count():
	return int(ceil((float(size) / float(capacity)) * log(2)))

# capacity = número de elementos a guardar.

# error_rate = tasa de error, entre 0 (0%) y 1 (100%). Por ejemplo, 0.01 sería un 1%.

def calc_size():

return int(ceil(- (float(capacity) * log(float(error_rate))) / (log(2))**2))

# Para calcular el número de hashes tenemos que haber calculado primero el tamaño del bitarray.

# size = tamaño del bitarray.

def calc_hash_count():

return int(ceil((float(size) / float(capacity)) * log(2)))

Utilizo la función “ceil” para asegurarme de que se cumplen los requisitos (redondeando hacia arriba).

Uniones e intersecciones:

Algo que no he visto hasta la fecha en ninguna implementación de filtros Bloom, al menos en Python, son las operaciones de unión e intersección entre dos filtros (desde el punto de vista de teoría de conjuntos). Son increíblemente fáciles de implementar y en concreto la unión de filtros me ha resultado bastante útil.

Las intersecciones también pueden ser útiles, pero en mi caso (pocos o ningún elemento en común) los resultados no me han parecido lo bastante fiables.

Más abajo en el código final de la clase se puede ver la implementación de estas dos operaciones, pero es tan sencillo como realizar las operaciones a nivel de bit AND (&) y OR (|) entre los dos bitarray.

Mi implementación:

Esta es la clase que me hice. No es la que uso actualmente ya que más tarde hice un filtro Bloom escalable, más avanzado, que detallaré en otro artículo ya que este me está quedando más grande de lo que esperaba.

Los filtros Bloom tienen una infinidad de utilidades. Cabe destacar que esta clase fue creada específicamente para cubrir mis necesidades, por lo que hay algunas decisiones de implementación (como permitir añadir más elementos aunque el filtro esté al máximo de capacidad o devolver un valor vacío si no se puede realizar una unión) que pueden no ser buenas en otros contextos.

#!/usr/bin/python
# -*- coding: utf-8 -*-
#

# Requires bitarray and mmh3 (murmurhash3)
# sudo pip install bitarray
# sudo pip install mmh3

from bitarray import bitarray
import mmh3
from math import log, ceil

class BloomFilter:

        def __init__(self, capacity, error_rate):
                if not capacity > 0: raise ValueError("capacity must be > 0")
                if not (0 < error_rate < 1): raise ValueError("error_rate must be between 0 and 1.")
capacity.
                self.capacity = capacity
                self.element_count = 0
                self.error_rate = error_rate
                self.size = self.calc_size()
                self.hash_count = self.calc_hash_count()
                self.bit_array = bitarray(self.size)
                self.bit_array.setall(0)

        def add(self, element):
                for seed in xrange(self.hash_count):
                        position = mmh3.hash(element, seed) % self.size
                        self.bit_array[position] = 1
                self.element_count += 1

        def lookup(self, element):
                for seed in xrange(self.hash_count):
                        position = mmh3.hash(element, seed) % self.size
                        if self.bit_array[position] == 0:
                                return False
                return True

        def union(self, b):
                if self.size != b.size: return None
                if self.hash_count != b.hash_count: return None
                result = BloomFilter(self.capacity, self.error_rate)
                result.bit_array = self.bit_array | b.bit_array
                result.element_count = self.element_count + b.element_count
                return result

        def intersection(self, b):
                if self.size != b.size: return None
                if self.hash_count != b.hash_count: return None
                result = BloomFilter(self.capacity, self.error_rate)
                result.bit_array = self.bit_array & b.bit_array
                result.element_count = result.calc_element_count()
                return result

        def is_full(self):
                if self.element_count < self.capacity: return False
                else: return True

        def calc_size(self):
                return int(ceil(- (float(self.capacity) * log(float(self.error_rate))) / (log(2))**2))

        def calc_hash_count(self):
                return int(ceil((float(self.size) / float(self.capacity)) * log(2)))

        def calc_error_rate(self, use_capacity = False):
                if use_capacity: n = float(self.capacity)
                else: n = float(self.element_count)
                return (1.0 - (1.0 - 1.0 / float(self.size)) ** (float(self.hash_count) * n)) ** float(self.hash_count)

        def calc_element_count(self):
                x = float(self.bit_array.count())
                return int(ceil(- (float(self.size) * log(1.0 - (x / float(self.size)))) / float(self.hash_count)))

        def __contains__(self, string):
                return self.lookup(string)

#!/usr/bin/python

# -*- coding: utf-8 -*-

# Requires bitarray and mmh3 (murmurhash3)

# sudo pip install bitarray

# sudo pip install mmh3

from bitarray import bitarray

import mmh3

from math import log, ceil

class BloomFilter:

def __init__(self, capacity, error_rate):

if not capacity > 0: raise ValueError("capacity must be > 0")

if not (0 < error_rate < 1): raise ValueError("error_rate must be between 0 and 1.")

capacity.

self.capacity = capacity

self.element_count = 0

self.error_rate = error_rate

self.size = self.calc_size()

self.hash_count = self.calc_hash_count()

self.bit_array = bitarray(self.size)

self.bit_array.setall(0)

def add(self, element):

for seed in xrange(self.hash_count):

position = mmh3.hash(element, seed) % self.size

self.bit_array[position] = 1

self.element_count += 1

def lookup(self, element):

for seed in xrange(self.hash_count):

position = mmh3.hash(element, seed) % self.size

if self.bit_array[position] == 0:

return False

return True

def union(self, b):

if self.size != b.size: return None

if self.hash_count != b.hash_count: return None

result = BloomFilter(self.capacity, self.error_rate)

result.bit_array = self.bit_array | b.bit_array

result.element_count = self.element_count + b.element_count

return result

def intersection(self, b):

if self.size != b.size: return None

if self.hash_count != b.hash_count: return None

result = BloomFilter(self.capacity, self.error_rate)

result.bit_array = self.bit_array & b.bit_array

result.element_count = result.calc_element_count()

return result

def is_full(self):

if self.element_count < self.capacity: return False

else: return True

def calc_size(self):

return int(ceil(- (float(self.capacity) * log(float(self.error_rate))) / (log(2))**2))

def calc_hash_count(self):

return int(ceil((float(self.size) / float(self.capacity)) * log(2)))

def calc_error_rate(self, use_capacity = False):

if use_capacity: n = float(self.capacity)

else: n = float(self.element_count)

return (1.0 - (1.0 - 1.0 / float(self.size)) ** (float(self.hash_count) * n)) ** float(self.hash_count)

def calc_element_count(self):

x = float(self.bit_array.count())

return int(ceil(- (float(self.size) * log(1.0 - (x / float(self.size)))) / float(self.hash_count)))

def __contains__(self, string):

return self.lookup(string)

El código completo comentado, incluyendo la versión escalable, está alojado en Google Code.

Ya he aprendido otra cosa :D

por Áureo Ares

Bonita historia, pero ¿qué es un filtro Bloom?

Añadir un elemento al filtro:

Buscar un elemento en el filtro:

El tamaño del bitarray y el número de hashes:

Uniones e intersecciones:

Mi implementación:

Leave a Comment or Cancel reply

Ya he aprendido otra cosa :D

por Áureo Ares