使用普通集合来判断一个元素是否已存在于集合中,需要占用比较大的空间。而使用Bloom Filter 可有效节省空间。 Bloom Filter 以较少的内存占用及较小的误判率达到判断元素是否存已经加入集合中的目的。Bloom Filter是一种空间效率很高的随机数据结构,可以被看作是对位图的扩展.
基本思想
首先创建一个长度位m的位数组,初始化为全0.对集合S中的每一个元素,通过k个散列函数计算出k个bit位,将位数组中对应的位置1.那么,当判断一个元素是否存在于集合S中时,同样计算k个bit位,如果位数组中这k个位置任意一位是0,则该元素不在集合S中,如果全是1,则以较大概率认为存在于该集合中.因此存在一定的误判率(false positive rate).
误判率
插入一个元素后,某一特定比特位仍然为 0 的概率为\((1-{1\over m})^k\).
由于\[ \lim_{x\rightarrow\infty}(1-{1\over x})^{-x}=e \] 所以插入 n个元素后特定位仍为 0 的概率为\(p'=(1-{1\over m})^{kn}\approx e^{-{kn\over m}}\). p'同时是位数组中0的比例的数学期望.特定位被置为 1 的概率为:\(t=1-p'\).误判存在于k个独立hash函数的位都是1的情况,因此误判率为
\[ f=t^k\approx (1-e^{-{kn\over m}})^k \]从误判率公式可以看出,当位数组(桶)的位数越多时,误判率越小.而误判率与hash函数个数并非单调递减的关系.
最优散列函数个数
我们的目标是最小化误判率,因此最优的散列函数个数应使得误判率较小.
另\(p=e^{-{kn\over m}}\),则\(f=(1-p)^k=e^{k\ln(1-p)}\).最小化f等价于最小化 \(g=k\ln(1-p)\) 的值.因为\(\ln p=-{kn\over m}\),所以\(k=-{m\over n}\ln p,g=-{m\over n}\ln p\ln(1-p)\).根据对称性,可以看出,当\(p={1\over 2}\)时,\(k={m\over n}\ln2\approx 0.693{m\over n}\)时,取得最小误判率
\[ f=({1\over 2})^k=(2^{-\ln 2})^{m\over n}\approx 0.6185^{m\over n} \] p是数组中某一位仍是0的概率,所以p=0.5意味着数组中一半还空着(0位),才能保持低误判率. 从\(k={m\over n}\ln2\) 可以看出最优的hash函数个数应当与数组位数成正比,与集合的元素个数成反比,这也符合我们的直觉.应用
数据判重或者求交集.
参考
Jacob Honoroff. An Examination of Bloom Filters and their Applications. . March 16, 2006.