博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
布隆过滤器 Bloom Filter
阅读量:5015 次
发布时间:2019-06-12

本文共 1329 字,大约阅读时间需要 4 分钟。

使用普通集合来判断一个元素是否已存在于集合中,需要占用比较大的空间。而使用Bloom Filter 可有效节省空间。 Bloom Filter 以较少的内存占用及较小的误判率达到判断元素是否存已经加入集合中的目的。Bloom Filter是一种空间效率很高的随机数据结构,可以被看作是对位图的扩展.

基本思想

首先创建一个长度位m的位数组,初始化为全0.对集合S中的每一个元素,通过k个散列函数计算出k个bit位,将位数组中对应的位置1.那么,当判断一个元素是否存在于集合S中时,同样计算k个bit位,如果位数组中这k个位置任意一位是0,则该元素不在集合S中,如果全是1,则以较大概率认为存在于该集合中.因此存在一定的误判率(false positive rate).

误判率

插入一个元素后,某一特定比特位仍然为 0 的概率为\((1-{1\over m})^k\).

由于
\[ \lim_{x\rightarrow\infty}(1-{1\over x})^{-x}=e \]
所以插入 n个元素后特定位仍为 0 的概率为\(p'=(1-{1\over m})^{kn}\approx e^{-{kn\over m}}\).
p'同时是位数组中0的比例的数学期望.特定位被置为 1 的概率为:\(t=1-p'\).

误判存在于k个独立hash函数的位都是1的情况,因此误判率为

\[ f=t^k\approx (1-e^{-{kn\over m}})^k \]

从误判率公式可以看出,当位数组(桶)的位数越多时,误判率越小.而误判率与hash函数个数并非单调递减的关系.

最优散列函数个数

我们的目标是最小化误判率,因此最优的散列函数个数应使得误判率较小.

\(p=e^{-{kn\over m}}\),则\(f=(1-p)^k=e^{k\ln(1-p)}\).最小化f等价于最小化 \(g=k\ln(1-p)\) 的值.因为\(\ln p=-{kn\over m}\),所以\(k=-{m\over n}\ln p,g=-{m\over n}\ln p\ln(1-p)\).根据对称性,可以看出,当\(p={1\over 2}\)时,\(k={m\over n}\ln2\approx 0.693{m\over n}\)时,取得最小误判率

\[ f=({1\over 2})^k=(2^{-\ln 2})^{m\over n}\approx 0.6185^{m\over n} \]
p是数组中某一位仍是0的概率,所以p=0.5意味着数组中一半还空着(0位),才能保持低误判率. 从\(k={m\over n}\ln2\) 可以看出最优的hash函数个数应当与数组位数成正比,与集合的元素个数成反比,这也符合我们的直觉.

应用

数据判重或者求交集.

参考

Jacob Honoroff. An Examination of Bloom Filters and their Applications. . March 16, 2006.

转载于:https://www.cnblogs.com/makefile/p/bloom-filter.html

你可能感兴趣的文章
Linux集群及LVS简介
查看>>
简单几何(直线与圆的交点) ZOJ Collision 3728
查看>>
Codeforces Round #327 (Div. 2)
查看>>
如何解决Provisional headers are shown问题(转)
查看>>
开发网站遇到的bug
查看>>
实现简单的接口自动化测试平台
查看>>
EXCEL工作表合并
查看>>
Prime Path
查看>>
ODAC(V9.5.15) 学习笔记(三)TOraSession(2)
查看>>
单纯形法
查看>>
SQL中的replace函数
查看>>
java中的类型安全问题-Type safety: Unchecked cast from Object to ...
查看>>
如何解决最后一个尾注引用显示与致谢混为一谈的问题-下
查看>>
Java Socket编程 - 基于TCP方式的二进制文件传输【转】http://blog.csdn.net/jia20003/article/details/8248221...
查看>>
阅读之https及加密原理
查看>>
HDOJ4550 卡片游戏 随便销毁内存的代价就是wa//string类的一些用法
查看>>
css文本样式text、字体样式font
查看>>
python判断图片是否损坏
查看>>
MySQL服务启动:某些服务在未由其他服务或程序使用时将自动停止
查看>>
软件工程第四周作业 - 单元测试
查看>>