大数据经典海量数据处理面试题
前言
先来看一下都有哪些题目
- 如何从大量的 URL 中找出相同的 URL?(百度)
- 如何从大量数据中找出高频词?(百度)
- 如何找出某一天访问百度网站最多的 IP?(百度)
- 如何在大量的数据中找出不重复的整数?(百度)
- 如何在大量的数据中判断一个数是否存在?(腾讯)
- 如何查询最热门的查询串?(腾讯)
- 如何统计不同电话号码的个数?(百度)
- 如何从 5 亿个数中找出中位数?(百度)
- 如何按照 query 的频度排序?(百度)
- 如何找出排名前 500 的数?(腾讯)
答案呢?
跳转阅读杨立滨收集的答案10 道 BAT 大厂海量数据面试题(附题解+方法总结)
处理方法
对海量数据的处理方法一般都是有以下步骤
- 布隆过滤器
- 哈希
- 位图
- 堆
- 双层桶划分—-其实本质上就是【分而治之】的思想,重在分的技巧上!
- B树
- 倒排索引
- 外排序
- trie树
- 分布式处理 mapreduce
具体的可以跳转阅读大数据十道经典海量数据处理面试题与十个方法大总结第2部分