NoSql

大数据

项	级别	说明
批处理(MapReduce)	低层次抽象	类似逻辑门电路中的与门，或门和非门
RDD(Resilient Distributed Dataset)	高层次抽象	类似逻辑电路中的编码器或译码器等

MapReduce引擎。MapReduce的处理技术符合使用键值对的map、shuffle、reduce算法要求。基本处理过程包括：

对随时进入系统的数据进行计算，是永久运行的拓扑（topology）。
流处理方式无需针对整个数据集执行操作，而是对通过系统传输的每个数据项执行操作。
流处理中的数据集是“无边界”的，这就产生了几个重要的影响：
1. 完整数据集只能代表截至目前已经进入到系统中的数据总量
2. 工作数据集也许更相关，在特定时间只能代表某个单一数据项。
3. 处理工作是基于事件的，除非明确停止否则没有“尽头”。处理结果立刻可用，并会随着新数据的抵达继续更新。

是一个不可变的带分区的记录集合
提供两类操作，转换和动作。
- 转换：map,filter,flatMap,sample,groupByKey,reduceByKey,union,join,cogroup,mapValues,sort,partionBy
- 动作：count,collect,reduce,lookup,save
任何操作都可以像函数式编程中操作内存中的集合一样直观、简便。集合操作的实现是在后台分解成一系列Task发送到几十台上百台服务器组成的集群上完成的。