mapreduce
编程技术分析数据集不适合在内存中
语法
描述
例子
输入参数
输出参数
提示
调试
mapreduce
键值算法来研究如何通过不同阶段总是有用的。检查数据的运动,在你的map和reduce函数上设置断点。断点停止执行mapreduce
,允许您检查相关变量的当前状态,像KeyValueStore
或ValueIterator
。有关更多信息,请参见调试MapReduce算法。一些建议来优化
mapreduce
性能在任何平台有:调用map函数的数量最小化。最简单的方法是增加的价值
ReadSize
输入数据存储的属性。其结果是,mapreduce
通过更大的数据块的映射函数,用更少的读取和存储消耗。减少中间数据之间发送的map和reduce函数。一种方法是使用
独特的
在map函数结合类似的钥匙。看到使用MapReduce计算意思组对这种技术的一个例子。