基于Hadoop的中医药数据管理策略研究(3)
③在相应节点执行Reduce程序,合并Map任务的输出结果。④在相应节点上,通过Reduce函数对不同数据块相同候选项集的支持度求和,进而得出全局支持度。
⑤将局部候选k项集的全局支持度和最小支持度阈值进行对比,进一步求得局部频繁k项集。
⑥将r个局部频繁k项集进行融合,进而求得全局频繁k项集。
⑦重复迭代,直至结束。
该算法的时间复杂度为O(n2),对应的伪代码见图3。
基于MapReduce改进的并行挖据算法
输入 原分块后的事务集Di,最小支持度阈值min
输出 频繁项集L
Begin
L1=find_frequent_1-itemsets(Di);
for (k=2; Lk-1!=Φ; k++)
{
Cki=apriori_gen(Lk-1); ‘生成局部候选k项集
For each transaction t∈Di
{
Cli=Map();
}
Lk=Reduce();‘Lk是全局频繁k项集
}
return L;
procedure Map(TID ......
您现在查看是摘要页,全文长 3507 字符。