基于Hadoop的食品安全预警系统架构(2)
我们搭建的Hadoop集群在该食品安全预警系统中有两处应用。首先在使用爬虫进行数据获取的时候,爬虫程序架设在Hadoop集群之上,充分利用集群的运算和处理性能,来使用爬虫进行并行化爬取食品安全数据;其次,在进行数据挖掘和分析的过程中,Hadoop集群被用于处理和分析网络中获取的食品安全数据,最终得出食品安全预警信息,输出到数据展示的用户端。
3 数据获取模块
数据获取模块以爬虫技术的应用为核心,主要分为Frontier模块、ToeThread模块和Processor模块,这3个模块的作用分别为:爬取网页中的URI,向线程提供链接;实现多线程运行;实现爬虫处理信息的逻辑结构等。见图3。
Frontier模块用于向线程提供链接,它的作用主要是:保存等待处理的链接、记录那些已经被处理过的链接。在Frontier实现的过程中 ......
您现在查看是摘要页,全文长 3375 字符。
3 数据获取模块
数据获取模块以爬虫技术的应用为核心,主要分为Frontier模块、ToeThread模块和Processor模块,这3个模块的作用分别为:爬取网页中的URI,向线程提供链接;实现多线程运行;实现爬虫处理信息的逻辑结构等。见图3。
Frontier模块用于向线程提供链接,它的作用主要是:保存等待处理的链接、记录那些已经被处理过的链接。在Frontier实现的过程中 ......
您现在查看是摘要页,全文长 3375 字符。