大数据处理平台Spark及其生物医学应用(2)
1.2.1 流计算框架( Spark Streaming) 流计算框架( http://spark.apache.org/streaming/)将数据流根据小时间片分解成一系列短小的批处理作业,根据业务需求对中间结果叠加计算或者存储到外部设备,具有高吞吐量和高效的容错处理能力。1.2.2 可扩展机器学习库(MLBase/MLlib) Mllib(http://spark.apache.org/mllib/)包括一些常见的机器学习算法和实用程序,包括分类、回归、聚类、协同过滤、降维、特征变换及底层优化。MLbase通过边界定义,力图将MLbase打造成一个机器学习平台,让一些并不深入了解机器学习的用户也能方便地使用MLbase来处理自己的数据,其机器学习优化器能够根据用户输入场景选择最适合的机器学习算法和相关参数。
1.2.3 即席数据查询引擎( Spark SQL) 从ApacheHive表、parquet和JSON格式的文件中装载和查询数据,通过Python、Scala和Java语言编程接口将结构化数据作为RDD进行查询 ......
您现在查看是摘要页,全文长 4267 字符。