第1题
A.Spark 是一个分布式数据基础设施
B.Spark 通过内存中的 DAG 有向无环图,减少落盘计算
C.Spark 是一个批处理框架
D.Spark 是一个流处理框架
第5题
A.Spark是一个基于内存迭代的框架
B.Spark是一个数据分析技术栈,包含了大数据的多种计算模式
C.Spark可以采用多种编程语言进行开发,比如Scal
D.Java
E.Spark计算过程中,数据不会落地到磁盘
第6题
A.MR框架过多的磁盘操作,缺乏对分布式内存的支持
B.MR框架无法高效地支持迭代式计算
C.MR框架无法高效地支持交互式数据挖掘任务
D.MR框架无法进行分析性计算任务
第8题
A.park基于内存迭代,而MapReduce基于磁盘迭代
B.AG计算模型相比MapReduce更有效率
C.park是粗粒度的资源调度,而MR是细粒度的资源调度。
D.park支持交互式处理,MapReduce善于处理流计算。
第10题
A.Spark SQL在HDFS文件上可根据自定义方式进行文件与表的映射关系
B.Spark Streaming准实时流计算框架,数据可以消费MQ,Kafka等
C.Spark MLlib机器机器学习算法库,封装了主流的机器学习算法
D.Spark GraphX进行基于图计算的服务支持
第11题
A.ume属于Apache的顶级项目,他是一款高性能、高可用的分布式日志收集系统
B.MapRaduce模式的主要思想是自动将一个大的计算(如程序)拆解成Map(映射)和Raduce(化简)
C.Kafka架构分为两层,即生产者( Producer)和消费者( Consumer),他们之间可以直接发送消息
D.与HaDoop相比,Spark的中间数据存放在内存中,对于迭代运算而言,效率更高