大数据技术及应用-题库

Hadoop有多种浏览HDFS文件目录的方式，下列方式错误的是：

A、通过HDFS命令

B、通过Web浏览器

C、通过Eclipse中的Project Explorer

D、通过SSH客户端工具

正确答案： D

2. Hadoop配置文件中，yarn-site.xml文件的作用是：

A、保存从节点信息

B、配置YARN框架

C、配置MapReduce框架

D、配置Hadoop的HDFS系统的命名

正确答案： B

3. 下列说法错误的是：

A、Map函数将输入的元素转换成<key,value>形式的键值对

B、MapReduce框架采用了Master/Slave架构，包括一个Master和若干个Slave

C、Hadoop框架是用Java实现的，MapReduce应用程序则一定要用Java来写

D、不同的Map任务之间不能互相通信

正确答案： C

4. 下列文件不属于Hadoop3.x集群部署时必需配置的是：

A、worker

B、hadoop-env.sh

C、profile

D、yarn-site.xml

正确答案： C

5. 关于NameNode和DataNode描述错误的是：

A、NameNode存储元数据信息，DataNode存储数据文件

B、DataNode维护block列表信息，并上报给NameNode

C、NameNode维护文件、block和DataNode之间的映射关系

D、客户端同时向多个副本的DataNode传输数据

正确答案： D

6. 以下哪个是MapReduce的适用场景？

A、适用于海量流数据的处理

B、适用于海量数据的批处理

C、可以实现秒级结果返回

D、可以应对多步骤复杂的数据处理

正确答案： B

7. HDFS的命名空间不包含：

A、文件

B、目录

C、块

D、字节

正确答案： D

8. 何种情况会触发HDFS进入安全模式：

A、DataNode无法正常启动

B、NameNode重启

C、NameNode磁盘空间不足

D、Block上报率低于阈值

正确答案： ABCD

9. Hadoop非HA模式配置前需要节点完成的前期准备有：

A、修改初始IP为静态IP

B、安装好适配版本的JDK

C、主节点与其他节点交互的无密码登录设置

D、Zookeeper安装配置

正确答案： ABC

10. 关于Hadoop三大框架HDFS、YARN和MapReduce说法错误的是：

A、HDFS主要有NameNode、Client和DataNode三部分组成

B、MapReduce程序编写时，Driver类和Inputformat类一样可使用系统默认，一般不用专门编写

C、YARN框架中的Application Master一直存在，为了方便任务启动时监控进程

D、MapReuduce框架的计算资源由YARN框架调配

正确答案： BC

11. Hadoop安装部署时需要修改相应的配置文件，下列说法正确的是：

A、/etc/profile文件：修改IP映射

B、hadoop-env.sh文件：添加JDK环境变量

C、yarn-site.xml文件：配置YARN框架

D、slaves文件：添加各个数据节点名称

正确答案： BCD

12. 下列关于传统并行计算框架（比如MPI）和MapReduce并行计算框架进行比较，正确的是：

A、前者相比后者学习起来更难

B、前者所需硬件价格贵，可扩展性差，后者硬件便宜，扩展性好

C、前者是共享式(共享内存/共享存储)，容错性差，后者是非共享式的，容错性好

D、前者适用于实时、细粒度计算、计算密集型，后者适用于批处理、非实时、数据密集型

正确答案： ABCD

13. 以下对数据节点理解正确的是:

A、数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作

B、数据节点通常只有一个

C、数据节点用来存储具体的文件内容

D、数据节点的数据保存在磁盘中

正确答案： ACD

14. Hadoop的运行模式有：

A、本地模式

B、伪分布式

C、全分布式

D、HA模式

正确答案： ABC

15. 下列关于HDFS说法正确的是：

A、HDFS是分布式文件系统

B、HDFS正常工作的情况下，主要进程有一个NameNode和若干个DataNode

C、HDFS中Secondary NameNode是对NameNode节点宕机的预防措施，这两个进程需要在同一个节点上

D、当数据存储DataNode时，DataNode会生成数据块对数据进行存储，且数据块大小是固定的，2.x版本默认为128MB

正确答案： ABD

16. MapReduce V1.x体系结构主要由哪几个部分组成：

A、JobTracker

B、Client

C、TaskTracker

D、Task

正确答案： ABCD

17. 关于Block的描述正确的是：

A、Block是HDFS的最小存储单元

B、Block存储在DataNode的本地磁盘上

C、Block大小的设置目标是让任务数量尽可能的小

D、Block也是数据网络传输的最小单位

正确答案： AB

18. 以下对名称节点理解正确的是：

A、名称节点用来负责具体用户数据的存储

B、名称节点作为中心服务器，负责管理文件系统的命名空间及客户端对文件的访问

C、名称节点通常用来保存元数据

D、名称节点的数据保存在内存中

正确答案： BCD

19. 关于Hadoop三大框架之间的关系，下列说法错误的是：

A、HDFS中元数据有YARN框架进行管控

B、在Hadoop集群中MapReduce处理的数据一般来源和输出路径都是HDFS

C、YARN框架每次为MapReduce调配的计算资源都是某个单节点上的

D、HDFS的副本机制是由YARN进行分配的

正确答案： ACD

20. HDFS考虑设置block大小的目标是：

第一空：
最小化寻址开销；

21. 向HDFS下载文件时，Client会对文件进行（）操作。

第一空：
合并；

22. 向HDFS上传文件时，Client会对文件进行（）操作。

第一空：
切分；

23. HDFS的block块默认大小是____M。

第一空：
128；

24. Reduce任务的数量是由Partition的数量确定的。

正确答案：×

25. MapReduce设计的一个理念就是“计算向数据靠拢”，而不是“数据向计算靠拢”，因为，移动数据需要大量的网络传输开销。

正确答案：√

26. 若将MapReduce程序打包为jar包的形式在集群节点运行，运行的shell命令为“yarn df jar”。

正确答案：×

27. MapReduce中Reduce接收的键值对数据类型与Map传出的键值对数据类型无需一致。。

正确答案：×

28. NameNode可以同Client进行交互，并处理Client客户端的读写请求。

正确答案：√

29. MapReduce任务分片的个数，默认与数据所占用的数据块个数一致。

正确答案：√

30. Hadoop支持单条数据记录的修改。

正确答案：×

31. 客户端是通过级寻址来定位Region。

A、一

B、二

C、三

D、四

正确答案： C

32. 下列关于Hive基本操作命令的解释错误的是：

A、insert overwrite table student select * from user where age>10; //向表student中插入来自user表的age大于10的数据并覆盖student表中原有数据

B、create database userdb;//创建数据库userdb

C、load data local inpath ‘/usr/local/data’ overwrite into table usr; //把目录’/usr/local/data’下的数据文件中的数据以追加的方式装载进usr表

D、create table if not exists usr(id bigint,name string,age int);//如果usr表不存在，创建表usr，含三个属性id,name,age

正确答案： C

33. 下列说法正确的是：

A、Zookeeper是一个集群管理工具，常用于分布式计算，提供配置维护、域名服务、分布式同步等。

B、HBase的实现包括的主要功能组件是库函数，一个Master主服务器和一个Region服务器

C、如果不启动Hadoop，则HBase完全无法使用

D、如果通过HBase Shell插入表数据，可以插入一行数据或一个单元格数据。

正确答案： A

34. 以下哪个不是Hive的特点：

A、Hive的结果返回延迟较高

B、Hive可以在视图上更新、插入和删除数据

C、Hive暂不支持存储过程

D、Hive暂不支持列级别数据的增加、更新、删除操作

正确答案： B

35. 当前，对于HBase数据库而言，每个Region的建议最佳大小是：

A、100MB-200MB

B、500MB-1000MB

C、1GB-2GB

D、2GB-4GB

正确答案： C

36. 下列对HBase数据模型的描述错误的是：

A、每个HBase表都由若干行组成，每个行由行键（row key）来标识

B、HBase是一个稀疏、多维度、排序的映射表，这张表的索引是行键、列族、列限定符和时间戳

C、HBase列族支持动态扩展，可以很轻松地添加一个列族或列

D、HBase中执行更新操作时，会删除数据旧的版本，并生成一个新的版本

正确答案： D

37. 关于Hive内部表与外部表的描述错误的是：

A、内部表的创建过程和数据加载过程，可以分别独立完成，也可以在同一个语句中一次完成

B、删除内部表时，元数据与数据都会被删除

C、外部表指向已经在HDFS中存在的数据

D、删除外部表时，元数据与数据都会被删除

正确答案： D

38. 关于HBase中Hlog的描述错误的是：

A、Hlog是以WAL（预写日志）方式在写数据时产生的日志文件

B、HBase写数据时，先写Hlog，然后就写入StoreFile

C、定期会删除Hlog过期数据

D、一个Region服务器只有一个Hlog文件，可以提高对表的写操作性能

正确答案： B

39. HBase是一种数据库。

A、列式数据库

B、关系数据库

C、文档数据库

D、行式数据库

正确答案： A

40. 关于分区和分桶的描述，哪些是正确的：

A、分区和分桶的目的都是为了提高数据检索的效率

B、分区的数量通常是不固定的

C、分桶的数据通常是不固定的

D、分区之下可再有分区或者分桶

正确答案： ABD

41. 关于HBase Shell命令解释错误的是：

A、get：通过表名、行、列、时间戳、时间范围和版本号来获得相应单元格的值

B、list：显示表的所有数据

C、put：向表、行、列指定的单元格添加数据

D、create：创建表

正确答案： B

42. 下列对HBase的理解正确的是：

A、HBase多用于存储非结构化和半结构化的松散数据

B、HBase是针对谷歌BigTable的开源实现

C、HBase是一个行式分布式数据库，是Hadoop生态系统中的一个组件

D、HBase是一种关系型数据库，现成功应用于互联网服务领域

正确答案： AB

43. 关于Hive的说法正确的是：

A、Hive将元数据存储在关系型数据库中

B、Hive的元数据包含表的名字、表数据所在HDFS目录、表属性等

C、Hive的计算引擎只能是Apache MapReduce

D、Hive的存储引擎可以是HDFS，也可以是Hbase

正确答案： ABD

44. 下列hiveQL语句解释正确的有：

A、load data local inpath ‘/usr/local/data’ overwrite into table usr; 将本地目录的文件写入到usr表中，并覆盖usr表中原有数据

B、load data inpath ’hdfs://localhost:9000/data’ overwrite into table usr; 将HDFS目录上的文件写入到usr表中，并覆盖usr表中原有数据

C、load data inpath ‘/usr/local/data’ into table usr; 将本地目录的文件写入到usr表中，不覆盖usr表中原有数据

D、insert into table usr1 select * from usr where age=10; 向表usr1中插入来自usr表的数据并追加在原有数据后

正确答案： ABD

45. 以下属于Hive的基本数据类型是：

A、TINYINT

B、FLOAT

C、BINARY

D、STRING

正确答案： ABCD

46. HBase和传统关系型数据库的区别在于哪些方面：

A、数据模型

B、数据维护

C、可伸缩性

D、存储模式

正确答案： ABCD

47. 访问HBase表中的行，有哪些方式：

A、通过单个行健访问

B、通过一个行健的区间来访问

C、全表扫描

D、通过某列的值区间

正确答案： ABC

48. 关于Store的描述正确的有：

A、Store由一个MemStore和若干个StoreFile组成

B、数据的读写都是先访问MemStore

C、Store中可以存储任意多个StoreFile

D、多个Store可以存储在一个Region中

正确答案： ABD

49. Hive的数据表可以进行分区和分桶，分区表下面可以再进行分桶，分桶表下面也可以进行再分区。

正确答案：×

50. HBase中，Region是分布式存储的最小单元，而Store是存储落盘的最小单元。

正确答案：√

51. 某种程度上，可以把Hive看作是用户编程接口，它本身不存储和处理数据。

正确答案：√

52. Hive计算引擎可以是Apache MapReduce或者Apache Spark。

正确答案：√

53. Hive支持数据的实时更新，执行延迟低。

正确答案：×

54. 如果要用Hive和其它工具来处理同一个数据集，建议使用内部表。

正确答案：×

55. 下面关于机器学习处理过程的描述，错误的是：

A、在数据的基础上，通过算法构建出模型并对模型进行评估

B、评估的性能如果达到要求，就用该模型来测试其他的数据

C、评估的性能如果达不到要求，就要调整算法来重新建立模型，再次进行评估

D、通过算法构建出的模型不需要评估就可以用于其他数据的测试

正确答案： D

56. 要把一个DataFrame保存到people.json文件中，下面语句哪个是正确的：

A、df.write.json(“people.json”)

B、df.json(“people.json”)

C、df.write.format(“csv”).save(“people.json”)

D、df.write.csv(“people.json”)

正确答案： A

57. 下列大数据类型与其对应的软件框架不适应的是：

A、图结构数据的计算：Hive

B、基于实时数据流的数据处理：Storm

C、复杂的批量数据处理：MapReduce

D、基于历史数据的交互式查询：Impala

正确答案： A

58. 下面关于机器学习流水线(PipeLine)的描述，错误的是：

A、流水线将多个工作流阶段（转换器和评估器）连接在一起，形成机器学习的工作流，并获得结果输出

B、要构建一个机器学习流水线，首先需要定义流水线中的各个PipelineStage

C、PipelineStage称为工作流阶段，包括转换器和评估器，比如指标提取和转换模型训练等

D、流水线构建好以后，就是一个转换器（Transformer）

正确答案： D

59. 以下哪个不是Spark的组件：

A、Spark Streaming

B、MLlib

C、GraphX

D、Flink

正确答案： D

60. Spark SQL目前暂时不支持下列哪种语言：

A、Java

B、Scala

C、Matlab

D、Python

正确答案： C

61. 下面哪个不是 RDD 的特点：

A、可分区

B、可序列化

C、可修改

D、可持久化

正确答案： C

62. 下面关于转换器（Transformer）的描述错误的是：

A、转换器是一种可以将一个DataFrame转换为另一个DataFrame的算法

B、技术上，转换器实现了一个方法fit()，它通过附加一个或多个列，将一个DataFrame转换为另一个DataFrame

C、一个模型就是一个转换器，它把一个不包含预测标签的测试数据集DataFrame打上标签，转化成另一个包含预测标签的 DataFrame

D、技术上，转换器实现了一个方法transform()，它通过附加一个或多个列，将一个DataFrame转换为另一个DataFrame

正确答案： B

63. 下面关于Spark SQL架构的描述错误的是：

A、在Shark原有的架构上重写了逻辑执行计划的优化部分，解决了Shark存在的问题

B、Spark SQL在Hive兼容层面仅依赖HiveQL解析和Hive元数据

C、Spark SQL执行计划生成和优化都由Catalyst（函数式关系查询优化框架）负责

D、Spark SQL执行计划生成和优化需要依赖Hive来完成

正确答案： D

64. 以下操作中，哪个不是DataFrame的常用操作：

A、printSchema()

B、select()

C、filter()

D、sendto()

正确答案： D

65. 关于Shark，下面描述正确的是：

A、Shark提供了类似Pig的功能

B、Shark把SQL语句转换成MapReduce作业

C、Shark重用了Hive中的HiveQL解析、逻辑执行计划翻译、执行计划优化等逻辑

D、Shark的性能比Hive差很多

正确答案： C

66. 下面哪个操作肯定是宽依赖：

A、map

B、filter

C、reduceByKey

D、union

正确答案： C

67. RDD操作分为转换（Transformation）和动作（Action）两种类型，下列属于动作（Action）类型的操作的是：

A、groupBy

B、filter

C、count

D、map

正确答案： C

68. 以下哪种运算属于宽依赖：

A、map

B、filter

C、groupByKey

D、join

正确答案： C

69. Task是Executor上的工作单元，运行于下面哪个组件上：

A、Driver Program

B、Spark Master

C、Worker Node

D、Cluster Manager

正确答案： C

70. 下面论述中错误的是：

A、机器学习和人工智能是不存在关联关系的两个独立领域

B、机器学习强调三个关键词：算法、经验、性能

C、推荐系统、金融反欺诈、语音识别、自然语言处理和机器翻译、模式识别、智能控制等领域，都用到了机器学习的知识

D、机器学习可以看作是一门人工智能的科学，该领域的主要研究对象是人工智能

正确答案： A

71. 下列关于常见的动作（Action）和转换（Transformation）操作的API解释错误的是：

A、take(n)：返回数据集中的第n个元素

B、map(func)：将每个元素传递到函数func中，并将结果返回为一个新的数据集

C、filter(func)：筛选出满足函数func的元素，并返回一个新的数据集

D、count()：返回数据集中的元素个数

正确答案： A

72. 下面的论述中，正确的是：

A、传统的机器学习算法，由于技术和单机存储的限制，大多只能在少量数据上使用

B、利用MapReduce框架在全量数据上进行机器学习，这在一定程度上解决了统计随机性的问题，提高了机器学习的精度

C、MapReduce可以高效支持迭代计算

D、Spark无法高效支持迭代计算

正确答案： AB

73. 目前的大数据处理典型应用场景可分为哪几个类型：

A、复杂的批量数据处理

B、基于历史数据的交互式查询

C、大数据的分布式计算

D、基于实时数据流的数据处理

正确答案： ABD

74. Spark的主要特点包括：

A、容易使用

B、通用性好

C、运行速度快

D、运行模式多样

正确答案： ABCD

75. 以下选项中哪些是Spark的优点：

A、具有高效的容错性

B、利用进程模型

C、可以将中间结果持久化到内存

D、表达能力有限

正确答案： AC

76. Apache软件基金会最重要的三大分布式计算系统开源项目包括：

A、MapReduce

B、Hadoop

C、Spark

D、Storm

正确答案： BCD

77. 以下是Spark的主要特点的有：

A、运行速度快

B、容易使用，简洁的API设计有助于用户轻松构建并行程序

C、通用性，Spark提供了完整而强大的技术栈

D、运行模式多样

正确答案： ABCD

78. Spark的运行架构包括哪些：

A、集群资源管理器（Cluster Manager）

B、执行进程（Executor）

C、Worker Node

D、任务控制节点Driver Program

正确答案： ABCD

79. 下面关于为什么推出Spark SQL的原因的描述正确的是：

A、Spark SQL可以提供DataFrame API，可以对内部和外部各种数据源执行各种关系操作

B、可以支持大量的数据源和数据分析算法，组合使用Spark SQL和Spark MLlib，可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力

C、Spark SQL无法对各种不同的数据源进行整合

D、Spark SQL无法融合结构化数据管理能力和机器学习算法的数据处理能力

正确答案： AC

80. 以下属于RDD的特性的有：

A、RDD的中间结果会持久化到内存

B、RDD采用lineage机制实现高效容错性

C、RDD采用数据冗余存储方式实现容错性

D、RDD存放的数据可以是未序列化的java对象

正确答案： ABD

81. 使用编程方式定义RDD模式时，主要包括哪三个步骤：

A、制作“表头”

B、制作“表中的记录”

C、制作映射表

D、把“表头”和“表中的记录”拼装在一起

正确答案： ABD

82. Spark的运行架构包括：

A、集群资源管理器 Cluster Manager

B、运行作业任务的工作节点 Worker Node

C、每个工作节点上负责具体任务的执行进程 Executor

D、每个应用的任务控制节点 Driver

正确答案： ABCD

83. 关于RDD的说法正确的有：

A、RDD是一个弹性分布式数据集

B、RDD的数据可以修改

C、RDD可以分成多个分区

D、RDD不仅支持数据集的粗粒度操作，也支持数据项的细粒度操作

正确答案： AC

84. 下面关于Spark MLlib库的描述正确的是：

A、MLlib库从1.2版本以后分为两个包：spark.mllib和spark.ml

B、spark.mllib包含基于DataFrame的原始算法API

C、spark.mllib包含基于RDD的原始算法API

D、spark.ml则提供了基于RDD的、高层次的API

正确答案： AC

85. Shark的设计导致了两个问题：

A、执行计划优化完全依赖于Hive，不方便添加新的优化策略

B、执行计划优化不依赖于Hive，方便添加新的优化策略

C、Spark是线程级并行，而MapReduce是进程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支

D、Spark是进程级并行，而MapReduce是线程级并行，因此，Spark在兼容Hive的实现上存在线程安全问题，导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支

正确答案： AC

86. Spark可以采用几种不同的部署方式，以下正确的部署方式有：

A、Local

B、Standalone

C、Spark on Mesos

D、Spark on YARN

正确答案： ABCD

87. 从RDD转换得到DataFrame包含两种典型方法，分别是：

A、利用反射机制推断RDD模式

B、使用编程方式定义RDD模式

C、利用投影机制推断RDD模式

D、利用互联机制推断RDD模式

正确答案： AB

88. 下面关于DataFrame的描述正确的是：

A、DataFrame的推出，让Spark具备了处理大规模结构化数据的能力

B、DataFrame比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能

C、Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询

D、DataFrame是一种以RDD为基础的分布式数据集，提供了详细的结构信息

正确答案： ABCD

89. 以下哪个不是Hadoop2.X的特点？

A、具有两个NameNode，可以改进单个NameNode单点故障问题

B、将MapReduce中资源管理和作业控制分开

C、ResourceManager负责所有应用程序的资源分配，ApplicationMaster负责管理一个应用程序

D、Yarn仅可为MapReduce计算框架提供服务

正确答案： D

90. 以下描述错误的是：

A、edits文件保存的是自最新检查点之后的所有文件更新操作

B、edits文件的大小对于重启NameNode是没有影响的

C、fsimage文件保存的内容有：文件目录信息、文件副本数、Block与DataNode映射关系等

D、Standby NameNode会定期合并edits和fsimage，并返回给Active NameNode

正确答案： B

91. 下面关于分布式文件系统HDFS的描述正确的是：

A、分布式文件系统HDFS是一种关系型数据库

B、分布式文件系统HDFS是Google Bigtable的一种开源实现

C、分布式文件系统HDFS是谷歌分布式文件系统GFS（Google File System）的一种开源实现

D、分布式文件系统HDFS比较适合存储大量零碎的小文件

正确答案： C

92. 克隆虚拟机后需要修改的文件有：

（1）/etc/udev/rules.d/70-persistent-net

（2）/etc/sysconfig/network-scripts/ifcfg-ens33

（3）/etc/sysconfig/network

A、①②

B、①②③

C、②③

D、①③

E、无

F、5

G、0

正确答案： C

93. 下列命令可以显示出HDFS文件系统中 /user/root/ 目录情况的是：

A、hdfs dfs –dir /user/root/

B、hdfs dfs –report /user/root/

C、hdfs dfs –ls /user/root/

D、hdfs dfs –display /user/root/

正确答案： C

94. 对于文本行“hello hadoop hello world”，经过WordCount的Reduce函数处理后的结果是：

A、<“hello”,1,1><“hadoop”,1><“world”,1>

B、<“hello”,2><“hadoop”,1><“world”,1>

C、<“hello”,<1,1>><“hadoop”,1><“world”,1>

D、<“hello”,1><“hello”,1><“hadoop”,1><“world”,1>

正确答案： B

95. 分布式文件系统HDFS采用了主从结构模型，由计算机集群中的多个节点构成的，这些节点分为两类，一类存储元数据叫，另一类存储具体数据叫

A、名称节点，主节点

B、从节点，主节点

C、数据节点，名称节点

D、名称节点，数据节点

正确答案： D

96. 下列命令可以将HDFS文件系统/user/root/目录下的live.txt文件下载到本地/opt目录的是：

A、hadoop fs –get /user/root/live.txt /opt

B、hadoop fs –download /user/root/live.txt /opt

C、hadoop fs –put /user/root/live.txt /opt

D、hadoop fs –move /user/root/live.txt /opt

正确答案： A

97. 下列关于MapReduce框架说法错误的是：

A、输入MapReduce的数据必须为键值对类型，但MapReduce不可以将数据转换为键值对

B、在Mapper阶段完成后数据会传入环形缓冲区

C、MapReduce中根据键值对进行分组的步骤在Shuffle阶段进行

D、在不设置分区的情况下，MapReduce的结果文件为一个

正确答案： AD

98. 对于shuffle阶段的描述正确的是：

A、shuffle阶段会执行partition、sort、merge等工作

B、shuffle阶段的partition数量是由Map任务的结果数量决定的

C、shuffle阶段的任务是由MapReduce框架自身完成的，不需要用户干预

D、shuffle阶段的任务是在缓存上进行的，如果文件很大，会spill到磁盘上

正确答案： ACD

99. Hadoop中的YARN是在2.x版本后加入的。

正确答案：√

100. MapReduce程序中的数据类型Text类似于String，使用这一数据类型的数据为UTF-8格式的文本数据。

正确答案：√

101. Hadoop支持数据的随机读写。

正确答案：×

102. 在YARN框架中，Application Master的产生是在任务开始的节点，而不是Resource Manager所在节点。

正确答案：√

103. HDFS Shell可以在非集群节点上运行。

正确答案：×

104. 两个键值对<"a",1>和<"a",1>，如果对其进行归并(merge)，会得到<"a",2>，如果对其进行合并(combine)，会得到<"a",<1,1>>。

正确答案：×

105. HBase三层结构的顺序是：

A、.MEATA.表，Zookeeper文件，-ROOT-表

B、-ROOT-表，Zookeeper文件，.MEATA.表

C、Zookeeper文件，.MEATA.表，-ROOT-表

D、Zookeeper文件，-ROOT-表，.MEATA.表

正确答案： D

106. 下面关于评估器（Estimator）的描述错误的是：

A、评估器是学习算法或在训练数据上的训练方法的概念抽象

B、在机器学习流水线里，评估器通常是被用来操作 DataFrame数据并生成一个转换器

C、评估器实现了方法transfrom()，它接受一个DataFrame并产生一个转换器

D、评估器实现了方法fit()，它接受一个DataFrame并产生一个转换器

正确答案： C

107. 下面论述中正确的是：

A、DataFrame可容纳各种数据类型，与RDD数据集相比，它包含了模式（schema）信息，类似于传统数据库中的二维表格

B、流水线用DataFrame来存储源数据

C、转换器（Transformer）是一种可以将一个DataFrame转换为另一个DataFrame的算法

D、评估器（Estimator）是一种可以将一个DataFrame转换为另一个DataFrame的算法

正确答案： ABC

108. 下列关于Scala的说法正确的是：

A、Scala运行于Java平台，兼容现有的Java程序

B、Scala具备强大的并发性，支持函数式编程

C、Scala是一种多范式编程语言

D、Scala是Spark的主要编程语言，但Spark还支持Java、Python、R作为编程语言

正确答案： ABCD

109. 要读取people.json文件生成DataFrame，可以使用下面哪些命令：

A、spark.read.json(“people.json”)

B、spark.read.parquet(“people.json”)

C、spark.read.format(“json”).load(“people.json”)

D、spark.read.format(“csv”).load(“people.json”)

正确答案： AC

110. 关于RDD之间的依赖分为窄依赖和宽依赖，以下说法正确的是：

A、存在一个父RDD的一个分区对应一个子RDD的多个分区，则为宽依赖

B、存在一个父RDD的多个分区对应一个子RDD的一个分区，则为宽依赖

C、存在一个父RDD的一个分区只被一个子RDD的一个分区所使用，则为窄依赖

D、存在一个父RDD的一个分区被一个子RDD的多个分区所使用，则为窄依赖

正确答案： AC

111. 以下关于宽依赖和窄依赖的描述正确的有：

A、宽依赖可以实现“流水化”优化

B、窄依赖可以实现“流水化”优化

C、尽量将窄依赖划分到同一个stage中

D、宽依赖对于作业job的优化更有利

正确答案： BC

112. 在使用MapReduce程序WordCount进行词频统计时，对于文本行“hello hadoop hello world”，经过WordCount程序的Map函数处理后直接输出的中间结果，应该是下面哪种形式：

A、<“hello”,1>、<“hello”,1>、<“hadoop”,1>和<“world”,1>

B、<“hello”,2>、<“hadoop”,1>和<“world”,1>

C、<“hello”,<1,1>>、<“hadoop”,1>和<“world”,1>

D、<“hello”,1,1>、<“hadoop”,1>和<“world”,1>

正确答案： C

113. 采用多副本冗余存储的优势不包含：

A、保证数据可靠性

B、节约存储空间

C、加快数据传输速度

D、容易检查数据错误

正确答案： B

114. 使用MapReduce统计学生的平均成绩时，如果输出结果的格式为“学生姓名平均成绩”，如“Alice89.5”，对应输出键值对格式设置的命令是：

A、job.setOutputKeyClass(Text.class); job.setOutputValueClass(Text.class)

B、job.setOutputKeyClass(IntWritable.class); job.setOutputValueClass(Text.class)

C、job.setOutputKeyClass(Text.class); job.setOutputValueClass(LongWritable.class)

D、job.setOutputKeyClass(Text.class); job.setOutputValueClass(DoubleWritable.class)

正确答案： D

115. 下列属于Hadoop适用场景的是：

A、某一网站用户的行为数据

B、结构化数据

C、电商数据存储、处理

D、需要经常修改的数据

正确答案： AC

116. HDFS可以存储海量的数据，同时也支持低延迟查询。

正确答案：×