大数据理论知识

2020-10-04 来源：好走旅游网

大数据理论知识

一、客观部分 (一)基础应用

1、下面程序负责HDFS数据存储的是（C）。 A.NameNode B.Jobtracker C.Datanode

D.SecondaryNameNode

2、HDFS中的block默认保存份数是（A）。 A.3份 B.2份 C.1份 D.不确定

3、下列选项中通常与NameNode在一个节点启动的是（D）。 A.SecondaryNameNode B.DataNode C.TaskTracker D.Jobtracker 分析：

hadoop的集群是基于master/slave模式，namenode和jobtracker属于master，

datanode和tasktracker属于slave，master只有一个，而slave有多个。JobTracker 对应于NameNode，TaskTracker对应于DataNode，DataNode 和NameNode 是针对数据存放来而言的，JobTracker和TaskTracker是对于MapReduce执行而言的。 4、HDFS默认Block Size是（C）。 A.32MB B.64MB C.128MB D.256MB

解析：2.72以前是64MB,2.73后是128MB 5、下列哪项通常是集群的最主要瓶颈（C）。 A.CPU B.网络 C.磁盘IO D.内存

分析：首先集群的目的是为了节省成本，用廉价的pc机，取代小型机及大型机。 6、关于SecondaryNameNode下面选项是正确的（C）。 A.它是NameNode的热备 B.它对内存没有要求

C.它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间 D.SecondaryNameNode应与NameNode部署到一个节点

分析：scondaryNameNode内存需求和NameNode在一个数量级上，所以通常secondary NameNode（运行在单独的物理机器上）和NameNode运行在不同的机器上。 7、下列哪项不可以作为集群的管理是（ABD）。 A.Puppet

B.Pdsh

C.Cloudera Manager D.Zookeeper

8、Client端上传文件的时候下列哪项正确（B）。 A.数据经过NameNode传递给DataNode B.Client端将文件切分为Block，依次上传

C.Client只上传数据到一台DataNode，然后由NameNode负责Block复制工作 D.其他项都不正确分析：

Client向NameNode发起文件写入的请求。

NameNode根据文件大小和文件块配置情况，返回给Client它所管理部分DataNode的信息。Client将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块中。

9、下列哪个是Hadoop运行的模式（D）。 A.单机版 B.伪分布式 C.分布式

D.其他项都是

10、数据管理技术的发展过程中，经历了人工管理阶段、文件系统阶段和数据库系统阶段；在这几个阶段中，数据独立性最高的阶段是（A）。 A.数据库系统 B.文件系统 C.人工管理 D.数据项管理

11、数据库的概念模型独立于（A）。 A.具体的机器和DBMS B.E-R图 C.信息世界 D.现实世界 12、在数据库的三级模式结构中，描述数据库中全体数据的全局逻辑结构和特征的是（D）。 A.外模式 B.内模式 C.存储模式 D.模式

13、数据库的层次模型应满足的条件是（C）。

A.允许一个以上的结点无双亲，也允许一个结点有多个双亲 B.必须有两个以上的结点

C.有且仅有一个结点无双亲，其余结点都只有一个双亲 D.每个结点有且仅有一个双亲

14、在关系代数的专门关系运算中，从表中取出指定的属性的操作称为（A）。 A．选择B．投影C．连接D．扫描

15、在关系代数的专门关系运算中，从表中选出满足某种条件的元组的操作称为（A）。 A．选择B．投影C．连接D．扫描 16、在关系代数的专门关系运算中，将两个关系中具有共同属性值的元组连接到一起构成新

表的操作为（C）。

A．选择B．投影C．连接D．扫描 17、关系数据库中的码是指（D）。 A.能唯一决定关系的字段 B.不可改动的专用保留字 C.关键的很重要的字段

D.能唯一标识元组的属性或属性集合

18、SQL语言具有两种使用方式，分别为交互式SQL和（C）。 A.提示式SQL B.多用户SQL C.嵌入式SQL D.解释式SQL

19、设计性能较优的关系模式称为规范化，规范化主要的理论依据是（A）。 A.关系规范化理论 B.关系运算理论 C.关系代数理论 D.数理逻辑理论

20、规范化过程主要为克服数据库逻辑结构中的插入异常，删除异常以及（C）缺陷。 A.数据的不一致性 B.结构不合理 C.冗余度大 D.数据丢失

21、当关系模式R（A，B）已属于3NF，下列说法中正确的是（B）。 A.它一定消除了插入异常和删除异常 B.仍存在一定的插入和删除异常 C.一定属于BCNF D.A和C都是

22、消除了非主属性部分函数依赖的1NF的关系模式，应当是（B）。参考答案：B

A．1NF B．2NF C．3NF D．4NF

23、E-R图是数据库设计的工具之一，它适用于建立数据库的（A）。 A.概念模型 B.逻辑模型 C.结构模型 D.物理模型

24、在关系数据库设计中，设计关系模式是（C）的任务。 A.需求分析阶段 B.概念设计阶段 C.逻辑设计阶段 D.物理设计阶段

25、当局部E-R图合并成全局E-R图时可能出现冲突，不属于合并冲突的是（B）。 A.属性冲突 B.语法冲突 C.结构冲突

D.命名冲突

26、DBMS通常提供授权功能来控制不同用户访问数据的权限，这主要是为了实现数据库的（D）。

A．可靠性B．一致性C．完整性D．安全性

27、若事务T对数据R已加了X锁，则其他事务对数据R（D）。 A.可以加S锁不能加X锁 B.不能加S锁可以加X锁 C.可以加S锁也可以加X锁 D.不能加任何锁

28、后备副本的用途是（C）。 A.安全性保障 B.一致性控制 C.故障后的恢复 D.数据的转储

29、用于数据库恢复的重要文件是（C）。 A.数据库文件 B.索引文件 C.日志文件 D.备注文件

30、数据库系统与文件系统的主要区别是（B）。 A.数据库系统复杂，而文件系统简单

B.文件系统不能解决数据冗余和数据独立性问题，而数据库系统可以解决 C.文件系统只能管理程序文件，而数据库系统能够管理各种类型的文件 D.文件系统管理的数据量较少，而数据库系统可以管理庞大的数据量 31、在数据库中，下列说法不正确的是（A）。 A.数据库避免了一切数据的重复

B.若系统是完全可以控制的，则系统可确保更新时的一致性 C.数据库中的数据可以共享 D.数据库减少了数据冗余

32、数据库的网状模型应满足的条件是（A）。

A.允许一个以上的结点无双亲，也允许一个结点有多个双亲 B.必须有两个以上的结点

C.有且仅有一个结点无双亲，其余结点都只有一个双亲 D.每个结点有且仅有一个双亲

33、按所使用的数据模型来分，数据库可分为那三种类型（A）。 A.层次、关系和网状 B.网状、环状和链状 C.大型、中型和小型 D.独享、共享和分时

34、SQL语言是（C）语言。 A.层次数据库 B.网络数据库 C.关系数据库 D.非数据库

35、关系数据库规范化是为解决关系数据库中（A）问题而引入的。 A．插入、删除和数据冗余 B．提高查询速度

C．减少数据操作的复杂性

D．保证数据的安全性和完整性

36、关系模式中，满足2NF的模式（D）。 A.可能是1NF B.必定是BCNF C.必定是3NF D.必定是1NF

37、能消除多值依赖引起的冗余的是（C）。

A．2NF B．3NFC．4NF D．BCNF

38、从E-R模型向关系模型转换，一个M：N联系转换为关系模式时，该关系模式的码是（C）。

A.M端实体的码 B.N端实体的码

C.M端实体的码与N端实体的码的组合 D.重新选取其他属性

39、防止未经授权的或不合法的使用造成的数据泄露、更改破坏；这是指数据库的（A）。 A.安全性 B.完整性 C.并发控制 D.恢复

40、若系统在运行过程中，由于某种原因，造成系统停止运行，致使事务在执行过程中以非正常方式终止，这时内存中的信息丢失，而存储在外存上的数据未受影响，这种情况称为（B）。 A.事务故障 B.系统故障 C.介质故障 D.运行故障

41、在数据库中存储的是（C）。 A.数据 B.数据模型

C.数据以及数据之间的联系 D.信息

42、按所使用的数据模型来分，下面正确的是（A）。 A.层次、关系和网状 B.网状、环状和链状 C.大型、中型和小型 D.独享、共享和分时 43、关系数据模型（D）。

A.只能表示实体间的1：1联系国 B.只能表示实体间的1：n联系 C.只能表示实体间的m：n联系

D.可以表示实体间的上述三种联系

44、设有属性A，B，C，D，以下表示中不是关系的是（C） A.R（A）

B.R（A，B，C，D） C.R（A×B×C×D） D.R（A，B）

45、自然连接是构成新关系的有效方法。一般情况下，当对关系R和S使用自然连接时，要求R和S含有一个或多个共有的（D）。 A.元组 B.行 C.记录 D.属性

46、侯选码中的属性称为（B）。 A.非主属性 B.主属性 C.复合属性 D.关键属性

47、说明数据库的数据的正确性和相容性是（B）。 A.安全性 B.完整性 C.并发控制 D.恢复

48、事务（Transaction）是一个（C）。 A.程序 B.进程

C.操作序列 D.完整性规则

49、事务对DB的修改，应该在数据库中留下痕迹，永不消逝；这个性质称为事务的（A）。 A．持久性 B．隔离性 C．一致性 D．原子性

50、事务的执行次序称为（C）。 A.过程 B.步骤 C.调度 D.优先级

51、在事务依赖图中，如果两个事务的依赖关系形成一个循环，会出现（B）。 A.出现活锁现象 B.出现死锁现象 C.事务执行成功 D.事务执行失败

52、大数据的最显著特征是（A）。

A.数据规模大 B.数据类型多样 C.数据处理速度快 D.数据价值密度高

53、下面哪一性质反映数据的精细化程度，越细化的数据，价值越高（D）。 A.规模 B.活性 C.关联度 D.颗粒度

54、下列关于大数据的分析理念的说法中，错误的是（D）。 A.在数据基础上倾向于全体数据而不是抽样数据 B.在分析方法上更注重相关分析而不是因果分析 C.在分析效果上更追究效率而不是绝对精确 D.在数据规模上强调相对数据而不是绝对数据 55、数据清洗的方法不包括（D）。 A.缺失值处理 B.噪声数据清除 C.一致性检查

D.重复数据记录处理

56、以下说法不正确的是（A）。 A.大数据仅仅是数据的体量大 B.大数据会带来机器智能 C.大数据对传统行业有帮助 D.大数据是一种思维方式

57、在数据生命周期管理实践中，执行方法是（B）。 A.数据存储和备份规范 B.数据管理和维护

C.数据价值发觉和利用 D.数据应用开发和管理

58、以下哪项不属于数据挖掘的内容（C）。 A.建立道路拥堵概率与拥堵趋势变化模型 B.多维分析统计用户出行规律 C.高德地图导航有躲避拥堵功能 D.补充与完善路网属性

59、下列关于数据重组的说法，错误的是（A）。 A.数据重组是数据的重新生产和重新采集 B.数据重组能够使数据换发新的光芒

C.数据重组实现的关键在于多源数据融合和数据集成 D.数据重组有利于实现新颖的数据模式创新 60、数据仓库的最终目的是（D）。 A.收集业务需求

B.建立数据仓库逻辑模型 C.开发数据仓库应用分析

D.为用户和业务部门提供决策支持

61、下列关于脏数据的说法，正确的是（A）。 A.格式不规范 B.编码不统一 C.数据不完整

D.其他选项都不正确

62、从大量数据中提取知识的过程通常称为（A）。 A.数据挖掘 B.人工智能 C.数据清洗 D.数据仓库

63、大数据处理技术和传统的数据挖掘技术最大的区别是（A）。 A.处理速度快（秒级定律） B.算法种类更多 C.精度更高 D.更加智能化

64、规模巨大且复杂，用现有的数据处理工具难以获取、整理、管理以及处理的数据，这指的是（D）。 A.富数据 B.贫数据 C.繁数据 D.大数据

65、大数据的4V特征：规模性（Volume）、高速性（Velocity）、多样性（Variety）、价值性（Value）中的Velocity是指（B）。 A.价值密度低 B.处理速度快 C.数据类型繁多 D.数据体量巨大

66、过一系列处理，在基本保持原始数据完整性的基础上，减小数据规模的是（C） A.数据清洗 B.数据融合 C.数据规约 D.数据挖掘

67、一切事物及事物运动的状态，不仅有销售数据、价格等客观标准可以形成大数据，甚至连用户情绪（如色彩、空间的感知等）都可以测得并获取，这体现了大数据思维维度中的（A）。 A.定量思维 B.相关思维 C.因果思维 D.实验思维

68、下列关于大数据的说法，错误的是（A）。 A.大数据具有体量大、结构单一、时效性强的特征 B.处理大数据需采用新型计算架构和智能算法等新技术 C.大数据的应用注重相关分析而不是因果分析

D.大数据的目的在于发现新的知识与洞察并进行科学决策 69、当前大数据技术的基础包括（AB）。 A.分布式文件系统 B.分布式并行计算 C.关系型数据库 D.其他选项都是

70、下列关于云计算和大数据的说法，错误的是（B）。 A.获取样本的代价很高

B.获取足够大的样本数据乃至全体数据非常容易 C.比抽样调查数据更全面

D.比抽样调查更能反映整个群体的特征与规律 71、下列说法正确的是（C）。

A.有价值的数据是附属于企业经营核心业务的一部分数据 B.数据挖掘它的主要价值后就没有必要再进行分析了 C.所有数据都是有价值的

D.在大数据时代，收集、存储和分析数据非常简单 72、关于数据创新，下列说法正确的是（D）。 A.多个数据集的总和价值等于单个数据集价值相加 B.由于数据的再利用，数据应该永久保存下去

C.相同数据多次用于相同或类似用途，其有效性会降低 D.数据只有开放价值才能得到真正释放

73、关于数据估值，下列说法错误的是（B）。

A.随着数据价值被重视，公司所持有和使用的数据也渐渐纳入了无形资产的范畴 B.无论是向公众开放还是将其锁在公司的保险库中，数据都是有价值的 C.数据的价值可以通过授权的第三方使用来实现

D.目前可以通过数据估值模型来准确的评估数据的价值评估 74、大数据隐私保护的一种创新途径是（D）。 A.匿名化 B.信息模糊化 C.个人隐私保护 D.差别隐私

75、下面关于大数据的解说不正确的是（D）。

A.大数据是人们在大规模数据的基础上可以做到的事情，而这些事情在小规模数据的基础上是无法完成的。

B.大数据是人们获得新的认知、创造新的价值的源泉。

C.大数据还是改变市场、组织机构，以及政府与公民关系的方法。 D.无效的数据越来越多。

76、关于大数据和互联网，以下哪些说法是不正确的（C）。 A.互联网的出现使得监视变得更容易、成本更低廉也更有用处。 B.大数据不管如何运用都是我们合理决策过程中的有力武器。

C.大数据的价值不再单纯来源于它的基本用途，而更多源于它的二次利用。

D.大数据时代，很多数据在收集的时候并无意用作其他用途，而最终却产生了很多创新性的用途。

77、大数据时代对信息进行有效、公正管理的三项策略不包括的是（D）。

A.在使用预测分析时考虑个人动因

B.隐私保护从个人许可到数据使用者承担责任的转变 C.催生大数据审计员 D.将反垄断法付诸行动

78、配置Hadoop时，JAVA_HOME包含在哪一个配置文件中（B）。 A.hadoop-default.xml B.hadoop-env.sh C.hadoop-site.xml D.configuration.xs

79、下列关于Hadoop API的说法错误的是（A）。

A.Hadoop的文件API不是通用的，只用于HDFS文件系统

B.Configuration类的默认实例化方法是以HDFS系统的资源配置为基础的 C.FileStatus对象存储文件和目录的元数据

D.FSDataInputStream是java.io.DataInputStream的子类 80、下列关于聚类挖掘技术的说法，错误的是（B）。

A.不预先设定数据归类类目，完全根据数据本身性质将数据聚合成不同类别 B.要求同类数据的内容相似度尽可能小 C.要求不同类数据的内容相似度尽可能小

D.与分类挖掘技术相似的是，都要对数据进行分类处理 81、下列关于数据交易市场的说法，错误的是（C）。 A.数据交易市场是大数据产业发展到一定程度的产物

B.商业化的数据交易活动催生了多方参与的第三方数据交易市场

C.数据交易市场通过生产数据、研发和分析数据，为数据交易提供帮助 D.数据交易市场是数据资源化的必然产物

82、Hive的元数据是用来存储表的名字，表的列和分区及其属性，一般不会把它存储在（C）。 A.Mysql B.Derby C.HDFS

D.其余选项都可以

83、Hive上查看SQL执行计划的命令是（B）。 A.Show B.Explain C.Describe D.List

84、以下Spark函数中不属于转换的是（C）。 A.Map B.FlatMap C.Reduce

D.ReduceByKey

85、以下哪个调度器是hadoop的默认调度器（B）。 A.计算能力调度器Capacity Scheduler B.调度器FIFO

C.公平调度器FairScheduler

D.异构集群的调度器LATE

86、关于Hadoop map/reduce，正确的表述是（C）。 A.Reduce的数量必须大于零

B.Reduce总是在所有map完成之后再执行 C.Combiner过程实际也是reduce过程 D.Mapper的数量由输入的文件个数决定

87、关于Yarn，下列哪个叙述是错误的（C）。 A.用户向Yarn提交程序

B.ResourceManager管理每个节点上的资源

C.Application Master向Resource Manager注册和申请资源 D.ResourceManager为应用程序分配Container

88、Spark中的Stage的Task的数量由什么决定（A）。 A.Partition B.Job C.Stage

D.TaskScheduler

89、下面不属于Spark与MapReduce相比的表述是（B）。 A.DAG执行引擎，中间结果不落盘 B.线程池模型增多task启动开销 C.充分利用内存，减少磁盘IO D.更适合迭代计算

90、主成分分析（PCA）是一种重要的降维技术，以下对于PCA的描述不正确的是（D）。 A.主成分分析是一种无监督方法

B.主成分数量一定小于等于特征的数量 C.各个主成分之间相互正交

D.原始数据在第一主成分上的投影方差最小 91、以下描述是正确的（C）。

A.所有分类模型对批量数据训练所用时间相对于对一个数据点预测所用时间更长 B.在训练模型时，提取的特征越多，在测试数据集上效果越好

C.当已标注数据较少，且有大量未标注数据时，可以尝试使用半监督学习方法去提高模型的准确性

D.对于同一份数据，参数越多的模型，在测试数据集上效果越好

92、为了得到和SVD一样的投射（projection）需要在PCA中怎么做（A）。 A.将数据转换成零均值 B.将数据转换成零中位数 C.将数据转换成零众数 D.无法做到

93、以下模型不属于判别模型的是（D）。 A.SVM

B.最大熵模型 C.决策树

D.朴素贝叶斯

94、以下不属于线性分类器的是（B）。 A.Logistic Regression

B.贝叶斯分类器 C.GBDT

D.单层感知机

95、在其他条件不变的前提下，以下哪种做法容易引起过拟合问题（D）。 A.增加训练样本量

B.减少神经网络隐藏节点数 C.删除稀疏的特征

D.SVM算法中使用高斯核/RBF代替线性核

96、以下哪种方法不可以直接用来对文本分类（A）。 A.Kmeans B.决策树

C.支持向量机 D.KNN

97、下列哪些方法不可以用来对高维数据进行降维（C）。 A.LASSO B.交叉验证

C.主成分分析法 D.线性判别方法

98、Zookeep在选举过程中，不会出现的选举状态是（C）。 A.LOOKING，竞选状态 B.FOLLOWING，随从状态 C.WAITING,等待状态 D.LEADING，领导者状态

99、Zookeeper的一致性协议Zab,不具有以下哪个特点（D）。 A.高吞吐量 B.低延迟 C.健壮性 D.强扩展性

100、关于HDFS安全模式说法正确的是（B） A.在安全模式下只能写不能读 B.在安全模式下只能读不能写 C.在安全模式下读写都不允许 D.在安全模式下读写都可以

101、(D的是缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果。参考答案: D A.数据清洗 B.数据集成 C.数据变换 D.数据归约

102、关于数据完整性的说法正确的是（D）。

A.实体完整性要求每个实体都必须有一个主键或其他的唯一标识列 B.外键是用来维护两个表之间的级联关系

C.利用主键约束的列不能有重复的值，但允许NULL值

D.记录中某个字段值为NULL，表示该列上没有值 103、有关数据仓库的开发特点,不正确的描述是（A）。 A.数据仓库开发要从数据出发

B.数据仓库使用的需求在开发出去就要明确

C.数据仓库的开发是一个不断循环的过程,是启发式的开发

D.在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式

104、以下关于ETL的说法，错误的是（D）。

A.ETL过程中的主要环节是数据抽取、数据转换和加工、数据流转

B.增量数据抽取过程中，提取增量数据的方法有通过时间戳、建立触发器、全表比对、日志比对等

C.常用ETL工具包括datastage，微软DTS，Informatica等 D.数据清洗需要对维表中的重复数据进行处理 105、下面有关HIVE描述错误的是（D）。

A.Hive的集合数据类型有map，struct，array这三种

B.Hive.mapred.mode=strict表示所有查询语句都必须指定分区 C.Hive.auto.convert.join为mapjoin开关 D.Parquet是行式存储，orc是列式存储

106、下列哪个组件不能使用Hadoop YARN进行资源管理（D）。 A.Spark B.Flink C.Tez D.HDFS

107、关于添加带自增列的数据，下列说法正确的是（B）。 A.自增的列需要显式地添加

B.自增的列无须显式地添加。如需添加全部字段数据时，仅需表名，可省略全部字段

C.自增的列无须显式地添加。如需添加全部字段数据时，虚列出除自增列之外的全部列名 D.自增的列可以显式地添加，也可以非显示地添加 (二)综合应用

1、下列不属于Spark中driver的作用的是（D）。 A.执行main方法

B.把用户程序转化为task C.协调任务的调度

D.负责运行组成Spark应用的任务

2、以下哪个操作可能会产生大量小文件（B）。 A.Mapper数较多的map-only任务 B.Reduer数较多的任务

C.从海量数据中过滤出符合条件的少量数据 D.以上都是

3、关于HDFS安全模式说法正确的是？（B）。 A.在安全模式下只能写不能读 B.在安全模式下只能读不能写 C.在安全模式下读写都不允许 D.在安全模式下读写都可以

4、以下有关神经网络的说法错误的是（A）。

A.MP模型在隐藏层和输出层都对神经元进行激活函数处理 B.使用多层功能神经元可以解决非线性可分问题 C.神经网络“学”到的东西，蕴含在连接权值和阈值中 D.BP算法基于梯度下降策略

5、下列哪个元素不属于元数据内容（D）。 A.Link B.Title C.Script D.Embed

6、Zookeeper在config命名空间下，每个znode最多能存储的数据是（A）。 A.1M B.16M C.512K D.64K

7、以下各项均是针对数据仓库的不同描述，错误的是（A）。 A.数据仓库就是数据库

B.数据仓库是一切商业智能系统的基础

C.数据仓库是面向业务的，支持联机事务处理（OLTP） D.数据仓库支持决策而非事务处理

8、在hive中下列哪些命令不可以实现去重（D）。 A.Distinct B.Group by C.Row_Number D.Having

9、下列哪种索引关系属于空间索引（D）。 A.聚集索引 B.主键索引 C.Hash D.Rtree

10、Vista以上系统对于完整性级别（Integrity Level）描述错误的是（ACD）。 A.低级别可以Read/Write高级别进程的内存

B.低级别进程只能创建和自己完整性级别一样的子进程 C.低级别进程可以打开高级别进程的窗口并向其发送消息

D.完整性级别为SYSTEM的进程，默认会启用系统所有的特权（Privilege） 11、下列关于代理模式应用的场合，说法正确的是（AB）。 A.远程代理，未一个对象在不同的地址空间提供全局代表 B.虚拟代理，根据需要创建开销很大的对象

C.安全代理，当调用真实的对象时，代理处理另外一些事 D.智能指引，用来控制真实对象访问时的权限 12、下列算法中哪个是不可逆的（B）。 A.RSA B.SHA C.DES

D.BASE64

13、区块链中使用哪种数据结构会汇总区块中的交易信息（B）。 A.B+树 B.默克尔树 C.二叉搜索树 D.红黑树

14、关于存储过程，选项中说法错误的是（B）。

A.存储过程就是编译好的一些sql语句，运行速度比较快

B.存储过程可以接受参数，输出参数，返回结果，返回值只能是单个结果。 C.存储过程可以包括程序流、逻辑以及对数据库的查询 D.存储过程主要是在服务器上执行，减少对客户机的压力 15、以下关于外观模式的叙述中正确是（A）。 A.外观模式符合单一职责原则

B.在外观模式中，一个子系统的外部与内部通信通过统一的外观对象进行 C.在外观模式中，客户类只需要直接与外观对象进行交互 D.外观模式是迪米特法则的一种具体实现 16、空间对象就是如何把空间信息表达成数字空间可以处理的形式，而联结现实世界到数据世界的纽带是（C）。 A.空间坐标 B.空间数据编码 C.关系模型 D.关系数据

17、以下关于多线程的叙述错误的是（C）。

A.线程同步的方法包括使用临界区，互斥量，信号量等 B.两个线程同时对简单类型全局变量进行写操作也需要互斥 C.实现可重入函数时，对自动变量也要用互斥量加以保护 D.可重入函数不可以调用不可重入函数 18、栅格数据的基本运算不包括（A）。 A.多个栅格组合 B.栅格图像的平移

C.两个栅格图像的算术组合 D.两个栅格图像的逻辑组合

19、下面关于Hive的说法正确的是？（A）

A.Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文本映射为一张数据库表，并提供简单的SQL查询功能

B.Hive可以直接使用SQL语句进行相关操作

C.Hive能够在大规模数据集上实现低延迟快速的查询

D.Hive在加载数据过程中不会对数据进行任何的修改，只是将数据移动到HDFS中Hive 设定的目录下

20、关于Yarn，下列哪个叙述是错误的？C A.用户向Yarn提交程序

B.ResourceManager管理每个节点上的资源

C.Application Master向Resource Manager注册和申请资源 D.ResourceManager为应用程序分配Container

21、Spark中的Stage的Task的数量由什么决定（A）。 A.Partition B.Job C.Stage

D.TaskScheduler

22、以下关于链表和数组说法错误的是（D）。 A.数组从栈中分配空间，链表从堆中分配空间

B.数组插入或删除元素的时间复杂度O(n)，链表的时间复杂度O(1)

C.数组利用下标定位，时间复杂度为O(1)，链表定位元素时间复杂度O(n) D.对于add和remove，ArrayList要比LinkedList快 23、下列不属于Spark中driver的作用的是（D）。 A.执行main方法

B.把用户程序转化为task C.协调任务的调度

D.负责运行组成Spark应用的任务 24、对于视图的描述错误的是（D）。 A.是一张虚拟的表

B.在存储视图时存储的是视图的定义 C.存储视图时，存储的是视图中的数据 D.可以像查询表一样查询视图

25、在Hadoop2.x中，下面哪个程序负责HDFS数据存储（C）。 A.NameNode

B.Application Master C.Datanode

D.Resource Manager

26、Hive中表的默认存储格式为（A）。 A.TextFile B.Avro

C.SequenceFile D.RCFile

27、Hive内部表和外部表下列哪些说法是错误的（B）。

A.内部表在建表时会在hdfs创建一个表的存储目录，增加分区的时候，会将数据复制到该目录下

B.外部表在删除表时会将表的数据和元数据一起删除 C.内部表在删除表时会将表的数据和元数据一起删除

D.外部表在建表时会在HDFS创建一个表的目录，但数据不会移动到该目录下 28、MapReduce程序对数据的处理主要分为下列过程不包括（D）。 A.Map B.Shuffle C.Reduce D.Stream

29、以下关于Hadoop描述哪些是正确的（A）。 A.Ganglia可以对Hadoop集群进行监控和报警； B.HDFS支持数据的随机读写；

C.HDFS的Block默认保存3份；

D.Yarn中默认的调度器是Fair Schedular 30、下面关于HBase描述，正确的是（A）。 A.支持条件查询； B.支持SQL查询；

C.列族的数量没有性能影响； D.HBase需要依赖MapReduce； 31、以下哪种join性能最差（A）。 A.Nested-loop join

B.Indexed nested-loop join C.Merge-join D.Hash-join

32、以下关于Mapreduce中shuffle过程说法正确的是（A）。

A.如果没有reduce任务，map直接输出到HDFS，则hadoop任务不需要shuffle过程 B.Map的输出会首先输出到HDFS上，然后再copy到reduce的本地磁盘

C.Hadoop容许用户声明使用combiner，此函数会被允许在map的输出数据上，hadoop 框架在每个map输出上会且仅会调用一次

D.Map和reduce之间copy数据是使用的ftp协议 33、HDFS的设计中，没有考虑以下什么特性（D）。 A.超大文件

B.流式的数据访问

C.HDFS基于商用硬件，对于大集群而言，发生节点故障的几率较高 D.低数据延迟

34、以下关于Hadoop中数据压缩说法正确的是（V）。

A.Gzip压缩支持文件分割，输入的文件块可以给多个map任务共用，可能会导致运行时间变长

B.对于大型文件，最好对整个文件进行gzip压缩，提高空间利用率

C.对于gzip的文本压缩文件，可以通过hadoop fs–text方式来查看文件内容

D.在hadoop脚本中通过设置mapred.output.compression.codec=true来设置使用默认压缩算法

35、以下关于Hive以及Hadoop生态系统中其他组件的描述，正确的是（B）。 A.Hbase依赖HDFS存储数据，实现的编程语言为Java

B.Hbase是一个面向列分布式数据库，和hive不同的是，hbase能够在它的数据库上实时运行，而不是运行mapreduce任务

C.Hive不支持数据更新，延迟比较小，可用于实时查询系统

D.Hive采用了SQL的查询语言HQL，其支持了SQL中的所有特性 36、下列spark RDD方法中哪些会产生数据shuffle（B）。 A.Map() B.Max() C.Flatmap()

D.ForeachPartition()

37、Spark下面哪些算子不是transformation算子（D）。 A.Map B.Filter

C.Flatmap D.Count

38、Spark streaming中下面几种数据关系，正确的是（） A.DStream>RDD>Partition B.RDD>DStream>Partition C.Master D.Client

39、下面所列功能，Kafka无法保证的是（A）。 A.有序 B.可靠 C.唯一 D.不重复

40、HBase存储底层数据，是依靠（A）。 A.HDFS B.Memory C.Mapreduce D.Hadoop

41、Spark stage划分是基于（B）。 A.窄依赖 B.宽依赖 C.Task

D.Application

42、下面不可能是spark数据倾斜原因的是（B）。 A.Key有重复数据 B.Key有大量空值

C.Key的类未重载hashcode函数 D.使用java.util.Date类型作为key

43、下列哪个是Hadoop运行的模式（D）。 A.单机模式 B.伪分布式 C.分布式 D.以上都是

44、Elasticsearch集群监控状态不包括（D）。 A.Red B.Yellow C.Green D.Blue

45、关于dropout，下列说法正确的是（D）。

A.Dropout是在训练时以一定概率永久丢弃一部分神经元节点 B.Dropout近似于一种轻量级的bagging集成 C.Dropout近似于一种轻量级的boosting集成 D.Dropout可以加快训练速度

46、关于hadoop中通信，下面描述正确的是（A）。 A.Client和namenode之间是通过rpc通信

B.Datanode和namenode之间是通过socket通信 C.Client和datanode之间是通过简单的rpc通信 D.Datanode和client之间不用通信

47、下面列出特征选择算法中，不属于启发式搜索的是（A）。 A.分支限界搜索 B.序列前向选择搜索 C.增L去R搜索

D.序列浮动选择搜索

48、以下描述中，错误的是（C）。

A.AdaBoost训练过程中基分类器的分类误差率是被该分类器误分类样本的权重之和 B.随机森林训练过程中对样本进行有放回抽样

C.Bagging方法主要关注降低偏差，而Boosting方法主要关注降低方差 D.XGBoost使用了损失函数的二阶导数信息，传统GBDT只用了一阶导数 49、用决策树法训练大量数据集，最节约时间的是（C）。 A.增加学习率

B.增加树的深度；增加学习率 C.减少树的深度

D.减少树的深度；减少树的个数

50、以下不属于线性分类器的是（C）。 A.Logistic Regression B.贝叶斯分类器 C.GBDT

D.单层感知机

51、下列哪些方法不可以用来对高维数据进行降维（B）。 A.LASSO B.交叉验证

C.主成分分析法 D.线性判别方法

52、HDFS是基于流数据模式访问和处理超大文件的需求开发，默认的基本的存储单位是64M

数据块，如果需要每个数据块可分布不同节点上，具有高可靠性，高可扩展性，高吞吐量等特性，其适合的任务是（D）。 A.多次写入，少次读取 B.多次写入，多次读取 C.一次写入，少次读取 D.一次写入，多次读取

53、下列关于大数据生态体系描述，错误的是（B）。 A.Hadoop MapReduce只适用于批量处理数据

B.MapReduce/Spark/Flink/Storm均支持使用YARN调度资源

C.Flink和Spark既支持批量计算，也支持流式计算，两者流式计算的本质都是微批处理 D.Spark Streaming支持秒级延迟，其吞吐量优于Storm 54、下列说明中，描述正确的是（A）。

A.Impala查询速度快，但不适合进行大规模数据的查询

B.在多用户同时进行查询的情况下，Impala的查询性能急剧恶化

C.Impala的SQl语法与Hive一致

D.Impala与Hive使用相同的ODBC驱动和JDBC驱动 55、ETL过程不包含的是（C）。 A.抽取 B.装载 C.整理 D.转换

56、有关数据仓库的开发特点，描述不正确的是（A）。 A.数据仓库开发要从数据出发

B.数据仓库使用的需求在开发出去就要明确

C.数据仓库的开发是一个不断循环的过程,是启发式的开发

D.在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式

57、以下关于ETL的描述，错误的是（C）。

A.ETL过程中的主要环节是数据抽取、数据转换和加工、数据流转

B.增量数据抽取过程中，提取增量数据的方法有通过时间戳、建立触发器、全表比对、日志比对等

C.常用ETL工具包括datastage，微软DTS，Informatica等 D.数据清洗需要对维表中的重复数据进行处理 58、关于Hive中的压缩格式，说法错误的是（D）。

A.TextFile是Hive默认格式，不作压缩，磁盘及网络开销较大。可以结合Gzip, Bzip2使用，但使用这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作

B.SequenceFile是Hadoop API提供支持的一种二进制文件，具有使用方便，可分割，可压缩的特点，支持三种压缩选择：NONE, RECORD, BLOCK。RECORD压缩率低，一般建议使用BLOCK压缩

C.RCFILE是一种行列存储相结合的的存储方式。首先，将数据按行分块，保证同一个record 在一个块上，避免读一个记录需要读取多个block。其次，块数据列式存储，有利于数据压缩

D.相比TEXTFILE和SEQUENCEFILE，RCFILE由于列式存储方式，数据加载时性能消耗较小，且具有较好的压缩比和查询响应

59、下面有关HIVE描述，错误的是（D）。

A.Hive的集合数据类型有map，struct，array这三种

B.hive.mapred.mode=strict表示所有查询语句都必须指定分区 C.hive.auto.convert.join为mapjoin开关 D.parquet是行式存储，orc是列式存储

60、下列组件中，不能使用Hadoop YARN进行资源管理的是（B）。 A.Spark B.Flink C.Tez D.HDFS

61、启用Hadoop2版本的Namenode高可用之后，不再使用的组件是（B）。 A.Zookeeper B.JournalNode C.DataNode

D.SecondaryNameNode

62、以下关于Flume的说明，错误的是（D）。

A.Flume以agent为最小的独立运行单位，一个agent就是一个JVM。单agent由Source、 Sink和Channel三大组件构成

B.Flume的数据流由事件（Event）贯穿始终，事件是Flume的基本数据单位

C.Flume三种级别得可靠性保障，从强到弱依次为：end-to-end、Store on failure、BesteffortD.Channel中filechannel可将数据持久化到本地磁盘，但配置较为麻烦，需要配置数据目

录和checkpoint目录，不同的file channel可以配置同一个checkpoint目录 63、关于添加带自增列的数据的说明，正确的是（D）。 A.自增的列需要显式地添加

B.自增的列无须显式地添加。如需添加全部字段数据时，仅需表名，可省略全部字段

C.自增的列无须显式地添加。如需添加全部字段数据时，虚列出除自增列之外的全部列名 D.自增的列可以显式地添加，也可以非显示地添加 64、有关数据仓库测试的说明，不正确的是（D）。

A.在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试

B.当数据仓库的每个单独组件完成后,就需要对他们进行单元测试

C.系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试 D.在测试之前没必要制定详细的测试计划

65、以下关于HDFS中Block的描述，正确的是（C）。

A.一个磁盘有自己的块大小，一般为512个字节，HDFS中的块大小与本地磁盘保持一致 B.为了容错，一般Block的默认备份1份，并且会尽量考虑到网络拓扑进行分布式存储 C.由于分布式文件系统中使用Block来抽象数据存储，由于文件的分块不需要存储在同一个机器上，所以HDFS的文件可以大于每个单独的磁盘大小 D.数据文件的各个Block主要存储在namenode上 66、Impala与下列哪个组件共享元数据信息（D）。 A.HDFS B.Hive C.Pig D.Oozie

67、Spark中以下能进行真实计算的操作是（D）。 A.Map B.Join

C.ReduceByKey D.Collect

68、下面关于Kafka的说明，不正确的是（C）。

A.Producer根据指定的partition方法，将消息发布到指定topic的partition

B.Kafka集群接收到Producer发过来的消息后，将其持久化到硬盘，并保留消息指定时长，而不关注消息是否被消费

C.Kafka某个Topic的消息一旦被消费掉后，不会再被其他消费者重复消费

D.Kafka消费者可以指定从最早的offset开始消费，也可指定从最新的offset开始消费 69、Spark支持的分布式部署方式中，下面错误的是（D）。 A.Standlone

B.Spark on mesos C.Spark on YARN D.Spark on local

70、关于SecondaryNameNode，下面正确的是（C）。 A.它是NameNode的热备 B.它对内存没有要求

C.它的目的是帮助NameNode合并编辑日志，减少NameNode启动时间 D.SecondaryNameNode应与NameNode部署到一个节点

71、下面有关文件系统元数据的描述，下面描述错误的是（D）。

A.元数据指用来描述一个文件的特征的系统数据，诸如访问权限、文件拥有者以及文件数据块的分布信息等等

B.我们可以使用stat命令来查看文件更多的元数据信息 C.Unix/Linux系统允许多个文件名指向同一个inode号码

D.文件A和文件B的inode号码虽然不一样，但是文件A的内容是文件B的路径。读取文件A时，系统会自动将访问者导向文件B，这时文件A就称为文件B的"硬链接 "

72、下面哪一个步骤在MapReduce中没有的（D）。 A.Partition B.Sort

C.Combine D.Copy

73、下述各类表中，可以随机访问的是（D）。 A.单向链表 B.双向链表

C.单向循环链表 D.顺序表

74、下面概念与Spark无关的是（C）。 A.Graphx

B.StructruedStreaming C.Spout

D.Data Frames

75、以下哪一种情况是最不可能导致一个Hive任务运行缓慢的原因（D）。 A.Uber Task B.Data Skew

C.Garbage collection D.Task Speculate

76、下列关于聚类挖掘技术的说法中，错误的是（B）。

A.不预先设定数据归类类目，完全根据数据本身性质将数据聚合成不同类别 B.要求同类数据的内容相似度尽可能小 C.要求不同类数据的内容相似度尽可能小 D.其他项不都正确

77、关于大数据在社会综合治理中的作用，以下理解不正确的是（C）。 A.大数据的运用有利于走群众路线 B.大数据的运用能够维护社会治安

C.大数据的运用能够杜绝抗生素的滥用 D.大数据的运用能够加强交通管理

78、下列关于聚类挖掘技术的说法中，错误的是（B）。

D.与分类挖掘技术相似的是，都是要对数据进行分类处理 79、下列关于大数据预测的描述中，错误的是（D）。 A.人类的生活正在被大数据预测深刻改变 B.预测性分析是大数据最核心的功能

C.分析从“面向已经发生的过去”转向“面向即将发生的未来”是大数据与传统数据的最大区别

D.大数据预测则是基本大数据和预测模型去预测过去某件事情的概率

80、开发一个MapReduce作业，Mapper输入数据的Key是年份（IntWritable），Value表示产品标识（Text）。下列哪一项决定该Mapper的数据类型（D）。 A.JobConf.setMapInputKeyClass与JobConf.setMapInputValuesClass B.HADOOP_MAP_DATATYPES环境变量

C.随作业一起提交的mapper-specification.xml文件 D.InputFormat格式类

81、HDFS无法高效存储大量小文件，为改进后让它能处理好小文件，比较可行的改进策略不包（D）。

A.利用SequenceFile、MapFile、Har等方式归档小文件 B.多Master设计

C.Block大小适当调小

D.调大namenode内存或将文件系统元数据存到硬盘里 82、下列哪个程序通常与NameNode在一个节点启动（）。 A.SecondaryNameNode B.DataNode C.TaskTracker D.Jobtracker

82、下面与HDFS类似的框架是（D）。 A.NTFS B.FAT32 C.GFS D.EXT3

83、HDFS的是基于流数据模式访问和处理超大文件的需求而开发的，默认的最基本的存储单位是64M，具有高容错、高可靠性、高可扩展性、高吞吐率等特征，下面适合执行读写的操作任务是（C）。

A．一次写入，少次读写 B．多次写入，少次读写 C．一次写入，多次读写 D．多次写入，多次读写

84、智能健康手环的应用开发，其数据采集属于下面数据采集技术中心的（B）。 A.统计报表

B.传感器 C.API接口 D.网络爬虫

85、数据生命周期管理中，属于执行方法的是（C）。 A.数据存储和备份规范 B.数据价值发觉和利用 C.数据管理和维护

D.数据应用开发和管理

86、下列关于数据生命周期管理的表述中，错误的是（D）。

A.数据从生产到被删除销毁的过程中，具有多个不同的数据存在阶段 B.在不同的数据存在阶段，数据的价值是不同的

C.根据数据价值得到不同应该对数据才去不同的管理策略 D.数据生命周期管理旨在产生效益的同时，降低生产成本 87、以下哪个场景中，不常用稀疏矩阵来表示的是（D）。 A.Netflix等网站中，给用户推荐电影

B.Twitter等社交网站中，描述用户间的关系 C.文本的Bag-Of-Word表示 D.完全图的表示

88、Seq2seq不适用于以下哪个场景的建模（D）。 A.翻译 B.人机对话

C.文本摘要生成

D.使用AlexNet做图像分类

89、以下能解决异或问题算法的是（C）。 A.Logistic Regression

B.2-nearest-neighbor classifier(with Euclidean distance) C.DecisionTree

D.SVM with linear kernel

90、以下描述中，错误的是（D）。

A.AdaBoost训练过程中基分类器的分类误差率是被该分类器误分类样本的权重之和 B.随机森林训练过程中对样本进行有放回抽样

C.Bagging方法主要关注降低偏差，而Boosting方法主要关注降低方差 D.XGBoost使用了损失函数的二阶导数信息，传统GBDT只用了一阶导数

91、假定目标变量的类别非常不平衡，即主要类别占据了训练数据的99%。现在你的模型在测试集上表现为99%的准确度。那么下面哪一项表述是正确的（A）。 A.准确度适合于衡量不平衡类别问题

B.精确率和召回率适合于衡量不平衡类别问题 C.精确率和召回率不适合于衡量不平衡类别问题 D.其他选项都不对

92、评估模型之后，得出的模型存在偏差，下列哪种方法可能解决这一问题（A）。 A.减少模型中特征的数量 B.向模型中增加更多的特征 C.增加更多的数据 D.其他选项均正确

93、关于logistic回归和SVM不正确的描述是（A）。 A.Logistic回归目标函数是最小化后验概率

B.Logistic回归可以用于预测事件发生概率的大小 C.SVM目标是结构风险最小化 D.SVM可以有效避免模型过拟合

94、重复的数据，会增加磁盘空间的占有率，延长操作数据的时间。可以使用规范化处理数据冗余，以下对符合第一范式的表述正确的是（C）。 A.非键属性和键（主键）属性间没有传递依赖 B.非键属性和键（主键）属性间没有部分依赖

C.表中不应该有重复组。列重复拆成另外一张表；行重复拆成多行 D.一个表中的列值与其他表中的主键匹配

95、图像挖掘中常用卷积神经网络（DNN）作为基础结构，以下关于卷积操作（conv）和池化（pooling）的描述，正确的是（A）。

A.Conv基于平移不变性，pooling基于局部相关性 B.Conv和pooling都基于平移不变性

C.Conv基于局部相关性，pooling基于平移不变性 D.Conv和pooling都基于局部相关性

96、关于Hive中的压缩格式，描述错误的是（A）。

D.相比TEXTFILE和SEQUENCEFILE，RCFILE由于列式存储方式，数据加载时性能消耗较小，且具有较好的压缩比和查询响应

97、在有关数据仓库测试中，下列描述不正确的是（D）。

A.在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试

B.当数据仓库的每个单独组件完成后,就需要对他们进行单元测试

C.系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试 D.在测试之前没必要制定详细的测试计划

98、以下关于HDFS中Block的描述，正确的是（C）。

99、以下关于Hadoop中反序列化描述，错误的是（A）。 A.Hadoop中对象的反序列化直接使用了Java Serialization

B.Hadoop中对象序列化的接口为org.apache.hadoop.io.Writable

C.Writable机制和java.io.Serializable不同，Writable接口不是一个说明性接口,包含了

两个方法，分别为write和readFields

D.大部分的MapReduce程序都使用Writable键–值对作为输入和输出，

但这并不是Hadoop的API指定的，其他序列化机制也能和Hadoop配合，并应用于MapReduce中 (三)应用算法基础

1、下面不属于非关系型数据库的是（C）。 A.Redis B.Oraclel C.MongoDb D.HBase

2、Oracle中下列哪个表达式值为true（A）。 A.null = null ‘’

B.= null C.0 =null

D.以上三个都不为true

3、对于数据仓库的特点，下列描述错误的是（B）。 A.将来自多个数据源的数据进行整合 B.数据仓库一般支撑数据实时更新和修改 C.数据仓库通过ETL将数据进行清洗整合 D.以上都不正确

4、以下数据结构中不属于线性数据结构的是（C）。 A.队列 B.线性表 C.二叉树 D.栈

5、在关系数据库系统中，为了简化用户的查询操作，同时不增加数据的存储空间，常用的方法是创建（C）。 A.另一个table B.Cursor C.View D.Index

6、以下各项针对数据仓库的说法，不正确的是（A）。 A.数据仓库就是数据库

B.数据仓库是一切商业智能系统的基础

C.数据仓库是面向业务的，支持联机事务处理（OLTP） D.数据仓库支持决策而非事务处理

7、关于数据结构的下列描述，错误的是（C）。 A.红黑树插入操作的平均时间复杂度为0（log n），最坏时间复杂度为0（log n） B.B+树插入操作的平均时间复杂度为0（log n），最坏时间复杂度为0（log n） C.Hash插入操作的平均时间复杂度为0（log n），最坏时间复杂度为0（n） D.排序链表插入操作的平均时间复杂度为0（n），最坏时间复杂度为0（n） 8、关于数据完整性，描述正确的是（D）。

A.实体完整性要求每个实体都必须有一个主键或其他的唯一标识列

B.外键是用来维护两个表之间的级联关系

C.利用主键约束的列不能有重复的值，但允许NULL值 D.记录中某个字段值为NULL，表示该列上没有值

9、数据库系统中采用封锁技术的目的，是为了保证（A）。 A.数据的一致性 B.数据的可靠性 C.数据的完整性 D.数据的安全性

10、下列叙述中，正确的是（C）。

A.数据库是一个独立的系统,不需要操作系统的支持 B.数据库设计是指设计数据库管理

C.数据库技术的根本目标是要解决数据共享的问题 D.数据库系统中,数据的物理结构必须与逻辑结构一致 11、对线性表进行二分查找，其前提条件是（B）。 A.顺序表

B.有序的顺序表 C.链表

D.有序的链表

12、下列叙述中正确的是（A）。

A.循环队列中的元素个数随队头指针与队尾指针的变化而动态变化 B.循环队列中的元素个数随队头指针的变化而动态变化 C.循环队列中的元素个数随队尾指针的变化而动态变化 D.以上说法都不对

13、采用递归方式对顺序表进行快速排序，下列关于递归次数的叙述中，正确的是（D）。 A.递归次数与初始数据的排列次序无关

B.每次划分后，先处理较长的分区可以减少递归次数 C.每次划分后，先处理较短的分区可以减少递归次数 D.递归次数与每次划分后得到的分区处理顺序无关 14、关于哈弗曼树，下列描述中错误的是（A）。 A.为字符编码需要从叶节点开始再向上

B.哈弗曼树可以通过在优先级队列中的插入和移除操作来创建 C.最常出现的字符总是在靠近树顶附近出现

D.通常，信息解码需要重复的顺着根到叶的路径走

15、对于静态表的顺序查找法，若在表头设置监视哨，则正确的查找方式为（C）。 A.从第0个元素往后查找该数据元素 B.从第1个元素往后查找该数据元素

C.从第n个元素往开始前查找该数据元素 D.与查找顺序无关 16、有10000个无序的整数，希望使用最快的方式找出前50个最大的，最佳的选择是（C） A.冒泡排序 B.基数排序 C.堆排序 D.快速排序

17、下列叙述中，错误的是（A）。

A.对于各种特定的输入,算法的时间复杂度是固定不变的 B.算法的时间复杂度与使用的计算机系统无关 C.算法的时间复杂度与使用的程序设计语言无关

D.算法的时间复杂度与实现算法过程中的具体细节无关

18、为了方便的在线性结构的数据中连续插入新的元素，数据存储宜采用（D）。 A.顺序存储 B.散列存储 C.索引存储 D.链式存储

19、以下哪个数据结构不是多型数据类型（D）。 A.栈 B.广义表 C.有向图 D.字符串

20、下列的陈述中，错误的是（D）。 A.数组是稠密列表并且是静态数据结构

B.链表中的数据元素不需存在相邻的内存空间 C.指针存储了链表的下一个节点的数据 D.链表是节点数据和下一节点指针的集合

21、在数据库管理系统中，索引中使用的数据结构类型为（A）。 A.哈希数据结构 B.树数据结构

C.内容和词汇表结构 D.A和B

22、现在假设对N个元素的链表做顺序查找，若查找每个元素的概率相同，则平均查找长度为（A）。 A.(N+l)/2 B.N/2 C.N

D.[(1+N)*N]／2

23、为了防止过拟合，在训练神经网络时，会加入许多技巧。请问以下技巧中既可以防止过拟合，又可以使最终参数具有稀疏性的是（A） A.Early Stop

B.Batch Normalization

C.Add L1 Regularization to Parameters D.Dropout

24、关于支持向量机SVM,下列说法错误的是（C）。

A.L2正则项，作用是最大化分类间隔，使得分类器拥有更强的泛化能力 B.Hinge损失函数，作用是最小化经验分类错误 C.分类间隔为1/||w||，||w||代表向量的模

D.当参数C越小时，分类间隔越大，分类错误越多，趋于欠学习 25、下面哪一项用决策树法训练大量数据集最节约时间（C）。 A.增加学习率

B.增加树的深度；增加学习率

C.减少树的深度

D.减少树的深度；减少树的个数

26、以下常见的时间序列算法模型是（C）。 A.RSI B.MACD C.ARMA D.KDJ

27、下列有关模式挖掘算法的描述，错误的是（C）。

A.AprioriAll算法和GSP算法都属于Apriori类算法，都要产生大量的候选序列

B.FreeSpan算法和PrefixSpan算法不生成大量的候选序列以及不需要反复扫描元数据库 C.在时空的执行效率上，FreeSpan比PrefixSpan更优 D.和AprioriAll相比，GSP的执行效率比较高

28、请指出堆排序、选择排序、冒泡排序、快速排序、的时间复杂度（A）。 A.nlogn、n^2、n^2、nlogn B.n^2、n^2、n^2、nlogn C.nlogn、nlogn、n^2、nlogn D.nlogn、n^2、n^2、n^2

29、以下关于链表和数组描述，正确的是（BC）。 A.数组从栈中分配空间，链表从堆中分配空间

B.数组插入或删除元素的时间复杂度O(n)，链表的时间复杂度O(1)

C.数组利用下标定位，时间复杂度为O(1)，链表定位元素时间复杂度O(n) D.对于add和remove，ArrayList要比LinkedList快

30、下面有关值类型和引用类型描述，不正确的是（BCD）。

A.值类型的变量赋值只是进行数据复制，创建一个同值的新对象，而引用类型变量赋值，仅仅是把对象的引用的指针赋值给变量，使它们共用一个内存地址。

B.值类型数据是在栈上分配内存空间，它的变量直接包含变量的实例，使用效率相对较高。而引用类型数据是分配在堆上，引用类型的变量通常包含一个指向实例的指针，变量通过指针来引用实例。

C.引用类型一般都具有继承性，但是值类型一般都是封装的，因此值类型不能作为其他任何类型的基类。

D.值类型变量的作用域主要是在栈上分配内存空间内，而引用类型变量作用域主要在分配的堆上

31、以下算法中，未用到贪心算法思想的是（D）。 A.迪杰斯特拉(Dijkstra) B.库鲁斯卡尔(Kruskal) C.普里姆算法(Prim) D.KMP

(四)软件工程及其他

1、软件测试的目的是（B） A.评价软件的质量 B.发现软件的错误

C.找出软件中的所有错误 D.证明软件是正确的

2、软件生命周期是指（A）。

A.软件产品从提出、实现、使用维护到停止使用退役的过程 B.软件的工程实施阶段 C.软件的开发与管理 D.软件的实现和维护

3、经济可行性研究的范围包括（C） A.资源有效性 B.管理制度 C.效益分析 D.开发风险

4、程序的三种基本控制结构是（B） A.过程、子程序和分程序 B.顺序、选择和重复 C.递归、堆栈和队列 D.调用、返回和转移

5、可移植性指软件从一个运行环境下转移到另一环境下的难易程序。为提高软件的可移植性应注意哪些？（D） A.使用方便性 B.简洁性 C.可靠性

D.设备不依赖性

6、软件维护困难的主要原因是（C）。 A.费用低 B.人员少

C.开发方法的缺陷 D.得不到用户支持

7、在开发信息系统的过程中，程序设计语言的选择非常重要。下面选项中，选择准则（）是错误的。（D）

A.将来能否占主导地位 B.可重用性

C.有良好的开发工具支持

D.技术越先进的程序设计语言越好

8、可行性分析是在系统开发的早期所做的一项重要的论证工作，它是决定该系统是否开发的决策依据，因必须给出（B）的回答。 A.确定 B.行或不行 C.正确 D.无二义

9、下面关于并行和并发的区别，说法错误的是（C）。

A.并发计算是一种程序计算的形式，在系统中，至少有两个以上的计算在同时运作，计算结果可能同时发生

B.并行计算指许多指令得以同时进行的计算模式。在同时进行的前提下，可以将计算的过程分解成小部份，之后以并发方式来加以解决

C.并行是同时发生的多个并发事件，并发事件之间一定要同一时刻发生 D.并发是逻辑上的同时发生（simultaneous），而并行是物理上的同时发生

10、软件调试技术包括（B） A.边界值分析 B.演绎法 C.循环覆盖 D.集成测试 11、用来辅助软件开发、运行、维护、管理、支持等过程中的活动的软件称为软件开发工具，通常也称为（D）工具。 A.CAD B.CAI C.CAM D.CASE

12、原型化方法是软件开发中一类常用的方法，它与结构化方法相比较，更需要（D）。 A.明确的需求定义 B.完整的生命周期 C.较长的开发时间 D.熟练的开发人员

13、地图的构成要素（C）

A.投影要素、坐标要素、比例尺要素 B.数学要素、地理要素、整饰要素 C.地貌要素、居民地要素、交通要素 D.自然要素、社会经济要素、辅助要素

14、以下（B）方式不是用来提高软件系统可靠性的手段。 A.在客户端层设置本地化缓存 B.在服务器端设置集群

C.在数据库层设置分布式存储 D.为关键算法设置冗余

15、不属于面向对象方法学特点的有（C）。

A.以解决问题域的方法为主线，组织软件开发活动。 B.以数据为主线，组织软件开发活动。 C.承前启后

D.保证了各项软件开发活动之间的平滑过渡 16、下面属于软件定义阶段任务的是（A） A.需求分析 B.软件测试 C.详细设计 D.系统维护

17、从结构化的瀑布模型看，在它的生命周期中的八个阶段中，下面的几个选项中哪个环节出错，对软件的影响最大（C） A.详细设计阶段 B.概要设计阶段 C.需求分析阶段 D.测试和运行阶段 18、在软件开发过程中，我们可以采用不同的过程模型，下列有关增量模型描述正确的（B） A.已使用一种线性开发模型，具有不可回溯性

B.把待开发的软件系统模块化，将每个模块作为一个增量组件，从而分批次地分析、设计、编码和测试这些增量组件

C.适用于已有产品或产品原型（样品），只需客户化的工程项目 D.软件开发过程每迭代一次，软件开发又前进一个层次

19、耦合性和内聚性是对模块独立性度量的两个标准。下列叙述中正确的是（B）。 A.提高耦合性降低内聚性有利于提高模块的独立性 B.降低耦合性提高内聚性有利于提高模块的独立性

C.耦合性是指一个模块内部各个元素间彼此结合的紧密程度 D.内聚性是指模块间互相连接的紧密程度

20、面向对象程序设计中，基于父类创建的子类具有父类的所有特性（属性和方法），该特点称为类的（C）。 A.多态性 B.封装性 C.继承性 D.重用性

21、在软件设计和编码过程中，采取（C）的做法将使软件更加容易理解和维护。 A.良好的程序结构，有无文档均可 B.使用标准或规定之外的语句

C.编写详细正确的文档，采用良好的程序结构 D.尽量减少程序中的注释

22、计算机描述空间实体的两种最基本的方式是栅格数据结构和（A） A.矢量数据结构 B.二进制数据结构 C.ASCII码数据 D.十进制数据结构

23、软件生命周期中所花费用最多的阶段是（D）。 A.详细设计 B.软件编码 C.软件测试 D.软件维护

24、对象间存在一对多关系，当一个对象被修改时，则会自动通知它的依赖对象，采用以下哪种设计模式最好？B A.建造者模式 B.观察者模式 C.策略模式 D.代理模式

25、以下对几种模块间耦合类型的耦合程度由高到低排序，完全正确的是（B）。 A.直接耦合>控制耦合>非直接耦合 B.内容耦合>标记耦合>数据耦合 C.外部耦合>公共耦合>数据耦合 D.程序耦合>控制耦合>标记耦合

26、以下_C__不是软件需求规约(SRS)所能够起到的作用。 A.作为客户与软件开发团队之间签订正式合同的基础 B.为软件项目的成本、时间、风险估计提供依据

C.充分描述现实中的业务问题，以指导后续的软件编码 D.通过形成需求基线，支持需求的演化与变更 27、进程间的基本关系为（C）。 A.相互独立与互相制约 B.同步与互斥

C.并行执行与资源共享 D.信息传递与信息缓冲

28、对进程和线程的描述,以下正确的是(D)

A.父进程里的所有线程共享相同的地址空间,父进程的所有子进程共享相同的地址空间 B.改变进程里面主线程的状态会影响到其他线程的行为,改变父进程的状态不会影响到其他子进程

C.多线程会引起死锁,而多进程不会 D.其他选项都不正确

29、下面有关共享内存，说法不正确的是？（D）

A.共享内存和使用信号量一样，属于进程间通信的一种方式。 B.使用shmget函数来创建共享内存

C.尽管每个进程都有自己的内存地址，不同的进程可以同时将同一个内存页面映射到自己的地址空间中，从而达到共享内存的目的

D.共享内存提供了同步机制，在第一个进程结束对共享内存的写操作之前，会有自动机制可以阻止第二个进程开始对它进行读取 30、（D）不是面向对象设计的四个原则之一 A.Dependency Inversion Principle B.Interface Segregation Principle C.Open-Closed Principle

D.Parsimonious Complexity Principle

31、下面关于线程同步说法错误的是（D）。 A.用户模式和内核模式下同步方式不同

B.对于临界区的访问适用于单进程中线程间的同步 C.事件对象适用于多个进程间的各线程实现同步 D.互斥对象也只适用于单进程中线程间的同步

二、主观部分

1、大数据源一般分为哪几类？各有什么特点？ 2、大数据聚类处理的意义是什么？采用什么技术？ 3、大数据清洗的意义是什么？采用什么技术？

4、大数据的定义是什么？大数据具有什么样的特征？ 5、什么是数据仓库？怎样建立？

6、大数据应用需要什么样的基础设施？原因是什么？

7、互联网大数据如何获取？采用那些技术？数据存放应该如何考虑？ 8、数据获取后怎样保证数据的有效性？数据安全从哪些方面考虑？

9、数据的可视化应用是指的什么？应从哪些方面进行考虑？采用哪些技术？ 10、大数据应用的核心是什么？与人工智能有何异同？ 11、大数据与云计算、存储中心、超算中心有无关联？

12、大数据应用的重要前提是什么？大数据应用与那些因素相关联？

13、企业数字化、数字企业化有何区别？与大数据产业之间有何联系？ 14、数字基建的核心是什么？对大数据产业的影响有哪些？ 15、大数据应用与行业背景有何关系？目前的应用特点是什么？

16、结构化数据、非结构化数据、半结构化数据怎样定义？在实际应用中怎样处理？采用什么样的技术？

17、PYTHON工程师，HADOOP工程师，SPARK工程师有何区别？ 18、中国有哪些大数据平台？可以分为哪几类？应用于那些场景？

19、大数据应用项目管理应从哪些方面考虑？大数据应用中的需求分析应从那些方面考虑？ 20、MapReduce是什么概念？主要用于什么场合？

21、为什么把数据看做能升值的生产资料？DT和IT在概念上有何异同？ 22、大数据的基本处理流程与传统的数据处理流程有何异同？ 23、Hadoop的生态系统是指的什么？有何特点？ 24、大数据计算模式与系统是指的什么？

25、大数据分析与可视化是指的什么？大数据分析有哪些方式？ 26、知识图谱与大数据应用之间有何联系？

27、大数据生命周期是指的什么？对大数据应用开发有何意义？

28、大数据应用中的预处理是指的什么？包含哪些环节？采用那些技术？ 29、大数据应用中机器学习与并行计算有何意义？有哪些基本属性？ 30、大数据中的Atlas是什么技术？有何作用？

31、在大数据领域中，数据治理是什么概念？有何意义？

32、在大数据领域，可视化的概念是什么？存在的难点有哪一些？ 33、大数据中语义引擎是指的什么？是一种什么技术？用于什么情况？ 34、大数据与人工智能有何区别与联系？

35、传感数据的特点是什么？与互联网数据相比在数据预处理有何差异？

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

大数据理论知识