河南财大成教《大数据基础》高起专原题及答案

九级浪 发表于 2024-11-28 23:17:33|来自:中国 | 显示全部楼层 |阅读模式

河南财大成教《大数据基础》高起专原题及答案 图1

 河南财大成教《大数据基础》高起专原题及答案 图1

1、关于推荐系统的说法错误的是()
A.推荐系统的架构为离线计算-在线计算-推荐引擎APP
B.推荐系统的相关技术包括机器学习及数据挖掘算法等
C.推荐系统的常见表现形式有猜你喜欢、买了又买、精品推荐等
D.推荐系统经历了很短的时间形成
答案:D

2、大数据思维是指一种()。
A.知识
B.想法
C.思想
D.意识
答案:D

3、以下说法错误的是()。
A.将罪犯的定罪权放在数据手中,借以表达对数据和分析结果的崇尚,这实际上是一种滥
B.随着数据量和种类的增多,大数据促进了数据内容的交叉检验,匿名化的数据不会威胁到任何人的隐私
C.采集个人数据的工具就隐藏在我们日常生活所必备的工具当中,比如网页和智能手机应用程序
D.预测与惩罚,不是因为所做,而是因为将做
答案:B

4、()是数据分析工具最基本的要求。
A.数据挖掘
B.可视化分析
C.数据质量和管理
D.预测性分析
答案:B

5、下列说法正确的是()。
A.有价值的数据是附属于企业经营核心业务的一部分数据
B.数据挖掘它的主要价值后就没有必要再进行分析了
C.所有数据都是有价值的
D.在大数据时代,收集、存储和分析数据非常简单
答案:C

6、关于数据创新,下列说法正确的是()。
A.多个数据集的总和价值等于单个数据集价值相加
B.由于数据的再利用,数据应该永久保存下去
C.相同数据多次用于相同或类似用途,其有效性会降低
D.数据只有开放价值才能得到真正释放
答案:D

7、回归分析方法反映的是将事务数据库中属性值在()的特征。
A.地点上
B.空间上
C.时间上
D.以上都不是
答案:C

8、本质上,世界是由()构成的。
A.数据
B.知识
C.信息
D.数字
答案:C

9、数据仓库的最终目的是()。
A.收集业务需求
B.建立数据仓库逻辑模型
C.开发数据仓库的应用分析
D.为用户和业务部门提供决策支持
答案:D

10、关于聚类挖掘,表述错误的是()
A.好聚类的方法的标准是要产生高质量的聚类结果
B.好的聚类结果应该有高类内相似性和低类间相似性这样的特征
C.聚类结果的好坏取决于相似性的度量方法以及具体实现
D.聚类结果的好坏与能否发现隐含模式无关
答案:D

11、关联规则挖掘的应用领域有哪些
A.①②
B.①②③
C.②④
D.①②③④
答案:D

12、以下不属于网络舆情的主要来源的是()
A.论坛与BBS
B.QQ
C.书信
D.微信
答案:C

13、下列关于计算机存储容量单位换算关系的公式中,正确的是()
A.1012KB
B.1GB
C.1KB
D.1012Byte
答案:D

14、导入与预处理过程的特点和挑战是()。
A.数据量大,导致企业不堪重负
B.成本增长速度快
C.隐私安全
D.以上选项都不正确
答案:A

15、哪个不属于知识发现的步骤()
A.数据清理
B.数据选择
C.数据集成
D.数据开发
答案:D

16、舆情的系统架构正确的是()
A.规划-采集-存储-分析-报告-管控
B.规划-存储-分析-采集-报告-管控
C.规划-存储-采集-分析-报告-管控
D.规划-采集-分析-存储-报告-管控
答案:A

17、不属于社交网络特点的是()
A.海量用户
B.数据单一
C.完整数据
D.实时数据
答案:B

18、()央行已经开始运用大数据对房地产市场和劳动力市场趋势作出快速判断。
A.美国
B.英国
C.法国
D.中国
答案:B

19、大数据时代,我们是要让数据自己“发声”,没必要知道为什么,只需要知道()。
A.原因
B.是什么
C.关联物
D.预测的关键
答案:B

20、数据关联是数据库中存在的一类重要的()的知识。
A.可被发现
B.无法发现
C.不确定的
D.确定的
答案:A

21、大数据的特点不包含
A.数据体量大
B.价值密度高
C.处理速度快
D.数据不统一
答案:D

22、数据清洗的方法不包括
A.缺失值处理
B.噪声数据清除
C.一致性检查
D.重复数据记录处理
答案:D

23、购物篮问题是()的典型案例
A.数据变换
B.关联规则挖掘
C.数据分类
D.以上都不对
答案:B

24、下列论据中,能够支撑“大数据无所不能”的观点的是()。
A.互联网金融打破了传统的观念和行为
B.大数据存在泡沫
C.大数据具有非常高的成本
D.个人隐私泄露与信息安全担忧
答案:A

25、MacOS系统的开发者是()。
A.微软公司
B.惠普公司
C.苹果公司
D.IBM公司
答案:C

26、下列关于数据交易市场的说法中,错误的是()。
A.数据交易市场是大数据产业发展到一定程度的产物
B.商业化的数据交易活动催生了多方参与的第三方数据交易市场
C.数据交易市场通过生产数据、研发和分析数据,为数据交易提供帮助
D.数据交易市场是大数据资源化的必然产物
答案:C

27、IaaS是()的简称
A.软件即服务
B.平台即服务
C.基础设施即服务
D.硬件即服务
答案:C

28、大数据时代,数据使用的关键是()。
A.数据收集
B.数据存储
C.数据分析
D.数据再利用
答案:D

29、PaaS是()的简称
A.软件即服务
B.平台即服务
C.基础设施即服务
D.硬件即服务
答案:B

30、下列哪个R语言扩展包可以创建带有点和边的网络图()
A.ggplot2
B.network
C.ggmaps
D.animation
答案:B

31、基础设施即服务的英文简称是
A.IaaS
B.PaaS
C.SaaS
D.以上都不对
答案:A

32、下列哪个R语言扩展包可以制作一系列的图像并将它们串联起来做成动画()
A.ggplot2
B.network
C.ggmaps
D.animation
答案:D

33、以下不是数据仓库基本特征的是()
A.数据仓库是面向主题的
B.数据仓库是面向事务的
C.数据仓库的数据是相对稳定的
D.数据仓库的数据是反映历史变化的
答案:B

34、以下哪项不是数据可视化工具的特性()
A.实时性
B.简单操作
C.更丰富的展现
D.仅需一种数据支持方式即可
答案:D

35、哪个选项不属于大数据4V特点?
A.Volume
B.Valid
C.Variety
D.Value
答案:B

36、GFS中的文件切分成()的块进行存储
A.32MB
B.64MB
C.128MB
D.1G
答案:B

37、下列不属于商业大数据类型的是
A.传统企业数据
B.机器和传感器数据
C.社交数据
D.电子商务数据
答案:B

38、数据产生方式变革中数据产生方式是主动的主要是来自哪个阶段()。
A.运营式系统阶段
B.用户原创内容阶段
C.感知式系统阶段
D.以上都不对
答案:B

39、数据仓库是随着时间变化的,下列不正确的是()
A.数据仓库随时间变化不断增加新内容
B.捕捉到的新数据会覆盖原来的快照
C.数据仓库随事件变化不断删去旧的数据内容
D.数据仓库中包含大量的综合数据,这些综合数据会随时间的变化不断进行重新综合
答案:C

40、用于描述相等时间间隔下连续数据随时间变化趋势的是()
A.折线图
B.散点图
C.条形图
D.饼图
答案:A

第一阶段基础测验

一、单选
1、数据库系统与文件系统的主要区别是()
A.数据库系统复杂,而文件系统简单
B.文件系统不能解决数据冗余和数据独立性问题,而数据库系统可以解决
C.文件系统只能管理程序文件,而数据库系统能够管理各种类型的文件
D.文件系统管理的数据量较少,而数据库系统可以管理庞大的数据量
答案:B

2、数据库管理系统能实现对数据库中数据的查询、插入、修改和删除等操作的数据库语言称为()
A.数据定义语言(DDL)
B.数据管理语言
C.数据操纵语言(DML)
D.数据控制语言
答案:C

3、数据库的网状模型应满足的条件是()
A.允许一个以上结点无双亲,也允许一个结点有多个双亲
B.必须有两个以上的结点
C.有且仅有一个结点无双亲,其余结点都只有一个双亲
D.每个结点有且仅有一个双亲
答案:A

4、数据的逻辑独立性是指()
A.内模式改变,模式不变
B.模式改变,内模式不变
C.模式改变,外模式和应用程序不变
D.内模式改变,外模式和应用程序不变
答案:C

5、设有关系模式EMP(职工号,姓名,年龄,技能)。假设职工号唯一,每个职工有多项技能,则EMP表的主码是()
A.职工号
B.姓名,技能
C.技能
D.职工号,技能
答案:D

6、在关系代数中,对一个关系做投影操作后,新关系的元组个数()原来关系的元组个数。
A.小于
B.小于或等于
C.等于
D.大于
答案:B

7、学校数据库中有学生和宿舍两个关系:学生(学号,姓名)和宿舍(楼名,房间号,床位号,学号)假设有的学生不住宿,床位也可能空闲。如果要列出所有学生住宿和宿舍分配的情况,包括没有住宿的学生和空闲的床位,则应执行()
A.全外联接
B.左外联接
C.右外联接
D.自然联接
答案:A

8、关系规范化中的删除操作异常是指()
A.不该删除的数据被删除
B.不该插入的数据被插入
C.应该删除的数据未被删除
D.应该插入的数据未被插入
答案:A

9、在数据库设计中,将E-R图转换成关系数据模型的过程属于()
A.需求分析阶段
B.物理设计阶段
C.逻辑设计阶段
D.概念设计阶段
答案:C

10、在合并分E-R图时必须消除各分图中的不一致。各分E-R图之间的冲突主要有三类,即属性冲突、命名冲突和结构冲突,其中命名冲突是指()。
A.命名太长或太短
B.同名异义或同义异名
C.属性类型冲突
D.属性取值单位冲突
答案:B

二、简答
11、数据库管理系统有哪些功能?
答案:数据库管理系统(DBMS)是位于操作系统与用户之间的一个数据管理软件,它主要功能包括以下几个方面:(1)数据定义功能:DBMS提供数据描述语言(DDL),用户可通过它来定义数据对象(2)数据操纵功能:DBMS还提供数据操纵语言(DML),实现对数据库的基本操作:查询、插入、删除和修改。(3)数据库的运行管理:这是DBMS运行时的核心部分,它包括并发控制,安全性检查,完整性约束条件的检查和执行,发生故障后的恢复等。(4)数据库的建立和维护功能:它包括数据库初始数据的输入及转换,数据库的转储与恢复,数据库的重组功能和性能的监视与分析功能等

12、数据库设计分哪几个阶段?
答案:数据库设计分以下六个阶段:(1)需求分析(2)概念结构设计(3)逻辑结构设计(4)物理结构设计(5)数据库实施(6)数据库运行和维护

13、简述三级封锁协议的内容以及不同级别的封锁协议能解决哪些数据不一致性问题?
答案:(1)一级封锁协议是:事务T在修改数据R之前必须先对其加X锁,直到事务结束才释放。一级封锁协议能够解决“丢失修改”问题。(2)二级封锁协议是:一级封锁协议加上事务在读取数据R之前必须先对其加S锁,读完后即可释放S锁。二级封锁不仅可以解决“丢失修改”问题,而且可以解决读“脏“数据问题。(3)三级封锁协议是:一级封锁协议加上事务在读取数据R之前必须先对其加S锁,直到事务结束才释放。三级封锁协议不仅解决了“丢失修改”、读“脏”数据问题,而且进一步解决了“不可重复读”问题。

14、数据库系统中有哪三层模式结构?采用三层模式结构有什么好处?
答案:答:数据库系统三级模式结构是指数据库系统是由外模式、模式和模式三级构成。数据库系统的三级模式是对数据的三个抽象级别,它把数据的具体组织留给DBMS管理,使用户能逻辑地抽象地处理数据,而不必关心数据在计算机中的具体表示方式与存储方式。为了能够在部实现这三个抽象层次的联系和转换,数据库管理系统在这三级模式之间提供了两层映象:外模式/模式映象,模式/模式映象正是这两层映象保证了数据库系统中的数据能够具有较高的逻辑独立性和物理独立性。

15、什么是数据库的安全性?DBMS有哪些安全性措施?
答案:答:数据库的安全性是保护数据库以防止不合法使用所造成的数据泄露、更改或破坏。DBMS主要通过以下方法来保护数据库的安全的:通过定义用户标识对用户身份进行鉴定,只允许合法的用户才能进入系统;通过定义用户的访问权限,对于合法的用户只能访问它有权访问的数据;通过定义视图,屏蔽掉用户不能访问的数据;通过对数据加密以及通过审计的功能等方法来保护数据库中的安全性的.

16、在数据库设计过程中将E-R模型转换为关系数据模型的转换原则是什么?
答案:答:E-R图中的每个实体,对应一个关系,该关系具有属性为实体的全部属性,关键字为实体的关键字。E-R图中的一个联系对应一个关系,该关系具有属性为联系的属性以及该联系相关的实体的关键字。考虑到数据库优化,根据联系类型不同在转换为关系模式时具体处理不同:(1)联系类型为1:1时,-先将两个实体分别转换两个关系模式,然后在任意一个关系模式中加入另一个关系模式的键和联系类型的属性。(2)1:N-先将两个实体分别转换为两个关系模式,然后在N端实体转换的关系模式中加入1端实体转换的关系模式的键和联系类型的属性。(3)M:N-先将两个实体分别转换为两个关系模式,然后将联系类型转换为第三个关系模式,其属性由两端实体的键和联系类型的属性构成。

17、大数据对科学研究有什么影响?
答案:促进了科学研究的第四范式产生和交叉学科的发展。

18、大数据有哪些数据类型?
答案:有结构化数据、非结构化数据和半结构化数据。

19、云计算有什么特点?
答案:①具有大规模并行计算能力②资源虚拟化和弹性调度③数据量巨大并且增速迅猛产生了典型的大数据处理技术

20、请简述云计算的三种主要部署模式
答案:①公有云:提供面向社会大众、公共群体的云计算服务②私有云:提供面向应用行业/组织内的云计算服务③混合云:是把公有云和私有云进行整合,吸纳二者的优点,给企业带来真正意义上的云计算服务

第二阶段基础测验

一、单选
1、事务的原子性是指()。
A.一个事务内部的操作及使用的数据对并发的其他事务是隔离的
B.事务一旦提交,对数据库的改变是永久的
C.事务中包括的所有操作要么都做,要么都不做
D.事务必须是使数据库从一个一致性状态变到另一个一致性状态
答案:C

2、若系统在运行过程中,由于某种硬件故障,使存储在外存上的数据部分损失或全部损失,这种情况称为()
A.事务故障
B.系统故障
C.介质故障
D.运行故障
答案:C

3、若事务T对数据对象A加上S锁,则()。
A.事务T可以读A和修改A,其它事务只能再对A加S锁,而不能加X锁。
B.事务T可以读A但不能修改A,其它事务能对A加S锁和X锁。
C.事务T可以读A但不能修改A,其它事务只能再对A加S锁,而不能加X锁。
D.事务T可以读A和修改A,其它事务能对A加S锁和X锁。
答案:C

4、数据库系统的基本特征是_________。
A.数据的统一控制
B.数据共享性和统一控制
C.数据共享性、独立性和冗余度小
D.数据共享性和数据独立性
答案:C

5、设有关系R和S,关系代数表示的是_________。
A.R∩S
B.R―S
C.R÷S
D.R∪S
答案:A

6、自然连接是构成新关系的有效方法。一般情况下,当对关系R和S使用自然连接时,要求R和S含有一个或多个共有的__________。
A.行
B.属性
C.记录
D.元组
答案:B

7、构成E—R模型的三个基本要素是_________。
A.实体、属性值、关系;
B.实体、属性、联系;
C.实体、实体集、联系;
D.实体、实体集、属性;
答案:B

8、在关系代数运算中,五种基本运算为_________。
A.并、差、选择、投影、连接
B.并、交、选择、投影、笛卡尔积
C.并、差、选择、投影、笛卡尔积
D.并、除、投影、笛卡尔积、选择
答案:C

9、在下列关于规化理论的叙述中,不正确的是_________。
A.任何一个关系模式一定有键。
B.任何一个包含两个属性的关系模式一定满足3NF。
C.任何一个包含两个属性的关系模式一定满足BCNF。
D.任何一个包含三个属性的关系模式一定满足2NF。
答案:D

10、SQL的视图是从_________中导出的。
A.基本表
B.视图
C.数据库
D.基本表或视图
答案:D

二、名词解释
11、关系
答案:一个关系通常对应一表

12、元组
答案:二维表中的一行即为一个元组。

三、填空
13、关系模型和网状模型的数据结构分别是()和()。
答案:二维表|有向图

14、数据模型是由()、()和()三部分组成的。
答案:数据结构|数据操作|完整性约束

15、关系数据语言可以分为三类:()、()和()。
答案:SQL语言|关系代数语言|关系演算语言

16、事务的特性有:()、原子性、()和持久性。
答案:一致|隔离性

17、SQL中,表有三种:____________、临时表(虚表)和____________。
答案:视图|基本表

18、在关系数据库规化理论的研究中,在函数依赖的畴,达到了___________式最高的规化程度。
答案:BC式

19、在关系数据库的规化理论中,在执行“分解”时,必须遵守规化原则:保持原有的函数依赖和________________________。
答案:无损连接

20、如果一个关系模式R是1NF,并且关系的每个决定因子都是候选码,那么R至少应该是()式。
答案:BC式

第三阶段基础测验

一、单选
1、SQL语言中,条件年龄BETWEEN18AND30表示年龄在18至30之间,且_________。
A.包括30岁但不包括18岁
B.包括18岁和30岁
C.包括18岁但不包括30岁
D.不包括18岁和30岁
答案:B

2、数据库的完整性是指数据的________和________。(1)正确性(2)合法性(3)不被非法存取(4)相容性(5)不被恶意破坏
A.(1)和(3)
B.(2)和(5)
C.(2)和(4)
D.(1)和(4)
答案:D

3、SQL的GRANT和REVOKE语句主要用来维护数据库的_________。
A.安全性
B.完整性
C.可靠性
D.一致性
答案:A

4、下面关于关系数据库式的描述中,错误的是。_________
A.关系满足的式越低,则更新操作的代价就越高
B.关系满足的式越高,则更新操作的代价就越低
C.关系满足的式越高,则查询操作的代价就越高
D.关系满足的式越低,则查询操作的代价就越高
答案:D

5、在数据库中存储的是_________。
A.数据
B.数据模型
C.信息
D.数据以及数据之间的联系
答案:D

6、DB、DBMS和DBS三者之间的关系是_________。
A.DBS与DB和DBMS无关
B.DB包括DBMS和DBS
C.DBS包括DB和DBMS
D.DBMS包括DBS和DB
答案:C

7、在数据库中,产生数据不一致的根本原因是____。
A.数据存储量太大;
B.没有严格保护数据
C.未对数据进行完整性控制
D.数据冗余
答案:D

8、以下是信息世界的模型,且实际上是现实世界到机器世界的一个中间层次的是_________。
A.数据模型
B.E-R图
C.关系模型
D.概念模型
答案:D

9、SQL语言中的“视图(VIEW)”对应于数据库系统三级模式结构中的_________。
A.模式
B.外模式
C.模式
D.都不对应
答案:B

10、在数据库设计中数据流图(DFD)和数据字典(DD)主要用来描述结构化方法中的_________阶段的工具。
A.概念结构设计
B.需求分析
C.可行性分析
D.逻辑结构设计
答案:B

二、名词解释
11、属性
答案:二维表中的一列即为一个属性。

12、域
答案:属性的取值围称为该属性的域。

13、关键字
答案:表中的某个属性或几个属性的组合称为关键字。

14、关系模式
答案:对关系的描述成为关系模式。

15、元数
答案:关系模式中属性的数目是关系的元数。

16、分量
答案:元组中的每个属性值称为元组的分量。

17、实体完整性
答案:实体完整性是指关系的主属性不能为空。

18、参照完整性
答案:在关系模型中,实体与实体之间的联系都是用关系来表示的。参照完整性描述了实体之间的引用规如此。

19、用户定义完整性
答案:用户定义完整性是指不同的关系数据库系统根据应用环境的不同,设定的一些特殊的约束条件。

20、数据定义
答案:SQL数据定义功能通过数据定义语言定义关系数据库的模式、外模式和模式,来实现根本表、视图和索引文件的定义、修改和删除操作。

第四阶段基础测验

一、单选
1、从E-R模型关系向关系模型转换时,一个M:N联系转换为关系模式时,该关系模式的码是_________。
A.M端实体的码
B.N端实体的码
C.M端实体码与N端实体码组合
D.重新选取其他属性
答案:C

2、SQL的集合处理方式与宿主语言单记录的处理方式之间用______来协调。
A.游标
B.SQLCA
C.存储过程
D.触发器
答案:A

3、关于BC式下列说确的是_________。
A.如果R∈3NF,则R一定是BCNF
B.若R∈3NF,且不存在主属性对非码的函数依赖,则其是BCNF
C.如果R∈BCNF,则R∈3NF
D.以上说法都不对
答案:B

4、数据库的_________是指数据的正确性和相容性。
A.恢复
B.安全性
C.并发控制
D.完整性
答案:D

5、一个事务执行过程中,其正在访问的数据被其他事务所修改,导致处理结果不正确,这是由于违背了事务的何种特性而引起的()
A.隔离性
B.一致性
C.原子性
D.持久性
答案:A

6、当将局部E-R图集成为全局E-R图时,如果同一对象在一个局部E-R图中作为实体,而在另一个局部E-R图中作为属性,这种现象称为_________。
A.属性冲突
B.命名冲突
C.结构冲突
D.语义冲突
答案:C

7、当前大数据技术的基础是由()首先提出的。
A.微软
B.百度
C.谷歌
D.阿里巴巴
答案:C

二、多选
8、下列关于数据生命周期管理的核心认识中,正确的是()。
A.数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段
B.在不同的数据存在阶段,数据的价值是不同的
C.根据数据价值的不同应该对数据采取不同的管理策略
D.数据生命周期管理旨在产生效益的同时,降低生产成本
E.数据生命周期管理最终关注的是社会效益
答案:ABC

9、下列关于基于大数据的营销模式和传统营销模式的说法中,错误的是()。
A.传统营销模式比基于大数据的营销模式投入更小
B.传统营销模式比基于大数据的营销模式针对性更强
C.传统营销模式比基于大数据的营销模式转化率低
D.基于大数据的营销模式比传统营销模式实时性更强
E.基于大数据的营销模式比传统营销模式精准性更强
答案:AB

10、下列关于脏数据的说法中,正确的是()。
A.格式不规范
B.编码不统一
C.意义不明确
D.与实际业务关系不大
E.数据不完整
答案:ABCDE

三、名词解释
11、数据查询
答案:数据查询是指对数据库中的数据进展查询、分组、统计和排序等操作。

12、数据操纵
答案:数据操纵是指对数据的插入、修改和删除等操作。

13、数据控制
答案:数据控制是对数据库中数据的安全性和完整性进展控制。

14、聚合函数
答案:为了方便用户,增强检索功能,SQL提供了许多聚合函数,也称集合函数或计算函数。

15、嵌套查询
答案:将一个查询块嵌套在另一个查询块的WHERE子句或HAVING短语的条件中的查询称为嵌套查询或子查询。

16、视图
答案:视图对应于关系数据库模型的外模式,是从一个或几个根本表〔或视图〕中导出的表。

17、数据流图
答案:用于表达和描述系统的数据流向和对数据的处理功能。

18、数据字典
答案:各类数据描述的基何,是对系统中数据结构的详细描述,是各类数据属性的清单。

19、数据项
答案:不可再分的数据单位。

20、数据结构;
答案:包括数据结构名、含义说明、组成等。
第五阶段基础测验

一、单选
1、大数据的起源是()。
A.金融
B.电信
C.互联网
D.公共管理
答案:C

2、根据不同的业务需求来建立数据模型,抽取最有意义的向量,决定选取哪种方法的数据分析角色人员是()。
A.数据管理人员
B.数据分析员
C.研究科学家
D.软件开发工程师
答案:C

3、()反映数据的精细化程度,越细化的数据,价值越高。
A.规模
B.活性
C.关联度
D.颗粒度
答案:D

4、智能健康手环的应用开发,体现了()的数据采集技术的应用。
A.统计报表
B.网络爬虫
C.API接口
D.传感器
答案:D

5、下列关于数据重组的说法中,错误的是()。
A.数据重组是数据的重新生产和重新采集
B.数据重组能够使数据焕发新的光芒
C.数据重组实现的关键在于多源数据融合和数据集成
D.数据重组有利于实现新颖的数据模式创新
答案:A

二、多选
6、数据再利用的意义在于()。
A.挖掘数据的潜在价值
B.实现数据重组的创新价值
C.利用数据可扩展性拓宽业务领域
D.优化存储设备,降低设备成本
E.提高社会效益,优化社会管理
答案:ABC

7、按照涉及自变量的多少,可以将回归分析分为()。
A.线性回归分析
B.非线性回归分析
C.一元回归分析
D.多元回归分析
E.综合回归分析
答案:CD

8、传统数据密集型行业积极探索和布局大数据应用的表现是()。
A.投资入股互联网电商行业
B.打通多源跨域数据
C.提高分析挖掘能力
D.自行开发数据产品
E.实现科学决策与运营
答案:BCE

9、大数据人才整体上需要具备()等核心知识。
A.数学与统计知识
B.计算机相关知识
C.马克思主义哲学知识
D.市场运营管理知识
E.在特定业务领域的知识
答案:ABE

10、下列关于大数据的说法中,错误的是()。
A.大数据具有体量大、结构单一、时效性强的特征
B.处理大数据需采用新型计算架构和智能算法等新技术
C.大数据的应用注重相关分析而不是因果分析
D.大数据的应用注重因果分析而不是相关分析
E.大数据的目的在于发现新的知识与洞察并进行科学决策
答案:AD

三、判断
11、对于大数据而言,最基本、最重要的要求就是减少错误、保证质量。因此,大数据收集的信息量要尽量精确
A.正确
B.错误
答案:错

四、名词解释
12、数据流:
答案:包括数据流名,数据流说明,流入、流出过程,组成等。

13、数据存储
答案:包括数据存储名、存储说明、输入数据流、输出数据流、组成、数据量、存取方式等。

14、处理过程:
答案:包括处理过程名、处理说明、输入/输出数据流、处理方法等。

15、事务
答案:所谓事务是用户定义的一个数据操作序列,这些操作是数据库运行的最小的、不可分割的工作单位,即要么全做要么全不做。

16、系统故障
答案:系统故障,也称软故障〔SoftCrash〕,是指造成系统停止运转,重新启动的任何事件。

17、介质故障
答案:也称硬故障〔HardCrash〕,是指外存故障,如硬盘设备、磁盘损坏、磁头碰撞,瞬时强磁场干扰等。这类故障将破坏数据库或局部数据库,并影响正在存取这局部数据的所有事务。这类故障比前两类故障发生的可能性小得多,但破坏性最大。

18、计算机病毒
答案:计算机病毒是具有破坏性、可以自我复制的计算机程序。计算机病毒已成为计算机系统的主要威胁,也是数据库系统的主要威胁之一。

19、数据转储
答案:所谓数据转储是指DBA定期地将整个数据库复制到磁带或另一个磁盘上保存起来的过程。

20、日志文件
答案:用来记录事务对数据库的更新操作的文件,也就是把转储期间各事务对数据库的修改活动登记下来。

第六阶段基础测验

一、单选
1、智慧城市的构建,不包含()。
A.数字城市
B.物联网
C.联网监控
D.云计算
答案:C

2、大数据的最显著特征是()。
A.数据规模大
B.数据类型多样
C.数据处理速度快
D.数据价值密度高
答案:A

3、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的()。
A.在数据基础上倾向于全体数据而不是抽样数据
B.在分析方法上更注重相关分析而不是因果分析
C.在分析效果上更追究效率而不是绝对精确
D.在数据规模上强调相对数据而不是绝对数据
答案:B

4、下列关于舍恩伯格对大数据特点的说法中,错误的是()。
A.数据规模大
B.数据类型多样
C.数据处理速度快
D.数据价值密度高
答案:D

5、当前社会中,最为突出的大数据环境是()。
A.互联网
B.物联网
C.综合国力
D.自然资源
答案:A

6、在数据生命周期管理实践中,()是执行方法。
A.数据存储和备份规范
B.数据管理和维护
C.数据价值发觉和利用
D.数据应用开发和管理
答案:B

7、下列关于网络用户行为的说法中,错误的是()。
A.网络公司能够捕捉到用户在其网站上的所有行为
B.用户离散的交互痕迹能够为企业提升服务质量提供参考
C.数字轨迹用完即自动删除
D.用户的隐私安全很难得以规范保护
答案:C

8、下列关于计算机存储容量单位的说法中,错误的是()。
A.1KB<1MB<1GB
B.基本单位是字节(Byte)
C.一个汉字需要一个字节的存储空间
D.一个字节能够容纳一个英文字符,
答案:C

9、下列关于聚类挖掘技术的说法中,错误的是()。
A.不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别
B.要求同类数据的内容相似度尽可能小
C.要求不同类数据的内容相似度尽可能小
D.与分类挖掘技术相似的是,都是要对数据进行分类处理
答案:B

10、下列国家的大数据发展行动中,集中体现“重视基础、首都先行”的国家是()。
A.美国
B.日本
C.中国
D.韩国
答案:D

二、判断
11、"大数据”一词,最早出现于20世纪90年代,当时的数据仓库之父比尔.恩门经常提及BigData。
A.正确
B.错误
答案:对

12、宁家验委员指出,我国民生领域信息化服务水平显著提升。
A.正确
B.错误
答案:对

13、1997年,1GB闪存的价格将近8000美元,现在是25美分。
A.正确
B.错误
答案:对

14、具备很强的报告撰写能力,可以把分析结果通过文字、图表、可视化等多种方式清晰地展现出来,能够清楚地论述分析结果及可能产生的影响,从而说服决策者信服并采纳其建议,是数据分析能力对大数据人才的基本要求。
A.正确
B.错误
答案:错

15、简单随机抽样,是从总体N个对象中任意抽取n个对象作为样本,最终以这些样本作为调查对象。在抽取样本时,总体中每个对象被抽中为调查样本的概率可能会有差异。
A.正确
B.错误
答案:错

16、对于企业来说,给用户进行各种促销或者实施运营策略的时机也比较重要,而且对不同兴趣偏好的用户最好集中处理。
A.正确
B.错误
答案:错

17、根据麦肯锡的预测,随着大数据的普及,全球零售业和医疗行业的利润将会减少。
A.正确
B.错误
答案:错

18、宁家验委员指出,发展大数据的应用,有助于促进医疗改革。
A.正确
B.错误
答案:对

19、减少已分配但未使用的存储容量的浪费,在分配存储空间时,系统按需分配存储空间。()
A.正确
B.错误
答案:对

20、广播变量在广播后可以修改。()
A.正确
B.错误
答案:错

第七阶段基础测验

一、单选
1、下列关于大数据的分析理念的说法中,错误的是()。
A.在数据基础上倾向于全体数据而不是抽样数据
B.在分析方法上更注重相关分析而不是因果分析
C.在分析效果上更追究效率而不是绝对精确
D.在数据规模上强调相对数据而不是绝对数据
答案:D

2、万维网之父是()。
A.彼得·德鲁克
B.舍恩伯格
C.蒂姆·伯纳斯-李
D.斯科特·布朗
答案:C

3、支撑大数据业务的基础是()。
A.数据科学
B.数据应用
C.数据硬件
D.数据人才
答案:B

二、多选
4、在网络爬虫的爬行策略中,应用最为基础的是()。
A.深度优先遍历策略
B.广度优先遍历策略
C.高度优先遍历策略
D.反向链接策略
E.大站优先策略
答案:AB

5、大数据在社交网络中的应用
A.用户偏好、情感、社交网络结构
B.用户画像、精准推荐
C.舆情监控、突发事件预警
D.预测外部趋势
答案:ABCD

6、离群点检测的应用包括()等。
A.欺诈检测
B.入侵检测
C.故障检测
D.疾病的不寻常模式
答案:ABCD

7、百度大数据引擎主要包含三大组件()
A.开放云
B.数据工厂
C.百度大脑。
D.以上都不对
答案:ABC

8、KNIME是一个对用户友好的、智能、开源的平台。该平台包括了()、()、()、()。
A.数据集成
B.数据处理
C.数据分析
D.数据挖掘
答案:ABCD

9、可视化工具包括()
A.Excel
B.GoogleChart
C.Gephi
D.ppt
答案:ABC

10、云计算是(),(),()的发展,是虚拟化、效用计算、IaaS(基础设施即服务)、PaaS(平台即服务)、Saas(软件即服务)等概念混合演进并跃升的结果。
A.流计算
B.分布式计算
C.并行计算
D.网络计算
答案:BCD

三、 判断
1、内存级分析适用于总数据量在集群内存的最大级别以内的情况,使用内部数据库技术,适合实时业务分析需求。()
A.正确
B.错误
答案:对

2、云存储中用户需要按需付费并使用存储服务。()
A.正确
B.错误
答案:对

3、云存储是指通过集群应用、网络技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。()
A.正确
B.错误
答案:对

4、每个变量的最大值和最小值之差称为极差。()
A.正确
B.错误
答案:对

5、数据变换(DataTransformation)就是把原始数据转化为适合于数据挖掘的数据形式。()
A.正确
B.错误
答案:对

6、利用大数据技术对电子病历中的数字化信息进行分析处理,既能够让医生的诊疗有迹可循,还可以发现最有效的临床路径,从而及时为医生提供最佳的诊疗建议。()
A.正确
B.错误
答案:对

7、 数据集成(DataIntegration)是将多个数据源中的数据合并存放到一个一致的数据存储中。()
A.正确
B.错误
答案:对


第八阶段基础测验

一、多选
1、医疗领域如何利用大数据
A.临床决策支持
B.个性化医疗
C.社保资金安全
D.用户行为分析
答案:ABCD

2、可使用(),(),()进行光滑。
A.最大值
B.箱中位数
C.箱边界
D.箱均值
答案:BCD

3、大数据智能感知层:主要包括()及软硬件资源接入系统
A.数据传感体系
B.网络通信体系
C.传感适配体系
D.智能识别体系
答案:ABCD

4、下列属于传统统计学展示方法的是()
A.柱状图
B.饼状图
C.曲线图
D.网络图
答案:ABC

5、层次方法可以分为()
A.K均值算法
B.K中心点算法
C.凝聚法
D.分裂法
答案:CD

6、一个HDFS集群由一个()和()构成。此外,还有与这两个角色之间作为沟通桥梁的客户端(Client)。
A.一个名字节点
B.若干个名字节点
C.一个数据节点
D.若干个数据节点
答案:AD

7、交通数据分析可用于:
A.交通流量实时分析
B.合理进行道路规划
C.信号灯智能调度
D.实时路况查询播报
答案:ABCD

8、数据变换的方法有()
A.光滑
B.聚集
C.数据泛化
D.规范化
答案:ABCD

9、医疗大数据特点:除了包含了大数据4个“V”的特点之外还有()
A.多态性
B.时效性
C.不完整性
D.冗余性
答案:ABCD

10、以下属于推荐系统算法的是()
A.CF协同过滤算法
B.聚类及相似度算法
C.基于知识推理算法
D.关联规则算法
答案:ABCD

二、 判断
1、美国《自然》(Nature)杂志专刊—Thenextgoogle,第一次正式提出“大数据”概念。()
A.正确
B.错误
答案:对

2、用一个函数拟合数据来光滑数据称为回归。()
A.正确
B.错误
答案:对

3、RDD是一种自定义的可并行数据容器,可以存放任意类型的数据。()
A.正确
B.错误
答案:对

4、BI分析适用于总数据量在集群内存的最大级别以内的情况,使用内部数据库技术,适合实时业务分析需求。()
A.正确
B.错误
答案:错

5、云存储是一个由网络设备、存储设备、服务器、应用软件、公用访问接口、接入网和客户端程序等组成的复杂系统。()
A.正确
B.错误
答案:对

6、轨迹数据包含空间和时间属性,并且通常规模巨大且维度高。()
A.正确
B.错误
答案:对

7、预测性分析(PredictiveAnalysis)用于预测未来事件发生的概率和演化趋势。()
A.正确
B.错误
答案:对

第九阶段基础测验

一、多选
1、下列各国大数据发展路径的描述中,对应关系正确的是()
A.日本:走尖端IT路线
B.澳大利亚:原则先行、谨慎发展
C.韩国:重视基础、首都先行
D.英国:视大数据为新的自然资源
E.印度:以IT外包转型为突破口若悬河
答案:ABCE

2、当前,大数据产业发展的特点是()
A.增速缓慢
B.增速很快
C.规模较小
D.规模较大
E.多产业交叉融合
答案:BDE

3、按照服务目的不同,数据流通平台可分为()
A.数据废气交易市场
B.政府数据开放平台
C.数据研发市场
D.企业数据开放平台
E.数据交易市场
答案:BE

4、以下属于能产生大数据,即大数据的源头的有()
A.社交网络
B.游戏
C.互联网电视
D.搜索引擎
E.移动互联网
答案:ABCDE

5、大数据的价值体现在()
A.大数据助力智慧城市提升公共服务水平
B.大数据给思维方式带来了冲击
C.大数据的发力点在于预测
D.大数据为政策制定提供科学论据
E.大数据实现了精准营销
答案:ABCDE

6、大数据有哪些价值?
A.生产数据的价值
B.用户身份识别
C.预测价值
D.实时价值E.描述价值
答案:ABCD

7、当前大数据技术的基础包括()
A.关系型数据库
B.分布式数据库
C.分布式文件系统
D.分布式并行计算
答案:BCD

8、大数据的预测价值体现在:()
A.预测热卖品及交易额
B.预测经营趋势
C.评价
D.预测用户的偏好、流失
答案:ABD

9、大数据是描述()所发生的行为。
A.未来
B.实时
C.过去
D.现在
答案:CD

10、传统研究中数据采集的方法包括:()
A.网络监测
B.对面访谈
C.电话访谈
D.线上互动
答案:BCD

二、 判断
1、数据存取和共享机制是大数据发展面临的挑战。()
A.正确
B.错误
答案:对

2、21世纪时数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓宽了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。()
A.正确
B.错误
答案:对

3、交通数据集通常包括空间和时间特性而且跨越大范围的时间空间。数据聚类可以有效的减小数据规模为随后的分析提供便利。()
A.正确
B.错误
答案:对

4、社交网络一一通常由通过一些特定类型的相互依赖关系(例如,亲属关系、友谊、共同兴趣、信念或金融交换)链接的社会实体(例如,个人、公司、集体社会单位或组织)组成。()
A.正确
B.错误
答案:对

5、大数据是时代发展的潮流与趋势。()
A.正确
B.错误
答案:对

6、matplotlib是一个Python的2D绘图库。()
A.正确
B.错误
答案:对

7、人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。()
A.正确
B.错误
答案:对
第十阶段基础测验

一、多选
1、数据挖掘常用的工具有()
A.R
B.Photoshop
C.Gephi
D.Clement
答案:AC

2、中心性研究的意义是在于衡量节点的()
A.约束力
B.影响力
C.权力
D.控制力
答案:BCD

3、属于社交网络的表达形式()
A.网论
B.点阵论
C.矩阵论
D.图论
答案:CD

4、以下哪些指标是衡量大数据应用成功的标准?
A.速度更快
B.成本更低
C.风险更低
D.质量更高
答案:ABCD

5、Spark产生的原因包括()
A.MapReduce具有很多的局限性
B.Spark只能进行交互式计算
C.现有的各种计算框架各自为战
D.Spark不适合交互式处理
答案:AC

6、关于搜索引擎步骤中分词的说法正确的是()
A.分词的准确性决定了搜索结果的相关性排序
B.用户的查询和内容的理解都是基于分词
C.分词的准确性决定了搜索结果是否让用户满意
D.中文分词的准确性对搜索引擎的结果没有任何影响
答案:ABC

7、()是大数据运用的基础。
A.隐私问题
B.有用的数据
C.数据统计有效性
D.覆盖率
答案:ABCD

8、移动行业的通用需求:
A.人群分布
B.分类应用排行
C.终端市场趋势
D.设备分布
答案:ABCD

9、下列各项表述中正确的有哪些?
A.我国中央网络安全和信息化领导小组宣告成立是在2014年。
B.中央网络安全和信息化领导小组组长是李克强。
C.中央网络安全和信息化领导小组组长是习近平。
D.我国中央网络安全和信息化领导小组宣告成立是在2013年。
答案:AC

10、贵州发展大数据的"八个一”建议包括()
A.引入一批人才、聚集一批创客
B.制定一个工作计划、建立一个领导机构
C.培养一批干部、出台一批政策
D.谋划一批产业、引进一批项目
答案:ABCD

二、 判断
1、云计算与大数据联系不大。()
A.正确
B.错误
答案:错

2、Kettle可用于数据清洗。()
A.正确
B.错误
答案:对

3、网络爬虫(WebSpider)又称之为网络机器人、网络蜘蛛。()
A.正确
B.错误
答案:对

4、大数据存储和传统的存储方式是一样的。()
A.正确
B.错误
答案:错

5、Pandas不能进行可视化。()
A.正确
B.错误
答案:错

6、使用编程软件Python也可以任何类型的数据。()
A.正确
B.错误
答案:错

7、tar是一种压缩文件,常用于Windows下。()
A.正确
B.错误
答案:错

综合作业

一、论述
1、什么是离群点分析?离群点分析可以应用在哪些领域?
答案:离群点|孤立点|应用|信用卡欺诈检测|移动电话欺诈检测|客户划分|医疗分析

2、为什么说数据上云是一种趋势?
答案:大数据上云|数据上云|分析上云|人工智能上云|数据上云是一种趋势

3、论述数据仓库的四种类型
答案:传统数据仓库|实时处理数据仓库|关联发现数据仓库数据集市

4、为什么要开放公共数据?
答案:数据当原料应用价值|基础设施|开放公共数据|提供一种公共产品|促进合作共创|开放数据|利用数据|解决问题创造价值|合作共赢

5、什么是根本表?什么是视图?两者有什么区别和联系?
答案:根本表|视图

6、请分析大数据未来的发展趋势
答案:大数据从概念化走向价值化|大数据安全与隐私越来越重要|大数据分析与可视化成为热点|数据的商品化和数据共享的联盟化|深度学习与大数据性能成为支撑性的技术|数据科学的兴起|大数据产业成为一种战略性产业|大数据生态环境逐步完善|大数据处理架构的多样化模式并存

7、数据获取过程可分为哪几个步骤?
答案:数据采集|数据传输|数据预处理

8、请列举出六大典型思维方式;
答案:直线思维|逆向思维|跳跃思维|归纳思维|并行思维|科学思维

9、大数据处理的关键技术都有哪些?并做简要描述
答案:数据采集和预处理|数据存储|数据计算处理|数据分析和挖掘|数据可视化展示

10、论述大数据的四种主要分析技术。
答案:统计分析|机器学习|数据挖掘|可视化分析

11、举例说明视图在什么情况下不能更新。为什么?
答案:关系数据库|根本表的限制|视图都是可更新|视图

12、论述集群的分类以及他们的特点。
答案:高性能集群|负载均衡集群|高可用集群|虚拟化集群

13、试述SQL语言的特点。
答案:功能一体化|语言简洁,易学易用|高度非过程化|面向集合的操作方式|以同一种语法结构提供两种使用方式

14、如何计算PageRank的值?
答案:将互联网作为一个有向图|邻接矩阵进行|将该邻接矩阵转换为超链接矩阵|求解该超链接矩阵的最大特征向量|求得的特征向量中的值即为对应网页的PageRank值

15、二进制系统是如何实现的?
答案:表示|存储|数据|基数为2|进位规则是“逢二进一”|1表示开|0表示关

16、论述HDFS存储数据的优点。
答案:支持超大文件|高容错性|流式数据访问|简化的一致性模型|运行于廉价的机器集群上

17、论述Flume的数据处理流程。
答案:webserver(或其他)输入数据|数据进入Source(输入接口)|信息以队列的形式进入Channal管道|Sink会将Channel中的数据发送到指定的地方|外部存储|将临时数据进行删除

18、随着人工智能技术的发展,人类和智能机器之间会是一个什么样的关系?
答案:关键性任务的人工智能|个性化人工智能|跨多组织机构的人工智能|后摩尔定律时期的人工智能

19、为什么计算机系统要往并行与异构的方向发展?
答案:单核CPU|不能承载更多的晶体|多核|GPU|FPGA|并行与异构

20、如何辨证看待“大数据”中的“大”和“数据”的关系?
答案:形容大小|抽象意义上的大|思维方式上的转变|数据

二、判断
21、大数据的挑战仅仅来自于数据的增长。
A.正确
B.错误
答案:错

22、Flume的数据流由RDD贯穿始终。
A.正确
B.错误
答案:错

23、数据表达是通过计算机图形图像技术来更加友好地展示数据信息,方便人们阅读、理解和运用数据
A.正确
B.错误
答案:对

24、大数据数据量一定是PB,TB级的
A.正确
B.错误
答案:错

25、在现有大数据的存储中,结构化数据仅有20%,其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据
A.正确
B.错误
答案:对

26、多维数据指的是具有多个维度属性的数据变量。
A.正确
B.错误
答案:对

27、数据分析是大数据价值链中最终和最重要的阶段,其目的是挖掘数据中潜在的价值以提供相应的建议或决策。通过分析不同领域中的数据集可以使数据在不同层面发挥最大价值。
A.正确
B.错误
答案:对

28、Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流;或者是从小数据开始,但数据每年增长速率至少为60%。
A.正确
B.错误
答案:错

29、数据分析是大数据发展面临的挑战
A.正确
B.错误
答案:对

30、ID3算法的核心思想就是以信息增益度量属性选择
A.正确
B.错误
答案:对

31、BI分析适用于总数据量在集群内存的最大级别以内的情况,使用内部数据库技术,适合实时业务分析需求。
A.正确
B.错误
答案:错

32、利用大数据技术对电子病历中的数字化信息进行分析处理,既能够让医生的诊疗有迹可循,还可以发现最有效的临床路径,从而及时为医生提供最佳的诊疗建议。
A.正确
B.错误
答案:对

33、时间序列分析是对随时间变化的数据对象的变化规律和演化趋势进行建模分析
A.正确
B.错误
答案:对

34、数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。
A.正确
B.错误
答案:对

35、网络数据采集是利用互联网搜索引擎技术对数据进行针对性、行业性、精准性的抓取,并按照一定规则和筛选标准将数据进行归类,形成数据库文件的一个过程。
A.正确
B.错误
答案:对

36、规则性分析(PrescriptiveAnalysis)用于解决决策制定和提高分析效率
A.正确
B.错误
答案:对

37、通常将统计指标的数值按时间顺序排列所形成的数列,称为时间序列。
A.正确
B.错误
答案:对

38、结构化数据是用excel结构表现的数据
A.正确
B.错误
答案:错

39、直接拿Python输出的图片用于印刷效果很好
A.正确
B.错误
答案:错

40、基于大数据研究个体或群体行为,发现活动中蕴含的空间认知规律及空间行为和交互模式,建立以人为本的地理信息服务,进而支持个体或群体时空行为决策。
A.正确
B.错误
答案:对


回复

使用道具 举报

全部回复0 显示全部楼层
暂无回复,精彩从你开始!

快速回帖

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则