一、论述
1、什么是离群点分析?离群点分析可以应用在哪些领域?
答案:离群点|孤立点|应用|信用卡欺诈检测|移动电话欺诈检测|客户划分|医疗分析
2、为什么说数据上云是一种趋势?
答案:大数据上云|数据上云|分析上云|人工智能上云|数据上云是一种趋势
3、论述数据仓库的四种类型
答案:传统数据仓库|实时处理数据仓库|关联发现数据仓库数据集市
4、为什么要开放公共数据?
答案:数据当原料应用价值|基础设施|开放公共数据|提供一种公共产品|促进合作共创|开放数据|利用数据|解决问题创造价值|合作共赢
5、什么是根本表?什么是视图?两者有什么区别和联系?
答案:根本表|视图
6、请分析大数据未来的发展趋势
答案:大数据从概念化走向价值化|大数据安全与隐私越来越重要|大数据分析与可视化成为热点|数据的商品化和数据共享的联盟化|深度学习与大数据性能成为支撑性的技术|数据科学的兴起|大数据产业成为一种战略性产业|大数据生态环境逐步完善|大数据处理架构的多样化模式并存
7、数据获取过程可分为哪几个步骤?
答案:数据采集|数据传输|数据预处理
8、请列举出六大典型思维方式;
答案:直线思维|逆向思维|跳跃思维|归纳思维|并行思维|科学思维
9、大数据处理的关键技术都有哪些?并做简要描述
答案:数据采集和预处理|数据存储|数据计算处理|数据分析和挖掘|数据可视化展示
10、论述大数据的四种主要分析技术。
答案:统计分析|机器学习|数据挖掘|可视化分析
11、举例说明视图在什么情况下不能更新。为什么?
答案:关系数据库|根本表的限制|视图都是可更新|视图
12、论述集群的分类以及他们的特点。
答案:高性能集群|负载均衡集群|高可用集群|虚拟化集群
13、试述SQL语言的特点。
答案:功能一体化|语言简洁,易学易用|高度非过程化|面向集合的操作方式|以同一种语法结构提供两种使用方式
14、如何计算PageRank的值?
答案:将互联网作为一个有向图|邻接矩阵进行|将该邻接矩阵转换为超链接矩阵|求解该超链接矩阵的最大特征向量|求得的特征向量中的值即为对应网页的PageRank值
15、二进制系统是如何实现的?
答案:表示|存储|数据|基数为2|进位规则是“逢二进一”|1表示开|0表示关
16、论述HDFS存储数据的优点。
答案:支持超大文件|高容错性|流式数据访问|简化的一致性模型|运行于廉价的机器集群上
17、论述Flume的数据处理流程。
答案:webserver(或其他)输入数据|数据进入Source(输入接口)|信息以队列的形式进入Channal管道|Sink会将Channel中的数据发送到指定的地方|外部存储|将临时数据进行删除
18、随着人工智能技术的发展,人类和智能机器之间会是一个什么样的关系?
答案:关键性任务的人工智能|个性化人工智能|跨多组织机构的人工智能|后摩尔定律时期的人工智能
19、为什么计算机系统要往并行与异构的方向发展?
答案:单核CPU|不能承载更多的晶体|多核|GPU|FPGA|并行与异构
20、如何辨证看待“大数据”中的“大”和“数据”的关系?
答案:形容大小|抽象意义上的大|思维方式上的转变|数据
二、判断
21、大数据的挑战仅仅来自于数据的增长。
A.正确
B.错误
答案:错
22、Flume的数据流由RDD贯穿始终。
A.正确
B.错误
答案:错
23、数据表达是通过计算机图形图像技术来更加友好地展示数据信息,方便人们阅读、理解和运用数据
A.正确
B.错误
答案:对
24、大数据数据量一定是PB,TB级的
A.正确
B.错误
答案:错
25、在现有大数据的存储中,结构化数据仅有20%,其余80%则在存在于物联网、电子商务、社交网络等领域的半结构化数据和非结构化数据
A.正确
B.错误
答案:对
26、多维数据指的是具有多个维度属性的数据变量。
A.正确
B.错误
答案:对
27、数据分析是大数据价值链中最终和最重要的阶段,其目的是挖掘数据中潜在的价值以提供相应的建议或决策。通过分析不同领域中的数据集可以使数据在不同层面发挥最大价值。
A.正确
B.错误
答案:对
28、Gartner研究机构给出的大数据定义是大数据一般会涉及两种或两种以上的数据形式,它需要收集超过100TB的数据,并且是高速实时数据流;或者是从小数据开始,但数据每年增长速率至少为60%。
A.正确
B.错误
答案:错
29、数据分析是大数据发展面临的挑战
A.正确
B.错误
答案:对
30、ID3算法的核心思想就是以信息增益度量属性选择
A.正确
B.错误
答案:对
31、BI分析适用于总数据量在集群内存的最大级别以内的情况,使用内部数据库技术,适合实时业务分析需求。
A.正确
B.错误
答案:错
32、利用大数据技术对电子病历中的数字化信息进行分析处理,既能够让医生的诊疗有迹可循,还可以发现最有效的临床路径,从而及时为医生提供最佳的诊疗建议。
A.正确
B.错误
答案:对
33、时间序列分析是对随时间变化的数据对象的变化规律和演化趋势进行建模分析
A.正确
B.错误
答案:对
34、数据采集,又称数据获取,是大数据生命周期的第一个环节,通过RFID射频识别技术、传感器、交互型社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化及非结构化的海量数据。
A.正确
B.错误
答案:对
35、网络数据采集是利用互联网搜索引擎技术对数据进行针对性、行业性、精准性的抓取,并按照一定规则和筛选标准将数据进行归类,形成数据库文件的一个过程。
A.正确
B.错误
答案:对
36、规则性分析(PrescriptiveAnalysis)用于解决决策制定和提高分析效率
A.正确
B.错误
答案:对
37、通常将统计指标的数值按时间顺序排列所形成的数列,称为时间序列。
A.正确
B.错误
答案:对
38、结构化数据是用excel结构表现的数据
A.正确
B.错误
答案:错
39、直接拿Python输出的图片用于印刷效果很好
A.正确
B.错误
答案:错
40、基于大数据研究个体或群体行为,发现活动中蕴含的空间认知规律及空间行为和交互模式,建立以人为本的地理信息服务,进而支持个体或群体时空行为决策。
A.正确
B.错误
答案:对