四川开放大学大数据分析与挖掘技术作业答案

大数据分析与挖掘技术

学校: 四川开放大学

问题 1: 1. 请问在Python中缺失值通常用（）来记号。

选项:

A. NaN
B. ?
C. NA
D. na

答案: NaN

问题 2: 2. 请问不是缺失值通常用的处理方式是（）。

选项:

A. 填补
B. 删除
C. 插补
D. 提取

答案: 提取

问题 3: 3. 数据整合后（）。

选项:

A. 数据量会增加
B. 数据量会不变
C. 数据的波动性增加
D. 数据波动性减小

答案: 数据波动性减小

问题 4: 4. 数据离散化可以采用（）方式。

选项:

A. 等宽或者等频
B. 插补
C. 抽样
D. 查询

答案: 等宽或者等频

问题 5: 5. 下面关于主成分分析说法错误的是（）。

选项:

A. 主成分是相互正交（垂直）的
B. 主成分捕获了数据差异最大的方向
C. 是线性降维方法
D. 是非线性降维方法

答案: 是非线性降维方法

问题 6: 6. 数据经过标准化处理后（）。

选项:

A. 数据的波动性将会增加
B. 数据的波动单位为1
C. 数据的波动性将会减小
D. 数据值将被放大

答案: 数据的波动单位为1

问题 7: 7. 白化是指（）。

选项:

A. 从相关矩阵出发求解主成分
B. 从协方差矩阵出发求解主成分
C. 将数据进行标准化
D. 剔除数据中的异常值

答案: 请关注公众号【渝开搜题】查看答案

问题 8: 8. 分类模型评价时，通常采用（）损失。

选项:

A. 0-1损失
B. 指数
C. 绝对值
D. 平方

答案: 请关注公众号【渝开搜题】查看答案

问题 9: 9. 不是回归模型常采用的评价指标是（）。

选项:

A. MAE
B. MSE
C. R
D. 准确率

答案: 请关注公众号【渝开搜题】查看答案

问题 10: 10. 期望预测误差是指（）。

选项:

A. 真实值与预测值在某种损失函数下的平均值
B. 真实值与预测值之差
C. 真实值与预测值在某种损失函数下的值
D. 真实值与预测值之比

答案: 请关注公众号【渝开搜题】查看答案

问题 11: 11. 下面关于主成分分析说法正确的是（）。

选项:

A. 主成分是相互正交（垂直）的
B. 主成分捕获了数据差异最大的方向
C. 是线性降维方法
D. 是非线性降维方法

答案: 请关注公众号【渝开搜题】查看答案

问题 12: 12. 分类任务的评价指标通常采用（）。

选项:

A. 准确度
B. ROC曲线
C. 特效度
D. 灵敏度
E. 错分成本

答案: 请关注公众号【渝开搜题】查看答案

问题 13: 13. 主成分分析中最大的特征值对应的特征向量也就是是数据差异最大的的方向。（）

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 14: 14. 白化是指将数据进行标准化。（）

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 15: 15. 数据经过标准化处理后，数据的波动性将会减小。（）

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 16: 16. 在Python中缺失值通常用NA来记号。（）

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 17: 17. 主成分是相互正交（垂直）的。（）

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 18: 18. 回归模型评价时，通常采用0-1损失。（）

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 19: 19. 兰德指数是聚类分析的内部评价指标。（）

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 20: 20. 期望预测误差中的偏差部分是由估计值的平均可能偏离了真实值带来的。（）

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 21: 21. 分类模型评价时，通常采用平方损失。（）

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 22: 22. 由于最优解所在空间假设失误将会造成期望预测误差中的方差部分。

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 23: 1. 在关联分析中，下面哪个有可能是频繁3项集（）

选项:

A. {面包，牛奶}
B. {面包，牛奶，啤酒}
C. {面包}
D. {面包，牛奶，花生，啤酒}

答案: 请关注公众号【渝开搜题】查看答案

问题 24: 2. 从下面两个变量的相关系数图可以看出（）

选项:

A. 左图相关系数大于0
B. 右图相关系数小于0
C. 左图相关系数等于0
D. 右图相关系数等于0

答案: 请关注公众号【渝开搜题】查看答案

问题 25: 3. 要考虑“储蓄水平”与 “人口水平”之间的相关。“储蓄水平”收集了储蓄比率（sr）、人均可支配收入（dpi）、人均可支配收入变化的百分率（ddpi）3个变量，“人口水平”收集了15岁以下人口的百分比、75岁以上人口百分比2个变量。请问采用下面哪种分析方法更合适（）。

选项:

A. 单向关
B. 典型相关
C. 偏相关
D. 点二列（点双列）相关

答案: 请关注公众号【渝开搜题】查看答案

问题 26: 4. 关于设定虚拟变量时应当遵循如下原则，下列说法错误的是：( )

选项:

A. 对于有k个表现值的定性变量，只设定（k-1）个虚拟变量；
B. 虚拟变量的值通常用“0”或“1”来表示；
C. 对于每个样本而言，同一个定性变量对应虚拟变量的值之和不超过1；
D. 对于季节变量而言，四个季节需要设定4个虚拟变量

答案: 请关注公众号【渝开搜题】查看答案

问题 27: 5. 如果要解决随着员工职位的变动，员工报酬会变动多大的问题，下面说法不正确的是（）

选项:

A. 员工职位需要考虑成是分类变量
B. 员工职位需要引入虚拟变量来处理
C. 如果员工职位有5个类别，那么需要引入5个虚拟变量来表示
D. 员工报酬需要考虑成被解释变量

答案: 请关注公众号【渝开搜题】查看答案

问题 28: 6. 为研究电商注册用户数量与其销售收入之间的关系，收集数据得到下面的散点图。请问这样的散点图适用建立下面哪种回归模型（）。

选项:

A. 线性回归模型
B. 非线性回归模型
C. 对数线性模型
D. Logistic回归模型

答案: 请关注公众号【渝开搜题】查看答案

问题 29: 7. 当因变量数据具有尖峰厚尾的分布特征或有离群点（即异常值）时，更合适的回归模型是（）。

选项:

A. 线性回归模型
B. Logistic回归模型
C. 分位数回归
D. 非线性回归

答案: 请关注公众号【渝开搜题】查看答案

问题 30: 8. 为监测某厂家生产的某款激光打印机的质量问题，考察该款打印机发生故障的次数。其发生故障的次数可能会受到打印纸张数量（千页）、打印机使用时长（千小时）、硒鼓（原装/兼容）等因素的影响。收集数据后的分析结果如下：

选项:

A. 此次分析构建了一个计数模型
B. 收集了30个观测数据
C. 对数似然值为-39.804
D. 自变量都不显著

答案: 请关注公众号【渝开搜题】查看答案

问题 31: 9. 近邻分类中的近邻个数说法正确的是：（）

选项:

A. 1-近邻的复杂度最高
B. 随着近邻个数的增加，模型的复杂度增加
C. 近邻个数不会影响模型的预测能力
D. 近邻个数需要人为确定

答案: 请关注公众号【渝开搜题】查看答案

问题 32: 10. 关于下面的决策树说法不正确的是（）。

选项:

A. 此决策树根节点的gini为0.145
B. 落入此决策树根节点中的数据有35个
C. 此次划分的gini增益为0.058
D. 落入Petal.Length≤5.05的数据将为判为versicolor一类

答案: 请关注公众号【渝开搜题】查看答案

问题 33: 11. 定性数据之间的相关通常采用（）来度量。

选项:

A. Pearson相关系数
B. Spearman相关系数
C. Kendall tau-b相关系数
D. Hoeffding’s D相关系数

答案: 请关注公众号【渝开搜题】查看答案

问题 34: 12. 决策树中结点的最优划分是依据（）来确定的。

选项:

A. 局部最优性
B. 信息增益大的划分
C. 信息增益小的划分
D. GINI增益大的划分

答案: 请关注公众号【渝开搜题】查看答案

问题 35: 13. 典型相关分析解决的问题是两组变量之间的非线性相关关系。( )

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 36: 14. 按考虑相关因素（变量）的多少，相关关系分为正相关和负相关。（）

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 37: 15. Pearson相关系数取值为0时，表现为变量无相关。（）

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 38: 16. 偏相关系数总是比相关系数高。（）

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 39: 17. 线性回归模型的拟合优度的判定系数越大，说明回归方程预测能力较好。（）

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 40: 18. Poisson回归模型假设观测因变量数据服从Poisson分布。（）

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 41: 19. 对于有k个表现值的定性变量，需设定k个虚拟变量。（）

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 42: 20. 二元选择模型通常假设观测数据与一个隐藏的标准正态分布或者Logistic分布有关。（）

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 43: 21. 线性回归模型显著性检验的P值越小，说明对应的自变量与因变量的相关程度越高。（）

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 44: 22. 马氏距离不受总体空间大小的影响，也不受计量单位的影响。( )

选项:

答案: 请关注公众号【渝开搜题】查看答案

问题 45: 1. 聚类分析的原则不可能是：（）

选项:

A. 个体与个体之间的距离越近越有可能是一类
B. 同一类的个体的相似性可能也越大
C. 不同类的个体之间的距离越远
D. 不同类的个体之间的相似性更高

答案: 请关注公众号【渝开搜题】查看答案

问题 46: 2. 下面关于DBSCAN聚类说法错误的是：（）

选项:

A. DBSCAN是具有噪声的基于密度的空间聚类方法
B. DBSCAN算法不能发现任意形状的空间聚类
C. DBSCAN聚类有一个参数是半径（Eps）
D. DBSCAN聚类还有一个参数是以点P为中心的邻域内最少点的数量（MinPts）

答案: 请关注公众号【渝开搜题】查看答案

问题 47: 3. 来源于方差分析的类间距的定义方法是（）

选项:

A. 最短距离法（single linkage）
B. 中间距离法（median method）
C. 类平均法（average linkage）
D. 离差平方和法（WARD）

答案: 请关注公众号【渝开搜题】查看答案

问题 48: 4. 用类内样本各指标的均值之间的距离作为类间距离的定义方法是（）

选项:

A. 重心法（centroid method）
B. 中间距离法（median method）
C. 类平均法（average linkage）
D. 离差平方和法（WARD）

答案: 请关注公众号【渝开搜题】查看答案

问题 49: 5. 下面关于K-MEANS（K-均值）聚类描述不正确的是（）

选项:

A. 对于研究的对象事先需要确定最终分为几类
B. 又被称为快速聚类
C. 每一步都要更新聚类种子的中心
D. 一般用于小样本情况下的样品聚类

答案: 请关注公众号【渝开搜题】查看答案

问题 50: 6. 下面的距离度量中，欧氏距离是（）

选项:

A. 公式A
B. 公式B
C. 公式C
D. 公式D

答案: 请关注公众号【渝开搜题】查看答案

问题 51: 7. DBSCAN算法中的核心对象是（）

选项:

A. 对给定对象ε邻域内的样本点数小于MinPts的对象
B. 对给定对象ε邻域内的样本点数大于等于MinPts的对象
C. 对给定对象ε邻域内的样本点数小于等于MinPts的对象
D. 对给定对象ε邻域内的样本点数大于MinPts的对象

答案: 请关注公众号【渝开搜题】查看答案

问题 52: 8. DBSCAN算法中的直接密度可达、密度可达与密度相连理解不正确的是（）

选项:

A. 只有核心对象之间相互密度可达
B. 密度相连是对称关系
C. DBSCAN目的是找到密度相连对象的最大集合
D. 密度可达也是对称关系

答案: 请关注公众号【渝开搜题】查看答案

问题 53: 9. 下面关于将非平稳的时间序列平稳化的说法错误的是：（）

选项:

A. 差分用于将非平稳的时间序列平稳化
B. 对时间序列的数值取对数可以将非平稳的时间序列平稳化
C. 对时间序列的数值取对数后不能再做差分了
D. 对时间序列的数值取对数后再进行差分也可以将非平稳的时间序列平稳化

答案: 请关注公众号【渝开搜题】查看答案

问题 54: 10. 采用AIC准则找最优模型得到如下的结果：
The AIC of ARMA(0,0) is 13679.401951273543
The AIC of ARMA(0,1) is 13332.135879407648
The AIC of ARMA(0,2) is 13289.758498467238
The AIC of ARMA(1,0) is 13458.95993448334
The AIC of ARMA(1,1) is 13266.651183460379
The AIC of ARMA(1,2) is 13241.110101949496
The AIC of ARMA(2,0) is 13396.594961413079
The AIC of ARMA(2,1) is 13245.885887026114
The AIC of ARMA(2,2) is 13242.201821971108
请问哪个模型最优（）

选项:

A. ARMA(0,2)
B. ARMA(2,2)
C. ARMA(1,0)
D. ARMA(1,2)

答案: 请关注公众号【渝开搜题】查看答案

问题 55: 11. 从下面的时序图一定可以得到的结论是（）

选项:

A. 该序列具有零均值
B. 该序列具有同方差性
C. 这是一个白噪声序列
D. 这是一个平稳时间序列

答案: 请关注公众号【渝开搜题】查看答案

问题 56: 12. 空调销售量随着季节不同而发生较大变动，夏季的销售量一般高于冬季的销售量。空调销售量数据的这种变动称为（）

选项:

A. 长期趋势变动
B. 季节变动
C. 循环波动
D. 不规则变动

答案: 请关注公众号【渝开搜题】查看答案

问题 57: 13. 单位根检验在Python中实现时，下面的选项（）不是regressioncans参数的设定值。

选项:

A. 'c'(仅常数，默认)
B. 'ctt'(常数，线性和二次曲线趋势)
C. 'ct'(常数和长期趋势)
D. 'nct'(无常数无趋势)

答案: 请关注公众号【渝开搜题】查看答案

问题 58: 14. 自相关系数图与偏自相关图如下。下面的说法不正确的是（）

选项:

A. 自相关系数具有截尾性
B. 偏自相关系数具有拖尾性
C. 此序列可以认为是AR(1)模型
D. 此序列可以认为是MA(1)模型

答案: 请关注公众号【渝开搜题】查看答案

问题 59: 15. 设dij表示第i个样本与第j个样本之间的距离。那么距离必须满足的原则有：（）

选项:

A. d
≥0，对一切i,j
B. d
=0，等价于i,j
C. d
=d
，对一切i,j
D. d
≤d
+d
，对一切i,j,k

答案: 请关注公众号【渝开搜题】查看答案

问题 60: 16. 个体之间的距离必须满足的原则有：（）

选项:

A. 非负性
B. 个体自身与自身的距离为0
C. 对等性
D. 两点之间直线距离最小

答案: 请关注公众号【渝开搜题】查看答案

问题 61: 17. 聚类任务中，衡量个体之间的相似性通常使用下面哪些度量（）

选项:

A. 距离
B. 相关系数
C. 相似系数
D. 匹配系数

答案: 请关注公众号【渝开搜题】查看答案

问题 62: 18. 非平稳的时间序列：（）

选项:

A. 在整体上有明显的上升的趋势
B. 在局部上有明显的上升的趋势
C. 在整体上有明显的下降的趋势
D. 在局部上有明显的下降的趋势

答案: 请关注公众号【渝开搜题】查看答案

问题 63: 19. 构成时序的各个组成元素的相关系数：（）

选项:

A. 取值在-1到1之间
B. 其绝对值越接近于1，说明时间序列的自相关程度越高
C. 被称为自相关系数
D. 时间间隔为的两部分数据之间的相关性被称为阶自相关系数

答案: 请关注公众号【渝开搜题】查看答案

四川开放大学_大数据分析与挖掘技术作业答案

大数据分析与挖掘技术

四川开放大学_内科护理学作业答案

吉林开放大学_学前教育概论作业答案

内蒙古开放大学_Matlab语言及其应用作业答案

山西开放大学公共行政学作业答案

渝粤教育公告

四川开放大学_大数据分析与挖掘技术作业答案

大数据分析与挖掘技术

📚 相关文章

四川开放大学_内科护理学作业答案

吉林开放大学_学前教育概论作业答案

内蒙古开放大学_Matlab语言及其应用作业答案

山西开放大学公共行政学作业答案