南开大学23春学期（高起本：1709-2103、专升本高起专：1909-2103）《数据科学导论》在线作业答卷

2023年 8月 6日 124点热度 0人点赞 0条评论

23春学期（高起本：1709-2103、专升本/高起专：1909-2103）《数据科学导论》在线作业-00002
试卷总分:100 得分:100
一、单选题 (共 20 道试题,共 40 分)
1.一元线性回归中,真实值与预测值的差称为样本的()。
A.误差
B.方差
C.测差
D.残差
答案:

2.在k近邻法中,选择较小的k值时,学习的"近似误差"会(),"估计误差"会()。
A.减小，减小
B.减小，增大
C.增大，减小
D.增大，增大
答案:B

3.具有偏差和至少()个S型隐含层加上一个()输出层的网络能够逼近任何有理数。
A.1,线性
B.2,线性
C.1,非线性
D.2,非线性
答案:

4.单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型
答案:

5.多层感知机是由()层神经元组成。
A.二
B.三
C.大于等于二层
D.大于等于三层
答案:

6.根据映射关系的不同可以分为线性回归和()。
A.对数回归
B.非线性回归
C.逻辑回归
D.多元回归
答案:B

7.聚类的最简单最基本方法是()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
答案:

8.以下哪一项不是特征选择常见的方法()
A.过滤式
B.封装式
C.嵌入式
D.开放式
答案:

9.实体识别属于以下哪个过程()
A.数据清洗
B.数据集成
C.数据规约
D.数据变换
答案:B

10.数据质量检验的主要任务就是检查原始数据中是否存在"脏数据",概括性来说,脏数据不包括以下()
A.普通值
B.异常值
C.不一致的值
D.重复值
答案:

11.以下属于关联分析的是( )
A.CPU性能预测
B.购物篮分析
C.自动判断鸢尾花类别
D.股票趋势建模
答案:B

12.在一元线性回归中,通过最小二乘法求得的直线叫做回归直线或()。
A.最优回归线
B.最优分布线
C.最优预测线
D.最佳分布线
答案:

13.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
答案:

14.通过构造新的指标-线损率,当超出线损率的正常范围, 则可以判断这条线路的用户可能存在窃漏电等异常行为属于数据变换中的()
A.简单函数变换
B.规范化
C.属性构造
D.连续属性离散化
答案:

15.层次聚类适合规模较()的数据集
A.大
B.中
C.小
D.所有
答案:

16.在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用()。
A.越小
B.越大
C.无关
D.不确定
答案:B

17.以下哪一项不属于数据变换()
A.简单函数变换
B.规范化
C.属性合并
D.连续属性离散化
答案:

18.K-means聚类适用的数据类型是()。
A.数值型数据
B.字符型数据
C.语音数据
D.所有数据
答案:

19.设X={1,2,3}是频繁项集,则可由X产生()个关联规则。
A.4
B.5
C.6
D.7
答案:

20.比如一张表,从业务上讲,一个用户应该只会有一条记录, 那么如果某个用户出现了超过一条的记录,这就产生了()
A.异常值
B.不一致的值
C.重复值
D.缺失值
答案:

二、多选题 (共 10 道试题,共 20 分)
21.系统日志收集的基本特征有()
A.高可用性
B.高可靠性
C.可扩展性
D.高效率
答案:BC

22.多层感知机的学习过程包含()。
A.信号的正向传播
B.信号的反向传播
C.误差的正向传播
D.误差的反向传播
答案

23.聚类的主要方法有()。
A.划分聚类
B.层次聚类
C.密度聚类
D.距离聚类
答案:BC

24.对于多层感知机,()层拥有激活函数的功能神经元。
A.输入层
B.隐含层
C.输出层
答案:BC

25.关联规则的评价度量主要有)。
A.支持度
B.置信度
C.准确率
D.错误率
答案:B

26.K-means聚类中K值选取的方法是()。
A.密度分类法
B.手肘法
C.大腿法
D.随机选取
答案:B

27.什么情况下结点不用划分()
A.当前结点所包含的样本全属于同一类别
B.当前属性集为空，或是所有样本在所有属性上取值相同
C.当前结点包含的样本集为空
D.还有子集不能被基本正确分类
答案:BC

28.数据科学具有哪些性质()
A.有效性
B.可用性
C.未预料
D.可理解
答案:BCD

29.一元回归参数估计的参数求解方法有()。
A.最大似然法
B.距估计法
C.最小二乘法
D.欧式距离法
答案:BC

30.Apriori算法的计算复杂度受()影响。
A.支持度阈值
B.项数
C.事务数
D.事务平均宽度
答案:BCD

三、答案来源：网（www.daydayup731.com） (共 20 道试题,共 40 分)
31.如果一个候选集至少有一个子集是非频繁的,根据支持度的反单调属性,这样的候选项集肯定是非频繁的。
答案:正确

32.交叉表可以帮助人们发现变量之间的相互作用。
答案:正确

33.K-means算法采用贪心策略,通过迭代优化来近似求解。
答案:正确

34.Jaccard系数只关心个体间共同具有的特征是否一致这个问题。
答案:正确

35.对于项集来说,置信度没有意义。
答案:正确

36.在树的结构中,特征越重要,就越远离根节点。
答案:错误

37.决策树内部结点表示一个类,叶结点表示一个特征或属性
答案:错误

38.朴素贝叶斯分类器有简单、高效、健壮的特点,但某些属性可能会降低分类器的性能
答案:正确

39.决策树学习的算法通常是一个递归地选择最优特征,并根据该特征对训练数据进行分割,使得各个子数据集有一个最好的分类的过程,这一过程对应着特征空间的划分,也对应着决策树的构建
答案:正确

40.关联规则可以用枚举的方法产生。
答案:正确

41.获取数据为数据分析提供了素材和依据,这里的数据只包括直接获取的数据。
答案:错误

42.聚合方法是自底向上的方法。
答案:正确

43.多层感知机的学习能力有限,只能处理线性可分的二分类问题。
答案:错误

44.支持度是衡量关联规则重要性的一个指标。
答案:正确

45.可信度是对关联规则的准确度的衡量。
答案:正确

46.集中趋势能够表明在一定条件下数据的独特性质与差异
答案:错误

47.Apriori算法是一种典型的关联规则挖掘算法。
答案:正确

48.选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的"近似误差"会减小,"估计误差"会增大,预测结果会对近邻的点实例点非常敏感。
答案:正确

49.当训练集较大的时候,标准BP算法通常会更快的获得更好的解。
答案:正确

50.一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的"纯度提升越大",因此我们可用信息增益来进行决策树的最优特征选择。
答案:正确,学长介绍来的,新手报到，顺便下载答案！,同学推荐的

南开大学23春学期（高起本：1709-2103、专升本高起专：1909-2103）《数据科学导论》在线作业答卷

选择聊天工具：