数据阐发师口试题目参考

2022-11-16 15:20:07 作者:庸人自扰
导读:数据分析师面试问题参考,1、随机森林(RF)的随机怎么理解?RANDOM的理解有两点:一是样本的随机,二是特征的随机,随机性得优点是防止模型过拟合。2、决策树(DT)...
临床执业医师考试题 不属于细胞和组织的适应性反应的是

1、随机丛林(RF)的随机怎么了解?

RANDOM的了解有两点:一是样本的随机,二是特性的随机,随机性得长处是防备模子过拟合。

估分 2020年教师资格证考试真题参考答案已出炉

2、决议计划树(DT)哪几种?

有3种:ID3(信息熵,信息增益,偏好取值较多的属性)、C4.5(采纳信息增益率,办理ID3偏好取值较多属性的缺点)、CART(二叉树,利用基尼指数,可用于一连性变量)。

3、大数据的处置惩罚要领有哪些?

数据收罗、数据处置惩罚(ETL,spark,hive,presto[多表盘问,单表求和求均值有上风],clickhouse[单个大表盘问有上风],impala[多表盘问,庞大聚合join上风显着])、数据阐发(sql,python)、效果展示(tableau,powerbi,bplus等可视化东西)

4、大数据利用的底层架构设计是什么?

利用的是MapReduce,重要包罗input(文件),spliting(拆分),mapping(key-value),shuffing(group by),reducing(count,sum),final(result)

5、GBDT和XGBOOST的区别是什么?

①XGB是GBDT的工程实现

②GBDT的基分类器是CART,XGB的基分类器除了树分类器另有线性分类器,并且XGB利用正则项防备过拟合

③XGB的价钱函数采纳泰勒睁开式的二阶导数,进步正确性

④GBDT采纳全部数据,模子练习很耗时;XGB采纳随机数据,提拔模子练习速率

⑤XGB可处置惩罚缺失值

6、集成进修有几种?

重要两种:Bagging(随机丛林),Boosting(GBDT)

7、模子评价指标有哪些?

AUC,KS,殽杂矩阵

8、特性工程有哪些?

特性天生(特性加工和特性组合),特性筛选(过滤式Filter[卡方、信息增益、相干系数],包裹式Wrapper[模子输出特性紧张性],嵌入式Embedded[岭回来,L2正则项])

9、规律回来的道理

规律回来素质上是线性回来,规律回来不是回来算法,是分类算法,Logistic回来与多重线性回来现实上有许多雷同之处,最大的区别就在于它们的因变量差别。规律回来的步调大抵如下:查找h函数(即猜测函数)g(z)=1/(1+e的-z次方),

结构J函数(丧失函数),

想方法使得J函数最小并求得回来参数(θ)。

估分 2020年教师资格证考试真题参考答案已出炉
精彩图集