您所在的位置：首页 > 最新热文 > 探索发现

数据阐发师口试题目参考

2022-11-16 15:20:07 作者：庸人自扰

导读：数据分析师面试问题参考,1、随机森林(RF)的随机怎么理解？RANDOM的理解有两点:一是样本的随机，二是特征的随机，随机性得优点是防止模型过拟合。2、决策树(DT)...
临床执业医师考试题不属于细胞和组织的适应性反应的是

1、随机丛林(RF)的随机怎么了解？

RANDOM的了解有两点:一是样本的随机，二是特性的随机，随机性得长处是防备模子过拟合。

2、决议计划树(DT)哪几种？

有3种:ID3(信息熵，信息增益，偏好取值较多的属性)、C4.5(采纳信息增益率，办理ID3偏好取值较多属性的缺点)、CART(二叉树，利用基尼指数，可用于一连性变量)。

3、大数据的处置惩罚要领有哪些？

数据收罗、数据处置惩罚(ETL，spark,hive,presto[多表盘问，单表求和求均值有上风],clickhouse[单个大表盘问有上风],impala[多表盘问，庞大聚合join上风显着])、数据阐发(sql,python)、效果展示(tableau,powerbi,bplus等可视化东西)

4、大数据利用的底层架构设计是什么？

利用的是MapReduce，重要包罗input(文件),spliting(拆分)，mapping(key-value),shuffing(group by),reducing(count,sum),final(result)

5、GBDT和XGBOOST的区别是什么？

①XGB是GBDT的工程实现

②GBDT的基分类器是CART,XGB的基分类器除了树分类器另有线性分类器，并且XGB利用正则项防备过拟合

③XGB的价钱函数采纳泰勒睁开式的二阶导数，进步正确性

④GBDT采纳全部数据，模子练习很耗时；XGB采纳随机数据，提拔模子练习速率

⑤XGB可处置惩罚缺失值

6、集成进修有几种？

重要两种:Bagging(随机丛林)，Boosting(GBDT)

7、模子评价指标有哪些？

AUC,KS,殽杂矩阵