1、随机丛林(RF)的随机怎么了解?
RANDOM的了解有两点:一是样本的随机,二是特性的随机,随机性得长处是防备模子过拟合。
2、决议计划树(DT)哪几种?
有3种:ID3(信息熵,信息增益,偏好取值较多的属性)、C4.5(采纳信息增益率,办理ID3偏好取值较多属性的缺点)、CART(二叉树,利用基尼指数,可用于一连性变量)。
3、大数据的处置惩罚要领有哪些?
数据收罗、数据处置惩罚(ETL,spark,hive,presto[多表盘问,单表求和求均值有上风],clickhouse[单个大表盘问有上风],impala[多表盘问,庞大聚合join上风显着])、数据阐发(sql,python)、效果展示(tableau,powerbi,bplus等可视化东西)
4、大数据利用的底层架构设计是什么?
利用的是MapReduce,重要包罗input(文件),spliting(拆分),mapping(key-value),shuffing(group by),reducing(count,sum),final(result)
5、GBDT和XGBOOST的区别是什么?
①XGB是GBDT的工程实现
②GBDT的基分类器是CART,XGB的基分类器除了树分类器另有线性分类器,并且XGB利用正则项防备过拟合
③XGB的价钱函数采纳泰勒睁开式的二阶导数,进步正确性
④GBDT采纳全部数据,模子练习很耗时;XGB采纳随机数据,提拔模子练习速率
⑤XGB可处置惩罚缺失值
6、集成进修有几种?
重要两种:Bagging(随机丛林),Boosting(GBDT)
7、模子评价指标有哪些?
AUC,KS,殽杂矩阵
8、特性工程有哪些?
特性天生(特性加工和特性组合),特性筛选(过滤式Filter[卡方、信息增益、相干系数],包裹式Wrapper[模子输出特性紧张性],嵌入式Embedded[岭回来,L2正则项])
9、规律回来的道理
规律回来素质上是线性回来,规律回来不是回来算法,是分类算法,Logistic回来与多重线性回来现实上有许多雷同之处,最大的区别就在于它们的因变量差别。规律回来的步调大抵如下:查找h函数(即猜测函数)g(z)=1/(1+e的-z次方),
结构J函数(丧失函数),
想方法使得J函数最小并求得回来参数(θ)。