DecisionTreeClassifier
from sklearn.tree import DecisionTreeClassifier |
属性:
-
criterion: 特征选择算法。
gini
基尼系数,entropy
信息熵。有研究表明,两个算法的差距不是很大,相比较而言,信息熵的运算效率会低一点,因为信息熵的公式中存在对数运算。
-
splitter:
best
和random
两个属性默认是
best
:正常都是选择最优的分支创建原则。但是还提供了一个过拟合的接口random
,从表现最优的几个特征中随机选择一个特征来创建分支。 -
前剪枝
的属性控制:- max_depth: 设置最大深度
- min_samples_split: 创建分支的数据集
- max_samples_leaf:
- max_leaf_nodes: 最大样本节点的个数
- min_impurity_split: 信息增益的阈值。