目录
  1. DecisionTreeClassifier
    1. 属性:
DecisionTreeClassifier

DecisionTreeClassifier

from sklearn.tree import DecisionTreeClassifier
decision_tree = DecisionTreeClassifier(criterion='gini', splitter='best', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort='deprecated', ccp_alpha=0.0)

属性:

  • criterion: 特征选择算法。 gini基尼系数,entropy信息熵。

    有研究表明,两个算法的差距不是很大,相比较而言,信息熵的运算效率会低一点,因为信息熵的公式中存在对数运算。

  • splitter: bestrandom两个属性

    默认是best:正常都是选择最优的分支创建原则。但是还提供了一个过拟合的接口random,从表现最优的几个特征中随机选择一个特征来创建分支。

  • 前剪枝的属性控制:

    • max_depth: 设置最大深度
    • min_samples_split: 创建分支的数据集
    • max_samples_leaf:
    • max_leaf_nodes: 最大样本节点的个数
    • min_impurity_split: 信息增益的阈值。