目录
Kaggle实战

模型优劣:

  • LogisticsRegression

    • 采用精确解析的方式,计算时间长,但是模型性能高。
  • SGDClassifier:

    • 计算时间短但性能偏低,一般数据规模在10万条朝上。
  • MultinomialNB:朴素贝叶斯

    • 本质:P(好瓜|瓜囊,颜色,味道)

    • 强假设条件:使得幂指数量级向线性量级减少,极大节约了内存消耗和计算的时间。

    • 常用语:文本分析

    • 无法考虑特征间的联系,在特征关联性上的分类任务表现不佳。

  • K近邻:K

    • 优点:直观
    • 特点:没有参数训练过程,要分类的时候直接进行计算判断。没有像SVM一样训练出一个分类的边界之类的,直接干。每次分类,需要很高的计算复杂度和内存消耗。
      • KD-Tree:空间换取时间的思想,减少判断的对象,也即减少了时间。
  • 决策树:tree.DecisionTreeClassifier

    • 还是有参模型:需要构建一个分类树
    • 特点:无需对数据进行标准化处理,或者量化处理。因为每次选择方向的时候,都是计算每个特征内的信息熵增益,不会和其他的特征掺杂在一起。
    • 优点:可描述性强。
  • 集成学习:

    • 实战中常见
    • 稳定性好和表现性也强
    • 计算量大
  • 回归模型:

    • 数据需要标准化处理,目的:加快优化速度
文章作者: Jacky
文章链接: https://wangjs-jacky.github.io/2020/01/04/Kaggle%E5%AE%9E%E6%88%98/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Jacky's blogs