模型优劣:
-
LogisticsRegression
- 采用精确解析的方式,计算时间长,但是模型性能高。
-
SGDClassifier:
- 计算时间短但性能偏低,一般数据规模在10万条朝上。
-
MultinomialNB:朴素贝叶斯
-
本质:P(好瓜|瓜囊,颜色,味道)
-
强假设条件:使得幂指数量级向线性量级减少,极大节约了内存消耗和计算的时间。
-
常用语:文本分析
-
无法考虑特征间的联系,在特征关联性上的分类任务表现不佳。
-
-
K近邻:K
- 优点:直观
- 特点:没有参数训练过程,要分类的时候直接进行计算判断。没有像SVM一样训练出一个分类的边界之类的,直接干。每次分类,需要很高的计算复杂度和内存消耗。
- KD-Tree:空间换取时间的思想,减少判断的对象,也即减少了时间。
-
决策树:tree.DecisionTreeClassifier
- 还是有参模型:需要构建一个分类树
- 特点:无需对数据进行标准化处理,或者量化处理。因为每次选择方向的时候,都是计算每个特征内的信息熵增益,不会和其他的特征掺杂在一起。
- 优点:可描述性强。
-
集成学习:
- 实战中常见
- 稳定性好和表现性也强
- 计算量大
-
回归模型:
- 数据需要标准化处理,目的:加快优化速度