Kaggle实战

模型优劣：

LogisticsRegression
- 采用精确解析的方式，计算时间长，但是模型性能高。
SGDClassifier：
- 计算时间短但性能偏低，一般数据规模在10万条朝上。
MultinomialNB：朴素贝叶斯
- 本质：P(好瓜|瓜囊，颜色，味道)
- 强假设条件：使得幂指数量级向线性量级减少，极大节约了内存消耗和计算的时间。
- 常用语：文本分析
- 无法考虑特征间的联系，在特征关联性上的分类任务表现不佳。
K近邻：K
- 优点：直观
- 特点：没有参数训练过程，要分类的时候直接进行计算判断。没有像SVM一样训练出一个分类的边界之类的，直接干。每次分类，需要很高的计算复杂度和内存消耗。
  - KD-Tree：空间换取时间的思想，减少判断的对象，也即减少了时间。
决策树：tree.DecisionTreeClassifier
- 还是有参模型：需要构建一个分类树
- 特点：无需对数据进行标准化处理，或者量化处理。因为每次选择方向的时候，都是计算每个特征内的信息熵增益，不会和其他的特征掺杂在一起。
- 优点：可描述性强。
集成学习：
- 实战中常见
- 稳定性好和表现性也强
- 计算量大
回归模型：
- 数据需要标准化处理，目的：加快优化速度