本文为《机器学习实战:基于Scikit-Learn和TensorFlow》的读书笔记。 决策树可以分类,也可以回归,还有多输出任务 安装好Graphviz,在cmd下输入 决策树特性:不需要太多的数据预处理,尤其是不需特征缩放或归一化 通常,算法使用 决策树不需要事先设置参数,不添加约束的决策树模型,能很好的拟合数据,容易过拟合 使用假设检验进行剪枝
中文翻译参考
是随机森林的基础组成部分1. 训练与可视化
from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier iris = load_iris() X = iris.data[:, 2:] # petal length and width y = iris.target tree_clf = DecisionTreeClassifier(max_depth=2) tree_clf.fit(X, y) from sklearn.tree import export_graphviz export_graphviz( tree_clf, out_file="iris_tree.dot", feature_names=iris.feature_names[2:], class_names=iris.target_names, rounded=True, filled=True ) dot -Tpng iris_tree.dot -o iris_tree.png # cmd,生成决策树可视化图片![[Hands On ML] 6. 决策树Michael是个半路程序员-](https://img-blog.csdnimg.cn/20200719225726427.png?x-oss-process=image,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzIxMjAxMjY3,size_16,color_FFFFFF,t_70)
2. 分类预测
tree_clf.predict_proba([[5,1.5]]) # array([[0. , 0.90740741, 0.09259259]]) tree_clf.predict([[5,1.5]]) # array([1])
O(log2m),与特征数量无关,m为样本数
O(nmlogm) ,n 为特征数量max_featuresGini 不纯度来进行检测,也可以设置为entropy
3. 模型参数
min_samples_split(节点在被分裂之前必须具有的最小样本数)min_samples_leaf(叶节点必须具有的最小样本数)min_weight_fraction_leaf(和min_samples_leaf相同,但表示为加权总数的一小部分实例)max_leaf_nodes(叶节点的最大数量)max_features(在每个节点被评估是否分裂的时候,具有的最大特征数量)min_* hyperparameters或者减少max_* hyperparameters会使模型正则化。![[Hands On ML] 6. 决策树Michael是个半路程序员-](https://img-blog.csdnimg.cn/20200720001101473.png?x-oss-process=image,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzIxMjAxMjY3,size_16,color_FFFFFF,t_70)
上图左侧没有剪枝,模型过拟合了4. 回归
![[Hands On ML] 6. 决策树Michael是个半路程序员-](https://img-blog.csdnimg.cn/20200720001707446.png?x-oss-process=image,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzIxMjAxMjY3,size_16,color_FFFFFF,t_70)
![[Hands On ML] 6. 决策树Michael是个半路程序员-](https://img-blog.csdnimg.cn/2020072000172782.png?x-oss-process=image,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzIxMjAxMjY3,size_16,color_FFFFFF,t_70)
同样需要设置合理的参数,左侧过拟合了5. 不稳定性
![[Hands On ML] 6. 决策树Michael是个半路程序员-](https://img-blog.csdnimg.cn/20200720002051541.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzIxMjAxMjY3,size_16,color_FFFFFF,t_70)
06-09
2161
本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器 下载并得到。
ImovieBox网页视频下载器 下载地址: ImovieBox网页视频下载器-最新版本下载
本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.
阅读和此文章类似的: 全球云计算
官方软件产品操作指南 (170)