大小:131.09M
更新时间:23-08-30
系统:Pc
版本:v
数据挖掘实用机器学习工具与技术(原书第3版)是一本数据挖掘方面的技术书籍,由新西兰程序员威滕(Witten,I.H)编著。本书对上一版内容进行了全面更新,其内容包括数据转换、集成学习、大规模数据集、多实例学习等,以及新版的Weka机器学习软件。作者重点在于告诉读者“如何去做”,同时包括许多算法、代码以及具体实例的实现。并且还将所有的概念都建立在具体实例的基础之上,促使读者首先考虑使用简单的技术。如果简单的技术不足以解决问题,再考虑提升到更为复杂的高级技术,欢迎学习数据挖掘的朋友免费下载阅读。
《数据挖掘实用机器学习工具与技术(原书第3版)》是机器学习和数据挖掘领域的经典畅销教材,被众多国外名校选为教材。书中详细介绍用于数据挖掘领域的机器学习技术和工具以及实践方法,并且提供了一个公开的数据挖掘工作平台Weka。本书主要内容包括:数据输入/输出、知识表示、数据挖掘技术(决策树、关联规则、基于实例的学习、线性模型、聚类、多实例学习等)以及在实践中的运用。本版对上一版内容进行了全面更新,以反映自第2版出版以来数据挖掘领域的技术变革和新方法,包括数据转换、集成学习、大规模数据集、多实例学习等,以及新版的Weka机器学习软件。
第一部分 数据挖掘简介 第1章 绪论2 1.1 数据挖掘和机器学习2 1.1.1 描述结构模式3 1.1.2 机器学习5 1.1.3 数据挖掘6 1.2 简单的例子:天气问题和其他问题6 1.2.1 天气问题7 1.2.2 隐形眼镜:一个理想化的问题8 1.2.3 鸢尾花:一个经典的数值型数据集10 1.2.4 CPU性能:介绍数值预测11 1.2.5 劳资协商:一个更真实的例子11 1.2.6 大豆分类:一个经典的机器学习的成功例子13 1.3 应用领域14 1.3.1 Web挖掘15 1.3.2 包含评判的决策15 1.3.3 图像筛选16 1.3.4 负载预测17 1.3.5 诊断17 1.3.6 市场和销售18 1.3.7 其他应用19 1.4 机器学习和统计学20 1.5 将泛化看做搜索21 1.5.1 枚举概念空间22 1.5.2 偏差22 1.6 数据挖掘和道德24 1.6.1 再识别25 1.6.2 使用个人信息25 1.6.3 其他问题26 1.7 补充读物27 第2章 输入:概念、实例和属性29 2.1 概念29 2.2 样本31 2.2.1 关系32 2.2.2 其他实例类型34 2.3 属性35 2.4 输入准备37 2.4.1 数据收集37 2.4.2 ARFF格式38 2.4.3 稀疏数据40 2.4.4 属性类型40 2.4.5 缺失值41 2.4.6 不正确的值42 2.4.7 了解数据43 2.5 补充读物43 第3章 输出:知识表达44 3.1 表44 3.2 线性模型44 3.3 树45 3.4 规则48 3.4.1 分类规则49 3.4.2 关联规则52 3.4.3 包含例外的规则52 3.4.4 表达能力更强的规则54 3.5 基于实例的表达56 3.6 聚类58 3.7 补充读物60 第4章 算法:基本方法61 4.1 推断基本规则61 4.1.1 缺失值和数值属性62 4.1.2 讨论64 4.2 统计建模64 4.2.1 缺失值和数值属性67 4.2.2 用于文档分类的朴素贝叶斯68 4.2.3 讨论70 4.3 分治法:建立决策树70 4.3.1 计算信息量73 4.3.2 高度分支属性74 4.3.3 讨论75 4.4 覆盖算法:建立规则76 4.4.1 规则与树77 4.4.2 一个简单的覆盖算法77 4.4.3 规则与决策列表80 4.5 挖掘关联规则81 4.5.1 项集81 4.5.2 关联规则83 4.5.3 有效地生成规则85 4.5.4 讨论87 4.6 线性模型87 4.6.1 数值预测:线性回归87 4.6.2 线性分类:Logistic回归88 4.6.3 使用感知机的线性分类90 4.6.4 使用Winnow的线性分类91 4.7 基于实例的学习92 4.7.1 距离函数93 4.7.2 有效寻找最近邻93 4.7.3 讨论97 4.8 聚类97 4.8.1 基于距离的迭代聚类98 4.8.2 快速距离计算99 4.8.3 讨论100 4.9 多实例学习100 4.9.1 聚集输入100 4.9.2 聚集输出100 4.9.3 讨论101 4.10 补充读物101 4.11 Weka实现103 第5章 可信度:评估学习结果104 5.1 训练和测试104 5.2 预测性能106 5.3 交叉验证108 5.4 其他评估方法109 5.4.1 留一交叉验证109 5.4.2 自助法109 5.5 数据挖掘方法比较110 5.6 预测概率113 5.6.1 二次损失函数114 5.6.2 信息损失函数115 5.6.3 讨论115 5.7 计算成本116 5.7.1 成本敏感分类117 5.7.2 成本敏感学习118 5.7.3 提升图119 5.7.4 ROC曲线122 5.7.5 召回率-精确率曲线124 5.7.6 讨论124 5.7.7 成本曲线125 5.8 评估数值预测127 5.9 最小描述长度原理129 5.10 在聚类方法中应用MDL原理131 5.11 补充读物132 第二部分 高级数据挖掘 第6章 实现:真正的机器学习方案134 6.1 决策树135 6.1.1 数值属性135 6.1.2 缺失值136 6.1.3 剪枝137 6.1.4 估计误差率138 6.1.5 决策树归纳的复杂度140 6.1.6 从决策树到规则140 6.1.7 C4.5:选择和选项141 6.1.8 成本-复杂度剪枝141 6.1.9 讨论142 6.2 分类规则142 6.2.1 选择测试的标准143 6.2.2 缺失值和数值属性143 6.2.3 生成好的规则144 6.2.4 使用全局优化146 6.2.5 从局部决策树中获得规则146 6.2.6 包含例外的规则149 6.2.7 讨论151 6.3 关联规则152 6.3.1 建立频繁模式树152 6.3.2 寻找大项集157 6.3.3 讨论157 6.4 扩展线性模型158 6.4.1 最大间隔超平面159 6.4.2 非线性类边界160 6.4.3 支持向量回归161 6.4.4 核岭回归163 6.4.5 核感知机164 6.4.6 多层感知机165 6.4.7 径向基函数网络171 6.4.8 随机梯度下降172 6.4.9 讨论173 6.5 基于实例的学习174 6.5.1 减少样本集的数量174 6.5.2 对噪声样本集剪枝174 6.5.3 属性加权175 6.5.4 泛化样本集176 6.5.5 用于泛化样本集的距离函数176 6.5.6 泛化的距离函数177 6.5.7 讨论178 6.6 局部线性模型用于数值预测178 6.6.1 模型树179 6.6.2 构建树179 6.6.3 对树剪枝180 6.6.4 名目属性180 6.6.5 缺失值181 6.6.6 模型树归纳的伪代码181 6.6.7 从模型树到规则184 6.6.8 局部加权线性回归184 6.6.9 讨论185 6.7 贝叶斯网络186 6.7.1 预测186 6.7.2 学习贝叶斯网络189 6.7.3 算法细节190 6.7.4 用于快速学习的数据结构192 6.7.5 讨论194 6.8 聚类194 6.8.1 选择聚类的个数195 6.8.2 层次聚类195 6.8.3 层次聚类的例子196 6.8.4 增量聚类199 6.8.5 分类效用203 6.8.6 基于概率的聚类204 6.8.7 EM算法205 6.8.8 扩展混合模型206 6.8.9 贝叶斯聚类207 6.8.10 讨论209 6.9 半监督学习210 6.9.1 用于分类的聚类210 6.9.2 协同训练212 6.9.3 EM和协同训练212 6.9.4 讨论213 6.10 多实例学习213 6.10.1 转换为单实例学习213 6.10.2 升级学习算法215 6.10.3 专用多实例方法215 6.10.4 讨论216 6.11 Weka实现216 第7章 数据转换218 7.1 属性选择219 7.1.1 独立于方案的选择220 7.1.2 搜索属性空间222 7.1.3 具体方案相关的选择223 7.2 离散化数值属性225 7.2.1 无监督离散化226 7.2.2 基于熵的离散化226 7.2.3 其他离散化方法229 7.2.4 基于熵的离散化与基于误差的离散化229 7.2.5 离散属性转换成数值属性230 7.3 投影230 7.3.1 主成分分析231 7.3.2 随机投影233 7.3.3 偏最小二乘回归233 7.3.4 从文本到属性向量235 7.3.5 时间序列236 7.4 抽样236 7.5 数据清洗237 7.5.1 改进决策树237 7.5.2 稳健回归238 7.5.3 检测异常239 7.5.4 一分类学习239 7.6 多分类问题转换成二分类问题242 7.6.1 简单方法242 7.6.2 误差校正输出编码243 7.6.3 集成嵌套二分法244 7.7 校准类概率246 7.8 补充读物247 7.9 Weka实现249 第8章 集成学习250 8.1 组合多种模型250 8.2 装袋251 8.2.1 偏差-方差分解251 8.2.2 考虑成本的装袋253 8.3 随机化253 8.3.1 随机化与装袋254 8.3.2 旋转森林254 8.4 提升255 8.4.1 AdaBoost算法255 8.4.2 提升算法的威力257 8.5 累加回归258 8.5.1 数值预测258 8.5.2 累加Logistic回归259 8.6 可解释的集成器260 8.6.1 选择树260 8.6.2 Logistic模型树262 8.7 堆栈262 8.8 补充读物264 8.9 Weka实现265 第9章 继续:扩展和应用266 9.1 应用数据挖掘266 9.2 从大型的数据集里学习268 9.3 数据流学习270 9.4 融合领域知识272 9.5 文本挖掘273 9.6 Web挖掘276 9.7 对抗情形278 9.8 无处不在的数据挖掘280 9.9 补充读物281 第三部分 Weka数据挖掘平台 第10章 Weka简介284 10.1 Weka中包含了什么284 10.2 如何使用Weka285 10.3 Weka的其他应用286 10.4 如何得到Weka286 …… 第11章 Explorer界面287 第12章 Knowledge Flow界面351 第13章 Experimenter界面358 第14章 命令行界面368 第15章 嵌入式机器学习376 第16章 编写新的学习方案382 第17章 Weka Explorer的辅导练习397 参考文献416 索引431
1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读
同类热门
类似软件
eXPert PDF Reader(免费的PDF阅读器)29M495人在用eXPert PDF Reader是一款完全免费的PDF阅读器,支持查看和打印PDF文件,修改现有文件,包括修改文件概述,插入图章和修改任何注释等,运行速度快,稳定和个性化的换肤功能以及对中日韩文的良好支持将满足你所有的需求,软件完全免费,操作简单、方便
查看PDF生成器(PDFCreator)41.9M885人在用PDF生成器(PDFCreator)是一个开源应用程序,支持windows打印功能的任何程序都可以使用它创建PDF文档。使用PDFCreator能够创建PDF文档,Postscript文档,Encapsulated Postscript&nbs
查看ApowerPDF(PDF编辑器)13.58M1998人在用ApowerPDF是由Apowersoft有限公司开发的一款功能十分强大的PDF编辑器,该软件集PDF阅读、转换、编辑以及分割合并等功能为一体,有着非常简洁明了的操作界面,设计得出人性化。软件为用户提供了多样化的PDF编辑功能,您可以使用它轻松编辑文本/
查看热门标签
网友评论0人参与,0条评论
最新排行
中医基础理论第十版pdf5.22M电子书高清文字版 中医基础理论是对人体生命活动和疾病变化规律的理论概括,也是专门用来研究医学的电子课本,为从事医学行业或医学专业的读者朋友们提供了专业、权威的中医知识内容,并涵盖了多种医学病理,其中包括中医学的哲学基础、藏象、精气血津液神、经络、病因、病机、防治原则
查看全唐诗检索工具官方版8.94Mv1.0 全唐诗检索工具官方版是由网友采用Python开发的一款唐诗查询工具,绿色小巧,安全无毒。该软件导入了《全唐诗》书籍中的全部诗词内容,非常丰富,同时支持用户输入诗人名、诗名、部分诗句等内容来进行快速查找唐诗,这样就能为研究者猛提供了莫大的方便。不过需
查看OpenStack云计算实战手册(第2版)30.75Mpdf扫描版 OpenStack云计算实战手册(第2版)是一本OpenStack云计算实战书籍,由Kevin Jackson和Cody Bunch 两人共同编著,黄凯,杜玉杰两人翻译。全书通过上百条涵盖了Nova、Swift、Keystone、Glance、Ho
查看c#高级编程第10版172.94MChristian Nagel pdf扫描版c#高级编程第10版是C#经典名著C#高级编程的第十个版本,本书由微软开发技术代言人Christian Nagel编著,李铭翻译。全书涵盖了充分利用升级功能,积极简化工作流程所需的全部信息。作者循序渐进地讲解了Visual Studio 2015、.NE
查看领域驱动设计与模式实战63.82M尼尔森(Jimmy Nilsson)高清扫描版 领域驱动设计与模式实战是一本将企业应用架构模式和领域驱动设计两大名著精髓的实战演练书籍,由瑞典程序员尼尔森(Jimmy Nilsson)编著。全书内容丰富翔实,将Martin Fowler企业应用架构模式和Eric Evans领域驱动设计两部经典名
查看嵌入式linux应用开发完全手册110.85M韦东山pdf扫描版嵌入式linux在嵌入式领域发展迅速,需求旺盛,但是入门却很难,初学者多是自己学习,效率不高,为此小编带来了嵌入式linux应用开发完全手册,这是一本嵌入式linux系统应用开发手册,由韦东山编著。本书以S3C2410、S3C2440开发板为例,从分析硬
查看php与mysql程序设计(第3版)134.16M吉尔摩pdf扫描版php与mysql程序设计(第3版)是一本PHP、MySQL程序设计指导手册,由美国前端工程师吉尔摩编著。全书主题的选取和组织从实用出发,在讲述知识之外还加入了作者多年积累的宝贵实战经验,并提供了500多个可以直接用于实际项目的代码示例,充分体现了作者深
查看鬼灭之刃漫画全集免费阅读版2.28Gv1.0相信很多喜欢看漫画的漫迷肯定知道最近有一款特别火爆的漫画很受大家喜爱,那就是鬼灭之刃漫画,不过需要付费充值才能观看。因此小编为大家带来了鬼灭之刃漫画全集免费阅读版,它是属于pdf版格式的,用户下载即可浏览阅读相关漫画剧情,这本漫画在b站上可谓是有着非常爆
查看actionscript 3.0 教程6.06Mpdf中文版actionscript 3.0 教程是flash动画的脚本语言,如果你想要做好falsh交互动画或游戏,此as3.0教程你一定不能错过。另外小编一并附带了pdf福昕阅读器,方便用户即下即用。本款actionscript 3.0教程详细介绍了脚本的动作,
查看深入浅出oracle dba入门进阶与诊断案例4.78M盖国强pdf扫描版 深入浅出oracle dba入门进阶与诊断案例是一本Oracle数据库的入门进阶书籍,由盖国强编著。本书从基础出发,逐层深入,并结合实际工作中的诊断案例进行全面讲解,力图从点到面,让读者对每个主题都有深入的了解和认识。全书是ITPUB技术丛书的第三
查看高并发Oracle数据库系统的架构与设计pdf47.89M侯松pdf扫描版高并发Oracle数据库系统的架构与设计是一本Oracle数据库系统架构数据书籍,由侯松编著。本书作者从内部扩展、横向扩展和纵向扩展3个维度对架构与设计高并发Oracle数据库系统的思想、方法、核心技术进行深入讲解和剖析,全书将给读者一个全新的视角,秉承
查看