大小:34.12M
更新时间:24-09-04
系统:Pc
机器学习系统设计是一本非常实用的机器学习教程,由美国机器学习和机器人学博士Willi Richert编著,手把手教你用Python设计机器学习系统。本书为读者提供了大量的Python库参考,全书用丰富的案例,教会读者如何细析机器学习技巧与方法,带你承袭正确的思维方式,非常适合需要机器学习技术的Python开发人员、计算机科学研究人员、数据科学家、人工智能程序员,以及统计程序员阅读参考。
1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读试读
《机器学习系统设计》是实用的Python机器学习教程,结合大量案例,介绍了机器学习的各方面知识。本书不仅告诉你“怎么做”,还会分析“为什么”,力求帮助读者掌握多种多样的机器学习Python库,学习构建基于Python的机器学习系统,并亲身实践和体验机器学习系统的功能。
本书共分为12章:
第1章通过一个非常简单的例子介绍机器学习的基本概念。尽管很简单,但也可能会有过拟合的风险,这对我们提出了挑战。
第2章讲解了使用真实数据解决分类问题的方法,在这里我们对计算机进行训练,使它能够区分不同类型的花朵。
第3章讲解了词袋方法的威力,我们可以在没有真正理解帖子内容的情况下,用它来寻找相似的帖子。
第4章让我们超越将每个帖子分配给单个簇的方式。由于真实的文本可以处理多个主题,我们可以看到如何把帖子分配到几个主题上。
第5章讲解了如何用逻辑回归判定用户的答案是好还是坏。在这个情景的背后,我们将学会用偏差-方差的折中调试机器学习模型。
第6章介绍了朴素贝叶斯的工作原理,以及如何用它对推文进行分类,来判断推文中的情感是正面的还是负面的。
第7章讨论了一个处理数据的经典课题,但它在今天仍然有意义。我们用它构建了一个推荐系统,这个系统根据用户所输入的喜欢和不喜欢的信息,为用户推荐新的商品。
第8章同时使用多种方法改进推荐效果。我们还可以看到如何只根据购物信息构建推荐系统,而不需要用户的评分数据(用户并不总会提供这一信息)。
第9章举例说明,如果有人把我们收集而成的庞大音乐库弄乱了,那么为歌曲建立次序的唯一希望就是让机器来对歌曲分类。你会发现,有时信任别人的专长比我们自己构建特征更好。
第10章讲解了如何在处理图像这个特定情景下应用分类方法。这个领域又叫做模式识别。
第11章告诉我们还有其他什么方法可以帮我们精简数据,使机器学习算法能够处理它们。
第12章讲解了不断膨胀的数据规模,以及这为何会为数据分析造成难题。在本章中,我们利用多核或计算集群,探索了一些更大规模数据的处理方法。另外,我们还介绍了云计算(将亚马逊的Web服务当做云计算提供商)。
机器学习系统设计是一本非常实用的机器学习教程,由美国机器学习和机器人学博士Willi Richert编著,手把手教你用Python设计机器学习系统。本书为读者提供了大量的Python库参考,全书用丰富的案例,教会读者如何细析机器学习技巧与方法,带你承袭正确的思维方式,非常适合需要机器学习技术的Python开发人员、计算机科学研究人员、数据科学家、人工智能程序员,以及统计程序员阅读参考。
1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读试读
《机器学习系统设计》是实用的Python机器学习教程,结合大量案例,介绍了机器学习的各方面知识。本书不仅告诉你“怎么做”,还会分析“为什么”,力求帮助读者掌握多种多样的机器学习Python库,学习构建基于Python的机器学习系统,并亲身实践和体验机器学习系统的功能。
本书共分为12章:
第1章通过一个非常简单的例子介绍机器学习的基本概念。尽管很简单,但也可能会有过拟合的风险,这对我们提出了挑战。
第2章讲解了使用真实数据解决分类问题的方法,在这里我们对计算机进行训练,使它能够区分不同类型的花朵。
第3章讲解了词袋方法的威力,我们可以在没有真正理解帖子内容的情况下,用它来寻找相似的帖子。
第4章让我们超越将每个帖子分配给单个簇的方式。由于真实的文本可以处理多个主题,我们可以看到如何把帖子分配到几个主题上。
第5章讲解了如何用逻辑回归判定用户的答案是好还是坏。在这个情景的背后,我们将学会用偏差-方差的折中调试机器学习模型。
第6章介绍了朴素贝叶斯的工作原理,以及如何用它对推文进行分类,来判断推文中的情感是正面的还是负面的。
第7章讨论了一个处理数据的经典课题,但它在今天仍然有意义。我们用它构建了一个推荐系统,这个系统根据用户所输入的喜欢和不喜欢的信息,为用户推荐新的商品。
第8章同时使用多种方法改进推荐效果。我们还可以看到如何只根据购物信息构建推荐系统,而不需要用户的评分数据(用户并不总会提供这一信息)。
第9章举例说明,如果有人把我们收集而成的庞大音乐库弄乱了,那么为歌曲建立次序的唯一希望就是让机器来对歌曲分类。你会发现,有时信任别人的专长比我们自己构建特征更好。
第10章讲解了如何在处理图像这个特定情景下应用分类方法。这个领域又叫做模式识别。
第11章告诉我们还有其他什么方法可以帮我们精简数据,使机器学习算法能够处理它们。
第12章讲解了不断膨胀的数据规模,以及这为何会为数据分析造成难题。在本章中,我们利用多核或计算集群,探索了一些更大规模数据的处理方法。另外,我们还介绍了云计算(将亚马逊的Web服务当做云计算提供商)。
目 录
第1章 Python机器学习入门 1
1.1 梦之队:机器学习与Python 1
1.2 这本书将教给你什么(以及不会教什么) 2
1.3 遇到困难的时候怎么办 3
1.4 开始 4
1.4.1 NumPy、SciPy和Matplotlib简介 4
1.4.2 安装Python 5
1.4.3 使用NumPy和SciPy智能高效地处理数据 5
1.4.4 学习NumPy 5
1.4.5 学习SciPy 9
1.5 我们第一个(极小的)机器学习应用 10
1.5.1 读取数据 10
1.5.2 预处理和清洗数据 11
1.5.3 选择正确的模型和学习算法 12
1.6 小结 20
第2章 如何对真实样本分类 22
2.1 Iris数据集 22
2.1.1 第一步是可视化 23
2.1.2 构建第一个分类模型 24
2.2 构建更复杂的分类器 28
2.3 更复杂的数据集和更复杂的分类器 29
2.3.1 从Seeds数据集中学习 29
2.3.2 特征和特征工程 30
2.3.3 最邻近分类 30
2.4 二分类和多分类 33
2.5 小结 34
第3章 聚类:寻找相关的帖子 35
3.1 评估帖子的关联性 35
3.1.1 不应该怎样 36
3.1.2 应该怎样 36
3.2 预处理:用相近的公共词语个数来衡量相似性 37
3.2.1 将原始文本转化为词袋 37
3.2.2 统计词语 38
3.2.3 词语频次向量的归一化 40
3.2.4 删除不重要的词语 41
3.2.5 词干处理 42
3.2.6 停用词兴奋剂 44
3.2.7 我们的成果和目标 45
3.3 聚类 46
3.3.1 K均值 46
3.3.2 让测试数据评估我们的想法 49
3.3.3 对帖子聚类 50
3.4 解决我们最初的难题 51
3.5 调整参数 54
3.6 小结 54
第4章 主题模型 55
4.1 潜在狄利克雷分配(LDA) 55
4.2 在主题空间比较相似度 59
4.3 选择主题个数 64
4.4 小结 65
第5章 分类:检测劣质答案 67
5.1 路线图概述 67
5.2 学习如何区分出优秀的答案 68
5.2.1 调整样本 68
5.2.2 调整分类器 68
5.3 获取数据 68
5.3.1 将数据消减到可处理的程度 69
5.3.2 对属性进行预选择和处理 70
5.3.3 定义什么是优质答案 71
5.4 创建第一个分类器 71
5.4.1 从k邻近(kNN)算法开始 71
5.4.2 特征工程 72
5.4.3 训练分类器 73
5.4.4 评估分类器的性能 74
5.4.5 设计更多的特征 74
5.5 决定怎样提升效果 77
5.5.1 偏差?方差及其折中 77
5.5.2 解决高偏差 78
5.5.3 解决高方差 78
5.5.4 高偏差或低偏差 78
5.6 采用逻辑回归 81
5.6.1 一点数学和一个小例子 81
5.6.2 在帖子分类问题上应用逻辑回归 83
5.7 观察正确率的背后:准确率和召回率 84
5.8 为分类器瘦身 87
5.9 出货 88
5.10 小结 88
第6章 分类II:情感分析 89
6.1 路线图概述 89
6.2 获取数据 89
6.3 朴素贝叶斯分类器介绍 90
6.3.1 了解贝叶斯定理 90
6.3.2 朴素 91
6.3.3 使用朴素贝叶斯进行分类 92
6.3.4 考虑未出现的词语和其他古怪情况 94
6.3.5 考虑算术下溢 95
6.4 创建第一个分类器并调优 97
6.4.1 先解决一个简单问题 97
6.4.2 使用所有的类 99
6.4.3 对分类器的参数进行调优 101
6.5 清洗推文 104
6.6 将词语类型考虑进去 106
6.6.1 确定词语的类型 106
6.6.2 用SentiWordNet成功地作弊 108
6.6.3 我们第一个估算器 110
6.6.4 把所有东西融合在一起 111
6.7 小结 112
第7章 回归:推荐 113
7.1 用回归预测房价 113
7.1.1 多维回归 116
7.1.2 回归里的交叉验证 116
7.2 惩罚式回归 117
7.2.1 L1和L2惩罚 117
7.2.2 在Scikit-learn中使用Lasso或弹性网 118
7.3 P大于N的情形 119
7.3.1 基于文本的例子 120
7.3.2 评分预测和推荐 122
7.4 小结 126
第8章 回归:改进的推荐 127
8.1 改进的推荐 127
8.1.1 使用二值推荐矩阵 127
8.1.2 审视电影的近邻 129
8.1.3 组合多种方法 130
8.2 购物篮分析 132
8.2.1 获取有用的预测 133
8.2.2 分析超市购物篮 134
8.2.3 关联规则挖掘 136
8.2.4 更多购物篮分析的高级话题 137
8.3 小结 138
第9章 分类III:音乐体裁分类 139
9.1 路线图概述 139
9.2 获取音乐数据 139
9.3 观察音乐 140
9.4 用FFT构建第一个分类器 143
9.4.1 增加实验敏捷性 143
9.4.2 训练分类器 144
9.4.3 在多分类问题中用混淆矩阵评估正确率 144
9.4.4 另一种方式评估分类器效果:受试者工作特征曲线(ROC) 146
9.5 用梅尔倒频谱系数(MFCC)提升分类效果 148
9.6 小结 152
第10章 计算机视觉:模式识别 154
10.1 图像处理简介 154
10.2 读取和显示图像 155
10.2.1 图像处理基础 156
10.2.2 加入椒盐噪声 161
10.2.3 模式识别 163
10.2.4 计算图像特征 163
10.2.5 设计你自己的特征 164
10.3 在更难的数据集上分类 166
10.4 局部特征表示 167
10.5 小结 170
第11章 降维 171
11.1 路线图 171
11.2 选择特征 172
11.2.1 用筛选器检测冗余特征 172
11.2.2 用封装器让模型选择特征 178
11.3 其他特征选择方法 180
11.4 特征抽取 181
11.4.1 主成分分析(PCA) 181
11.4.2 PCA的局限性以及LDA会有什么帮助 183
11.5 多维标度法(MDS) 184
11.6 小结 187
第12章 大数据 188
12.1 了解大数据 188
12.2 用Jug程序包把你的处理流程分解成几个任务 189
12.2.1 关于任务 189
12.2.2 复用部分结果 191
12.2.3 幕后的工作原理 192
12.2.4 用Jug分析数据 192
12.3 使用亚马逊Web服务(AWS) 194
12.3.1 构建你的第一台机器 195
12.3.2 用starcluster自动创建集群 199
12.4 小结 202
附录A 更多机器学习知识 203
A.1 在线资源 203
A.2 参考书 203
A.2.1 问答网站 203
A.2.2 博客 204
A.2.3 数据资源 205
A.2.4 竞争日益加剧 205
A.3 还剩下什么 205
A.4 小结 206
索引 207
同类热门
热门标签
网友评论0人参与,0条评论
最新排行
自己动手写操作系统pdf高清版30.91M于渊无水印影印版自己动手写操作系统是于渊编写的一本编程爱好者编写的别具一格、颇有特色的操作系统原理与实现的图书,本书在详细分析操作系统原理的基础上,用丰富的实例代码,一步一步地指导读者用C语言和汇编语言编写出一个具备操作系统基本功能的操作系统框架。作者对系统初启、保护模
查看设计模式.NET并行编程pdf扫描版19.79M 设计模式.NET并行编程pdf扫描版是一本.NET并行编程教学书籍,由美国程序员坎贝尔(Colin Campbell)编著。本书内容丰富翔实,全书几乎涵盖了并行编程的各个方面,详细的阐述了并行计算理论的基础原理和架构,同时借助了任务并行库(TPL)
查看C#项目开发实战密码146.78M扶松柏pdf扫描版 C#项目开发实战密码是一本C#语言的实战指导学习书籍,由扶松柏编著。本书内容十分丰富,每一章都采用了一个实例,并用这些实例的具体实现流程来教学。在具体讲解每个实例时,都遵循项目的进度来展开,从接到项目到具体开发,直到最后的调试和发布。内容循序渐进,
查看零基础学html+css112.91M雷宁pdf扫描版 零基础学html+css是一本专为初学者设计的html+css基础教程,由雷宁等人编著。本书内容丰富翔实,全书由浅入深的讲解了HTML语言和CSS的语法基础,并且还以DIV+CSS布局为重点,提供300余个实例进行讲解,理论加实例,全方位的帮助读者
查看linux程序设计第四版221.43M马修pdf扫描版linux程序设计第四版是Linux程序设计领域的经典名著,以简单易懂、内容全面和示例丰富而广受好评,由英国程序员Neil Matthew和Richard Stones共同编著。本书内容丰富翔实,主要通过一些交互性(基于屏幕)的例子来向读者介绍编写she
查看unity 3d游戏开发27.1M宣雨松pdf扫描版 unity 3d游戏开发是一本Unity 3D游戏开发入门书籍,由宣雨松编著。本书从初学者入门角度讲解了Unity游戏开发,让读者快速学会了如何使用Unity制作3D游戏,如何以两种语言去讲解游戏脚本的编写,在入门阶段我们使用JavaScript语
查看jenkins权威指南中文pdf版47.47M约翰·弗格森·斯马特扫描版Jenkins作为持续集成、持续交付领域内的优秀开源软件,自然而然地成为我们在项目中大量运用的工具,但如何才能更好的学习好呢?小编这里推荐大家阅读jenkins权威指南,这是一本Jenkins的权威指南教材,由美国程序员约翰·弗格森·斯马特编著。全书就是
查看基于oracle的sql优化284.89M崔华pdf扫描版基于oracle的sql优化是一本数据库优化扛鼎巨著,是本土Oracle数据库性能优化大师崔华泣血力作。全书共有8章,详细的介绍了Oracle里的优化器,Oracle里的执行计划,Oracle里的查询转换,Oracle里的Hint,Oracle里的并行,
查看html5+javascript动画基础52.79Mpdf高清扫描版html5+javascript动画基础是一本教你如何使用HTML5和JavaScript来完成一系列的动画特效的教学书籍,由[美]billy lamberta,Keith Peters著,徐宁,李强翻译,人民邮电出版社出版。全书详细介绍了如何使用HTM
查看hadoop实战第2版179.03Mpdf高清扫描版hadoop实战第2版是一本系统且极具实践指导意义的Hadoop工具书和参考书,作者陆嘉恒,已经扫描为pdf高清版电子图书,附带的福昕pdf阅读器可以完美打开浏览阅读。由于第1版广受好评,第2版基于hadoop及其相关技术最新版本撰写,从多角度做了全面的
查看