大小:8.03M
更新时间:23-08-23
系统:Pc
python数据挖掘入门与实践是一本Python入门数据挖掘技术指南,由澳大利亚计算机科学博士罗伯特·莱顿(RobertLayton)编著。本书使用简单易学且拥有丰富第三方库和良好社区氛围的Python语言,由浅入深,以真实数据作为研究对象,真刀实枪地向读者介绍Python数据挖掘的实现方法,全面释放python的数据分析能力,常握大数据时代核心技术,让用户可以轻松入门挖掘技术并将其应用于实际项目。通过本书,读者将迈入数据挖掘的殿堂,透彻理解数据挖掘基础知识,掌握解决数据挖掘实际问题的杰出实践。
《python数据挖掘入门与实践》作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用决策树和随机森林算法预测美国职业篮球联赛比赛结果,如何使用亲和性分析方法推荐电影,如何使用朴素贝叶斯算法进行社会媒体挖掘,等等。本书也涉及神经网络、深度学习、大数据处理等内容。
《python数据挖掘入门与实践》主要内容
第1章 开始数据挖掘之旅,介绍我们即将用到的技术,接着通过讲解两个基础算法的实现方法达到热身目的。
第2章 用scikit-learn估计器分类,涵盖了数据挖掘的一个重要主题——分类。这一章还会介绍将数据挖掘流程标准化的流水线结构,便于你管理实验流程。
第3章 用决策树预测获胜球队,介绍决策树和随机森林两个新算法。我们将通过抽取区分度高的特征来预测获胜选手。
第4章 用亲和性分析方法推荐电影,思考根据以往消费记录推荐产品的问题,介绍Apriori算法。
第5章 用转换器抽取特征,介绍不同类别特征的抽取方法及不同数据集的处理方法。
第6章 使用朴素贝叶斯进行社会媒体挖掘,使用朴素贝叶斯算法自动分析来自社交网站文本信息。
第7章 用图挖掘找到感兴趣的人,采用聚类和网络分析方法,发现社会媒体上感兴趣的人。
第8章 用神经网络破解验证码,从图像中抽取信息,然后训练神经网络,用来发现图像中的单词和字母。
第9章 作者归属问题,通过抽取文本特征,使用支持向量机算法,找出文档的作者。
第10章 新闻语料分类,使用k-means聚类算法,根据新闻文章内容进行分类。
第11章 用深度学习方法为图像中的物体进行分类,采用深度神经网络算法确定图像中的物体。
第12章 大数据处理,探讨对大数据进行数据挖掘的流程及方法。
附录 依次介绍各章的参考资料,便于读者深入了解各章内容。
第1章 开始数据挖掘之旅 1 1.1 数据挖掘简介 1 1.2 使用Python 和IPython Notebook 2 1.2.1 安装Python 2 1.2.2 安装IPython 4 1.2.3 安装scikit-learn 库 5 1.3 亲和性分析示例 5 1.3.1 什么是亲和性分析 5 1.3.2 商品推荐 6 1.3.3 在NumPy 中加载数据集 6 1.3.4 实现简单的排序规则 8 1.3.5 排序找出最佳规则 10 1.4 分类问题的简单示例 12 1.5 什么是分类 12 1.5.1 准备数据集 13 1.5.2 实现OneR 算法 14 1.5.3 测试算法 16 1.6 小结 18 第2章 用scikit-learn 估计器分类 19 2.1 scikit-learn 估计器 19 2.1.1 近邻算法 20 2.1.2 距离度量 20 2.1.3 加载数据集 22 2.1.4 努力实现流程标准化 24 2.1.5 运行算法 24 2.1.6 设置参数 25 2.2 流水线在预处理中的应用 27 2.2.1 预处理示例 28 2.2.2 标准预处理 28 2.2.3 组装起来 29 2.3 流水线 29 2.4 小结 30 第3章 用决策树预测获胜球队 31 3.1 加载数据集 31 3.1.1 采集数据 31 3.1.2 用pandas 加载数据集 32 3.1.3 数据集清洗 33 3.1.4 提取新特征 34 3.2 决策树 35 3.2.1 决策树中的参数 36 3.2.2 使用决策树 37 3.3 NBA 比赛结果预测 37 3.4 随机森林 41 3.4.1 决策树的集成效果如何 42 3.4.2 随机森林算法的参数 42 3.4.3 使用随机森林算法 43 3.4.4 创建新特征 44 3.5 小结 45 第4章 用亲和性分析方法推荐电影 46 4.1 亲和性分析 46 4.1.1 亲和性分析算法 47 4.1.2 选择参数 47 4.2 电影推荐问题 48 4.2.1 获取数据集 48 4.2.2 用pandas 加载数据 49 4.2.3 稀疏数据格式 49 4.3 Apriori 算法的实现 50 4.3.1 Apriori 算法 51 4.3.2 实现 52 4.4 抽取关联规则 54 4.5 小结 60 第5章 用转换器抽取特征 62 5.1 特征抽取 62 5.1.1 在模型中表示事实 62 5.1.2 通用的特征创建模式 64 5.1.3 创建好的特征 66 5.2 特征选择 67 5.3 创建特征 71 5.4 创建自己的转换器 75 5.4.1 转换器API 76 5.4.2 实现细节 76 5.4.3 单元测试 77 5.4.4 组装起来 79 5.5 小结 79 第6章 使用朴素贝叶斯进行社会 媒体挖掘 80 6.1 消歧 80 6.1.1 从社交网站下载数据 81 6.1.2 加载数据集并对其分类 83 6.1.3 数据集重建 87 6.2 文本转换器 90 6.2.1 词袋 . 91 6.2.2 N 元语法 92 6.2.3 其他特征 93 6.3 朴素贝叶斯 93 6.3.1 贝叶斯定理 93 6.3.2 朴素贝叶斯算法 94 6.3.3 算法应用示例 95 6.4 应用 96 6.4.1 抽取特征 97 6.4.2 将字典转换为矩阵 98 6.4.3 训练朴素贝叶斯分类器 98 6.4.4 组装起来 98 6.4.5 用F1 值评估 99 6.4.6 从模型中获取更多有用的 特征 100 6.5 小结 102 第7章 用图挖掘找到感兴趣的人 104 7.1 加载数据集 104 7.1.1 用现有模型进行分类 106 7.1.2 获取好友信息 107 7.1.3 构建网络 110 7.1.4 创建图 112 7.1.5 创建用户相似度图 114 7.2 寻找子图 117 7.2.1 连通分支 117 7.2.2 优化参数选取准则 119 7.3 小结 123 第8章 用神经网络破解验证码 124 8.1 人工神经网络 124 8.2 创建数据集 127 8.2.1 绘制验证码 127 8.2.2 将图像切分为单个的字母 129 8.2.3 创建训练集 130 8.2.4 根据抽取方法调整训练数据集 131 8.3 训练和分类 132 8.3.1 反向传播算法 134 8.3.2 预测单词 135 8.4 用词典提升正确率 138 8.4.1 寻找最相似的单词 138 8.4.2 组装起来 139 8.5 小结 140 第9章 作者归属问题 142 9.1 为作品找作者 142 9.1.1 相关应用和使用场景 143 9.1.2 作者归属 143 9.1.3 获取数据 144 9.2 功能词 147 9.2.1 统计功能词 148 9.2.2 用功能词进行分类 149 9.3 支持向量机 150 9.3.1 用SVM 分类 .......................... 151 9.3.2 内核 151 9.4 字符N 元语法 152 9.5 使用安然公司数据集 153 9.5.1 获取安然数据集 153 9.5.2 创建数据集加载工具 154 9.5.3 组装起来 158 9.5.4 评估 158 9.6 小结 160 第10章 新闻语料分类 161 10.1 获取新闻文章 161 10.1.1 使用Web API 获取数据 162 10.1.2 数据资源宝库reddit 164 10.1.3 获取数据 165 10.2 从任意网站抽取文本 167 10.2.1 寻找任意网站网页中的主要 内容 167 10.2.2 组装起来 168 10.3 新闻语料聚类 170 10.3.1 k-means 算法 171 10.3.2 评估结果 173 10.3.3 从簇中抽取主题信息 175 10.3.4 用聚类算法做转换器 175 10.4 聚类融合 176 10.4.1 证据累积 176 10.4.2 工作原理 179 10.4.3 实现 180 10.5 线上学习 181 10.5.1 线上学习简介 181 10.5.2 实现 182 10.6 小结 184 第11章 用深度学习方法为图像中的 物体进行分类 185 11.1 物体分类 185 11.2 应用场景和目标 ................................ 185 11.3 深度神经网络 189 11.3.1 直观感受 189 11.3.2 实现 189 11.3.3 Theano 简介 190 11.3.4 Lasagne 简介 191 11.3.5 用nolearn 实现神经网络 194 11.4 GPU 优化 197 11.4.1 什么时候使用GPU 进行 计算 198 11.4.2 用GPU 运行代码 198 11.5 环境搭建 199 11.6 应用 201 11.6.1 获取数据 201 11.6.2 创建神经网络 202 11.6.3 组装起来 204 11.7 小结 205 第12章 大数据处理 206 12.1 大数据 206 12.2 大数据应用场景和目标 207 12.3 MapReduce 208 12.3.1 直观理解 209 12.3.2 单词统计示例 210 12.3.3 Hadoop MapReduce 212 12.4 应用 212 12.4.1 获取数据 213 12.4.2 朴素贝叶斯预测 215 12.5 小结 226 附录 接下来的方向 227
1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读
同类热门
类似软件
python入门经典教材45.5M1065人在用 python是诞生于一种开放源代码的脚本编程语言,语言风格清晰,具有较强的可读性,应用非常广泛。可对于部分新手程序员来讲,想要灵活运用python必须拥有一套秘籍,而小编今天分享的“python入门经典”就是非常优秀的秘籍,通过该书读者不仅能掌握p
查看Effective Python:编写高质量python代码的59个有效方法25.93M1127人在用Effective Python:编写高质量python代码的59个有效方法是一本python编辑手册,由美国程序员布雷特·斯拉特金编著。本书以使用场景为主导的精练教学方式,汇聚了59条优秀的实践原则、开发技巧和便捷方案,并以实用的代码范例来解释它们。其
查看python程序设计教程76.13M425人在用 pythony语言是一种解释型、面向对象的计算机程序设计语言,能够广泛用于计算机程序设计教学语言,系统管理编程脚本语言,科学计算等。但如何才能从入门到精通呢?这里小编特别提供python程序设计教程 pdf下载,由江红、余青松编著,清华大学和北京交通
查看Python高级编程68.64M878人在用Python高级编程是一款pdf格式的高清扫描版图书,已经附带了pdf阅读器,即下即用。该书通过大量的实例,介绍了Python语言的最佳实践和敏捷开发方法,并涉及整个软件生命周期的高级主题,诸如持续集成、版本控制系统、包的发行和分发、开发模式、文档编写等
查看python qt gui快速编程:PyQt编程指南77.77M856人在用 python qt gui快速编程:PyQt编程指南是一本PyQt开发指导手册,由英国程序员Mark Summerfield编著。全书主要讲述如何利用Python和Qt开发GUI应用程序的原理、方法和关键技术。全书共分四个部分:第一部分主要讲述Py
查看python学习手册第4版pdf版92.37M1104人在用python是一种非常流行的开源编程语言,可以在各种领域中用于编写独立的程序和脚本,它不仅具备免费、可移植的特色,还拥有了极其强大的功能,使用起来也相当的方便。相信来自各个角落的程序猿已经发现,Python对于开发者效率和软件质量的关注,这无论在大项目还
查看量化投资以python为工具53.25M968人在用量化投资以python为工具是一本量化投资优质工具书,由蔡立耑编著。全书主要介绍了Python的入门级操作及Python语言的介绍和安装,并由浅入深的为读者讲解了Python语言和Python量化的重要操作知识点,可以快速的帮助用户完成Python语言的
查看python基础教程第2版中文高清pdf版29.63M554人在用本次分享的是python基础教程第2版中文高清pdf版,由于是PDF格式,因此用户需要安装PDF阅读器才能正常阅读,好了让我们回到正题。这是一本包括Python程序最基本的设计操作教程,介绍了Python的基础知识和基础概念,包括了列表、元组、字符串、字
查看Python性能分析与优化5.39M482人在用Python性能分析与优化是一本Python代码分析与优化指导书籍,由web程序员多格里奥编著。本书首先介绍了什么是性能分析,性能分析如何在项目开发周期中发挥作用,以及通过在项目中进行性能分析实践能够取得的效果。紧接着开始介绍分析性能所需的核心工具(性能
查看热门标签
网友评论1人参与,1条评论
最新排行
wireshark使用教程(超详细)2.28Mpdf高清版 wireshark使用教程pdf是专为wireshark软件而编制的实用使用说明书,pdf高清格式,教程详细的介绍了什么是Wireshark、如何编译/安装Wireshark、Wireshark用户界面、如何实时捕捉数据包、如何处理已经捕捉的包、文
查看玻璃幕墙图集03j103-34.91Mpdf高清版 玻璃幕墙图集03j103-3是中华人民共和国建设部批准发布的一款玻璃幕墙标准,主要包括吊挂玻璃幕墙、吊挂点支式玻璃幕墙、座地玻璃幕墙、座地点支式玻璃幕墙四个大类,是指导规范的专业图集,能够给作业者提供更好的参考。另外本款03j103-3全玻璃幕墙图
查看Ajax原理与系统开发143.95M陈锋敏pdf扫描版Ajax原理与系统开发是一本Web前端Ajax框架原理与系统开发书籍,由陈锋敏编著。本书内容丰富,翔实,以真实的项目开发与实现为主线,对各个设计元素进行了深入的讲解。同时精选多个典型案例,并结合基础知识对系统进行分析、设计与编程实现,可以帮助读者学习并掌
查看apache spark 源码剖析30.99M许鹏pdf扫描版apache spark 源码剖析是一本Spark代码源码学习书籍,由许鹏编著,本书全面、系统地介绍了Spark源码,深入浅出,细致入微。先提供给读者一系列分析源码的实用技巧,并给出一个合理的阅读顺序,并且始终抓住资源分配、消息传递、容错处理等基本问题,
查看鸟哥的linux私房菜服务器架设篇(第2版)67.26Mpdf扫描版鸟哥的linux私房菜服务器架设篇(第2版)是一本linux服务器架设教材书籍,由linux专家鸟哥编著。本书是前作的升级版本,根据服务器与网络环境做了大幅度的修订与改写,主要介绍了架站之前所需的技能分析、网络基本概念、linux常用的网络命令、主机的简
查看c++反汇编与逆向分析技术揭秘56.61M钱林松pdf扫描版c++反汇编与逆向分析技术揭秘是一本C++反汇编与逆向分析技术学习书籍,由钱林松和赵海旭两人共同编著。本书是一本能为程序员(尤其是C++程序员)打牢基础的专业书籍,它将引导你一步一步去深入探究和分析程序的本质,从而逐渐让你在专业上感到踏实和自信,并在这个
查看php深度分析:101个核心技巧窍门和问题解决方法原书第2版48.46M沙菲克 pdf扫描版php深度分析:101个核心技巧窍门和问题解决方法原书第2版是想要研究复杂PHP解决方案的PHP开发人员的必备伙伴,本书由德国PHP开发程序员BEN BALBO编著,周广辉、杨建军等翻译。全书首次汇集了定期发布在SitePoint论坛上的常见PHP问题的
查看尼康d5100使用说明书19.91MPDF版尼康D5100是市面上非常热门的一款单反相机,上面众多流行功能可以满足初级用户的许多需求,如果对操控没有太高的要求,尼康D5100的画质和功能绝对满足家庭用户和摄影初学者的要求。不过还有很多朋友对尼康d5100使用技巧不是特别了解,因此小编带来了尼康d5
查看深入理解oracle rac 12c pdf71.63M赛义德pdf扫描版深入理解oracle rac 12c是一本详细介绍oracle rac 12c的技术详解书籍,由美国数据库管理员Syed Jaffar Hussain、Tariq Farooq、Riyaj Shamsudeen和Kai Yu四人共同编著。本书紧跟Orac
查看c专家编程pdf高清版12.94M林登C专家编程是一本C编程语言程序设计经典著作,也是C语言入门软件开发宝典,由林登(LinDen P.V.D)编著。本书讲述的是应用于pc和unix系统上的ansi标准c语言。对于c语言中与unix平台复杂的硬件结构相关的特性作了详细描述。对于pc的内存模型
查看html5移动web开发指南1.99Mpdf完整版html5移动web开发指南是由著名的Web前端工程师唐俊开所编著的,是一门新崛起的语言,现在非常的流行,本书是为从未接触过html5新技术但同时又对移动web技术感兴趣的读者而编写的,同时它也适用于有一定基础或者未来计划的职业是web前端开发工程师、具
查看perl实例精解原书第4版21.71M奎格利 pdf扫描版perl实例精解原书第4版是一本PERL学习书籍,由奎格利编著,陈宗斌翻译。本书提供了学习Perl最容易,最实用的方式。传奇般的硅谷编程讲师奎格利彻底更新了她的杰作,提供今天的Perl用户所需的大多数技能和信息——包括全新的MySQL数据库程序设计和旨在
查看
第1楼 台湾省中华电信 网友