大小:30.14M
更新时间:23-09-03
系统:Pc
版本:v
目录 第1 章 为什么需要清洗数据 1 1.1 新视角 1 1.2 数据科学过程 2 1.3 传达数据清洗工作的内容 3 1.4 数据清洗环境 4 1.5 入门示例 5 1.6 小结 9 第2 章 基础知识——格式、 类型与编码 11 2.1 文件格式 11 2.1.1 文本文件与二进制文件 11 2.1.2 常见的文本文件格式 14 2.1.3 分隔格式 14 2.2 归档与压缩 20 2.2.1 归档文件 20 2.2.2 压缩文件 21 2.3 数据类型、空值与编码 24 2.3.1 数据类型 25 2.3.2 数据类型间的相互转换 29 2.3.3 转换策略 30 2.3.4 隐藏在数据森林中的空值 37 2.3.5 字符编码 41 2.4 小结 46 第3 章 数据清洗的老黄牛——电子表格和文本编辑器 47 3.1 电子表格中的数据清洗 47 3.1.1 Excel 的文本分列功能 47 3.1.2 字符串拆分 51 3.1.3 字符串拼接 51 3.2 文本编辑器里的数据清洗 54 3.2.1 文本调整 55 3.2.2 列选模式 56 3.2.3 加强版的查找与替换功能 56 3.2.4 文本排序与去重处理 58 3.2.5 Process Containing 60 3.3 示例项目 60 3.3.1 第一步:问题陈述 60 3.3.2 第二步:数据收集 60 3.3.3 第三步:数据清洗 61 3.3.4 第四步:数据分析 63 3.4 小结 63 第4 章 讲通用语言——数据转换 64 4.1 基于工具的快速转换 64 4.1.1 从电子表格到CSV 65 4.1.2 从电子表格到JSON 65 4.1.3 使用phpMyAdmin 从SQL语句中生成CSV 或JSON 67 4.2 使用PHP 实现数据转换 69 4.2.1 使用PHP 实现SQL 到JSON的数据转换 69 4.2.2 使用PHP 实现SQL 到CSV的数据转换 70 4.2.3 使用PHP 实现JSON 到CSV的数据转换 71 4.2.4 使用PHP 实现CSV 到JSON的数据转换 71 4.3 使用Python 实现数据转换 72 4.3.1 使用Python 实现CSV 到JSON的数据转换 72 4.3.2 实现CSV 到JSON的数据转换 73 4.3.3 使用Python 实现JSON 到CSV的数据转换 74 4.4 示例项目 74 4.4.1 第一步:下载GDF 格式的数据 75 4.4.2 第二步:在文本编辑器中查看GDF 文件 75 4.4.3 第三步:从GDF 格式到JSON格式的转换 76 4.4.4 第四步:构建D3 图 79 4.4.5 第五步:把数据转换成Pajek格式 81 4.4.6 第六步:简单的社交网络分析 83 4.5 小结 84 第5 章 收集并清洗来自网络的数据 85 5.1 理解HTML 页面结构 85 5.1.1 行分隔模型 86 5.1.2 树形结构模型 86 5.2 方法一:Python 和正则表达式 87 5.2.1 第一步:查找并保存实验用的Web 文件 88 5.2.2 第二步:观察文件内容并判定有价值的数据 88 5.2.3 第三步:编写Python 程序把数据保存到CSV 文件中 89 5.2.4 第四步:查看文件并确认清洗结果 89 5.2.5 使用正则表达式解析HTML的局限性 90 5.3 方法二:Python 和BeautifulSoup 90 5.3.1 第一步:找到并保存实验用的文件 90 5.3.2 第二步:安装BeautifulSoup 91 5.3.3 第三步:编写抽取数据用的Python 程序 91 5.3.4 第四步:查看文件并确认清洗结果 92 5.4 方法三:Chrome Scraper 92 5.4.1 第一步:安装Chrome 扩展Scraper 92 5.4.2 第二步:从网站上收集数据 92 5.4.3 第三步:清洗数据 94 5.5 示例项目:从电子邮件和论坛中抽取数据 95 5.5.1 项目背景 95 5.5.2 第一部分:清洗来自Google Groups 电子邮件的数据 96 5.5.3 第二部分:清洗来自网络论坛的数据 99 5.6 小结 105 第6 章 清洗PDF 文件中的数据 106 6.1 为什么PDF 文件很难清洗 106 6.2 简单方案——复制 107 6.2.1 我们的实验文件 107 6.2.2 第一步:把我们需要的数据复制出来 108 6.2.3 第二步:把复制出来的数据粘贴到文本编辑器中 109 6.2.4 第三步:轻量级文件 110 6.3 第二种技术——pdfMiner 111 6.3.1 第一步:安装pdfMiner 111 6.3.2 第二步:从PDF 文件中提取文本 111 6.4 第三种技术——Tabula 113 6.4.1 第一步:下载Tabula 113 6.4.2 第二步:运行Tabula 113 6.4.3 第三步:用Tabula 提取数据 114 6.4.4 第四步:数据复制 114 6.4.5 第五步:进一步清洗 114 6.5 所有尝试都失败之后——第四种技术 115 6.6 小结 117 第7 章 RDBMS 清洗技术 118 7.1 准备 118 7.2 第一步:下载并检查Sentiment140 119 7.3 第二步:清洗要导入的数据 119 7.4 第三步:把数据导入MySQL 120 7.4.1 发现并清洗异常数据 121 7.4.2 创建自己的数据表 122 7.5 第四步:清洗&字符 123 7.6 第五步:清洗其他未知字符 124 7.7 第六步:清洗日期 125 7.8 第七步:分离用户提及、标签和URL 127 7.8.1 创建一些新的数据表 128 7.8.2 提取用户提及 128 7.8.3 提取标签 130 7.8.4 提取URL 131 7.9 第八步:清洗查询表 132 7.10 第九步:记录操作步骤 134 7.11 小结 135 第8 章 数据分享的最佳实践 136 8.1 准备干净的数据包 136 8.2 为数据编写文档 139 8.2.1 README 文件 139 8.2.2 文件头 141 8.2.3 数据模型和图表 142 8.2.4 维基或CMS 144 8.3 为数据设置使用条款与许可协议 144 8.4 数据发布 146 8.4.1 数据集清单列表 146 8.4.2 Stack Exchange 上的OpenData 147 8.4.3 编程马拉松 147 8.5 小结 148 第9 章 Stack Overflow 项目 149 9.1 第一步:关于Stack Overflow 的问题 149 9.2 第二步:收集并存储Stack Overflow数据 151 9.2.1 下载Stack Overflow 数据 151 9.2.2 文件解压 152 9.2.3 创建MySQL 数据表并加载数据 152 9.2.4 构建测试表 154 9.3 第三步:数据清洗 156 9.3.1 创建新的数据表 157 9.3.2 提取URL 并填写新数据表 158 9.3.3 提取代码并填写新表 159 9.4 第四步:数据分析 161 9.4.1 哪些代码分享网站最为流行 161 9.4.2 问题和答案中的代码分享网站都有哪些 162 9.4.3 提交内容会同时包含代码分享URL 和程序源代码吗 165 9.5 第五步:数据可视化 166 9.6 第六步:问题解析 169 9.7 从测试表转向完整数据表 169 9.8 小结 170 第10 章项目 171 10.1 第一步:关于推文归档数据的问题 171 10.2 第二步:收集数据 172 10.2.1 下载并提取弗格森事件的数据文件 173 10.2.2 创建一个测试用的文件 174 10.2.3 处理推文ID 174 10.3 第三步:数据清洗 179 10.3.1 创建数据表 179 10.3.2 用Python 为新表填充数据 180 10.4 第四步:简单的数据分析 182 10.5 第五步:数据可视化 183 10.6 第六步:问题解析 186 10.7 把处理过程应用到全数据量(非测试用)数据表 186 10.8 小结 187
同类热门
热门标签
网友评论0人参与,0条评论
最新排行
突破就是买点pdf扫描版14.99M官方版 突破就是买点是由地震出版社的燕青先生通过阅读近些年国内出版的几乎所有的1000多本股票技术分析类书籍,吸收各色高手的投资精华,历经实战,总结出自己的炒股理念的一本金融证券图书。该书以买入为先,主动进攻为先,图形依据为先等核心操作理念,向读者讲解了如
查看让云落地云计算服务模式pdf82.95M高清扫描版 让云落地 云计算服务模式(SaaS、PaaS和IaaS)设计决策是一本云计算服务模式设计书籍,由迈克尔·J·凯维斯编著,陈志伟、辛敏共同翻译,作者在本书中就如何有效利用云计算为你的企业服务方面,提供了不少切实中肯的建议,这与别的书有什么不同?不同在
查看ASP.NET 3.5 揭秘(卷2)58.31MASP.NET 3.5 揭秘(卷2)是一本ASP.NET 3.5框架揭秘书籍,由美国程序员沃尔瑟(WaltherS)编著。本书为需要创建网站的专业程序员而写,是一本使用ASENET 3.5创建网站的十分全面的参考书,主要介绍了ASP.NET的安全性,缓存
查看ASP.NET3.5揭秘(卷1)74.44MASP.NET3.5揭秘(卷1)是一本ASP.NET3.5框架揭秘书籍,由美国程序员沃尔瑟Stephen Walther编著。本书是享有盛誉的ASP.NET经典名著,涵盖了ASP.NET 3.5的方方面面,包括了所有最新的特性,书中详细介绍了微软LINQ
查看游戏架构设计与策划基础26.42M黄石pdf扫描版游戏架构设计与策划基础是一本游戏开发与策划教材,由黄石、李志远、陈洪三人共同编著。本书主要讲解了游戏相关专业的基础课程,如美术和编程等,然后本书又具体介绍了游戏策划、游戏背景设计、游戏关卡与任务设计、游戏界面与用户控制等一系列游戏策划和架构设计流程,突出
查看水力学第4版上册下册9.46Mpdf高清完整版水力学第4版上册下册是一本学习水力学的主要理论及其应用的教材,由吴持恭编写,高教育出版社出版,此版本在第3版基础上,保持了原书 “循序渐进、加强基础、理论联系实际、利于教学”的特点,采用了由浅人深的方式,讲述了水静力学、水动力学基础、液流型态和水头损失、
查看ASP.NET MVC2开发实战28.67M黄保翕pdf扫描版ASP.NET MVC2开发实战是一本ASP.NET MVC2技术的开发设计指导书籍,由黄保翕编著。全书将内容分为基础观念篇、技术讲解篇和开发实战篇,其中基础观念篇主要介绍了MVC架构的基础知识;技术讲解篇对ASP.NET MVC 2的各项开发技术进行解
查看android板级支持与硬件相关子系统141.16Mandroid板级支持与硬件相关子系统是一本板级支持与硬件相关子系统书籍,由韩超编著。本书特别选定了Nexus One、Nexus S、Galaxy Nexus等几款手机作为参考平台。其中一个很大的优点就是以上几个平台都是Google认定的,具有典型性,
查看Cassandra实战30.27M郭鹏pdf扫描版Cassandra实战是一本Cassandra实战手册,由郭鹏编著。本书内容丰富,主要讲解了Cassandra快速入门、理解Cassandra编程接口、基于Cassandra的在线交易系统、Cassandra的集群机制、 Cassandra的内部数据存储
查看sql server 2012深入解析与性能优化(第3版)265.39M波尔顿pdf扫描版 sql server 2012深入解析与性能优化(第3版)是一本SQL Server 2012使用指南,由美国程序员波尔顿Christian Ballton、Justin Langford、Glenn Berry、Gavin Payne、Amit
查看c专家编程pdf高清版12.94M林登C专家编程是一本C编程语言程序设计经典著作,也是C语言入门软件开发宝典,由林登(LinDen P.V.D)编著。本书讲述的是应用于pc和unix系统上的ansi标准c语言。对于c语言中与unix平台复杂的硬件结构相关的特性作了详细描述。对于pc的内存模型
查看Java核心技术卷一:基础知识(原书第10版)128.62Mpdf扫描版Java核心技术卷一:基础知识(原书第10版)是java领域最有影响力和价值的著作之一,由美国圣何塞州立大学计算机科学系教授凯.霍斯特曼编著。本书内容翔实、客观准确,不拖泥带水,根据Java SE 8全面更新,同时修正了第9版中的不足,系统全面讲解了Ja
查看交互设计沉思录(原书第2版)54.38Mpdf高清扫描版交互设计沉思录pdf顶尖设计专家Jon Kolko的经验与心得(原书第2版)是一本交互设计领域的扛鼎之作,由交互设计领域的思想领袖JonKolko所著,完美地将当代设计理论和研究成果融入交互设计实践中,将对交互设计的阐述和分析推向了新的高度,为整个领域带
查看