大小:30.14M
更新时间:23-09-03
系统:Pc

目录 第1 章 为什么需要清洗数据 1 1.1 新视角 1 1.2 数据科学过程 2 1.3 传达数据清洗工作的内容 3 1.4 数据清洗环境 4 1.5 入门示例 5 1.6 小结 9 第2 章 基础知识——格式、 类型与编码 11 2.1 文件格式 11 2.1.1 文本文件与二进制文件 11 2.1.2 常见的文本文件格式 14 2.1.3 分隔格式 14 2.2 归档与压缩 20 2.2.1 归档文件 20 2.2.2 压缩文件 21 2.3 数据类型、空值与编码 24 2.3.1 数据类型 25 2.3.2 数据类型间的相互转换 29 2.3.3 转换策略 30 2.3.4 隐藏在数据森林中的空值 37 2.3.5 字符编码 41 2.4 小结 46 第3 章 数据清洗的老黄牛——电子表格和文本编辑器 47 3.1 电子表格中的数据清洗 47 3.1.1 Excel 的文本分列功能 47 3.1.2 字符串拆分 51 3.1.3 字符串拼接 51 3.2 文本编辑器里的数据清洗 54 3.2.1 文本调整 55 3.2.2 列选模式 56 3.2.3 加强版的查找与替换功能 56 3.2.4 文本排序与去重处理 58 3.2.5 Process Containing 60 3.3 示例项目 60 3.3.1 第一步:问题陈述 60 3.3.2 第二步:数据收集 60 3.3.3 第三步:数据清洗 61 3.3.4 第四步:数据分析 63 3.4 小结 63 第4 章 讲通用语言——数据转换 64 4.1 基于工具的快速转换 64 4.1.1 从电子表格到CSV 65 4.1.2 从电子表格到JSON 65 4.1.3 使用phpMyAdmin 从SQL语句中生成CSV 或JSON 67 4.2 使用PHP 实现数据转换 69 4.2.1 使用PHP 实现SQL 到JSON的数据转换 69 4.2.2 使用PHP 实现SQL 到CSV的数据转换 70 4.2.3 使用PHP 实现JSON 到CSV的数据转换 71 4.2.4 使用PHP 实现CSV 到JSON的数据转换 71 4.3 使用Python 实现数据转换 72 4.3.1 使用Python 实现CSV 到JSON的数据转换 72 4.3.2 实现CSV 到JSON的数据转换 73 4.3.3 使用Python 实现JSON 到CSV的数据转换 74 4.4 示例项目 74 4.4.1 第一步:下载GDF 格式的数据 75 4.4.2 第二步:在文本编辑器中查看GDF 文件 75 4.4.3 第三步:从GDF 格式到JSON格式的转换 76 4.4.4 第四步:构建D3 图 79 4.4.5 第五步:把数据转换成Pajek格式 81 4.4.6 第六步:简单的社交网络分析 83 4.5 小结 84 第5 章 收集并清洗来自网络的数据 85 5.1 理解HTML 页面结构 85 5.1.1 行分隔模型 86 5.1.2 树形结构模型 86 5.2 方法一:Python 和正则表达式 87 5.2.1 第一步:查找并保存实验用的Web 文件 88 5.2.2 第二步:观察文件内容并判定有价值的数据 88 5.2.3 第三步:编写Python 程序把数据保存到CSV 文件中 89 5.2.4 第四步:查看文件并确认清洗结果 89 5.2.5 使用正则表达式解析HTML的局限性 90 5.3 方法二:Python 和BeautifulSoup 90 5.3.1 第一步:找到并保存实验用的文件 90 5.3.2 第二步:安装BeautifulSoup 91 5.3.3 第三步:编写抽取数据用的Python 程序 91 5.3.4 第四步:查看文件并确认清洗结果 92 5.4 方法三:Chrome Scraper 92 5.4.1 第一步:安装Chrome 扩展Scraper 92 5.4.2 第二步:从网站上收集数据 92 5.4.3 第三步:清洗数据 94 5.5 示例项目:从电子邮件和论坛中抽取数据 95 5.5.1 项目背景 95 5.5.2 第一部分:清洗来自Google Groups 电子邮件的数据 96 5.5.3 第二部分:清洗来自网络论坛的数据 99 5.6 小结 105 第6 章 清洗PDF 文件中的数据 106 6.1 为什么PDF 文件很难清洗 106 6.2 简单方案——复制 107 6.2.1 我们的实验文件 107 6.2.2 第一步:把我们需要的数据复制出来 108 6.2.3 第二步:把复制出来的数据粘贴到文本编辑器中 109 6.2.4 第三步:轻量级文件 110 6.3 第二种技术——pdfMiner 111 6.3.1 第一步:安装pdfMiner 111 6.3.2 第二步:从PDF 文件中提取文本 111 6.4 第三种技术——Tabula 113 6.4.1 第一步:下载Tabula 113 6.4.2 第二步:运行Tabula 113 6.4.3 第三步:用Tabula 提取数据 114 6.4.4 第四步:数据复制 114 6.4.5 第五步:进一步清洗 114 6.5 所有尝试都失败之后——第四种技术 115 6.6 小结 117 第7 章 RDBMS 清洗技术 118 7.1 准备 118 7.2 第一步:下载并检查Sentiment140 119 7.3 第二步:清洗要导入的数据 119 7.4 第三步:把数据导入MySQL 120 7.4.1 发现并清洗异常数据 121 7.4.2 创建自己的数据表 122 7.5 第四步:清洗&字符 123 7.6 第五步:清洗其他未知字符 124 7.7 第六步:清洗日期 125 7.8 第七步:分离用户提及、标签和URL 127 7.8.1 创建一些新的数据表 128 7.8.2 提取用户提及 128 7.8.3 提取标签 130 7.8.4 提取URL 131 7.9 第八步:清洗查询表 132 7.10 第九步:记录操作步骤 134 7.11 小结 135 第8 章 数据分享的最佳实践 136 8.1 准备干净的数据包 136 8.2 为数据编写文档 139 8.2.1 README 文件 139 8.2.2 文件头 141 8.2.3 数据模型和图表 142 8.2.4 维基或CMS 144 8.3 为数据设置使用条款与许可协议 144 8.4 数据发布 146 8.4.1 数据集清单列表 146 8.4.2 Stack Exchange 上的OpenData 147 8.4.3 编程马拉松 147 8.5 小结 148 第9 章 Stack Overflow 项目 149 9.1 第一步:关于Stack Overflow 的问题 149 9.2 第二步:收集并存储Stack Overflow数据 151 9.2.1 下载Stack Overflow 数据 151 9.2.2 文件解压 152 9.2.3 创建MySQL 数据表并加载数据 152 9.2.4 构建测试表 154 9.3 第三步:数据清洗 156 9.3.1 创建新的数据表 157 9.3.2 提取URL 并填写新数据表 158 9.3.3 提取代码并填写新表 159 9.4 第四步:数据分析 161 9.4.1 哪些代码分享网站最为流行 161 9.4.2 问题和答案中的代码分享网站都有哪些 162 9.4.3 提交内容会同时包含代码分享URL 和程序源代码吗 165 9.5 第五步:数据可视化 166 9.6 第六步:问题解析 169 9.7 从测试表转向完整数据表 169 9.8 小结 170 第10 章项目 171 10.1 第一步:关于推文归档数据的问题 171 10.2 第二步:收集数据 172 10.2.1 下载并提取弗格森事件的数据文件 173 10.2.2 创建一个测试用的文件 174 10.2.3 处理推文ID 174 10.3 第三步:数据清洗 179 10.3.1 创建数据表 179 10.3.2 用Python 为新表填充数据 180 10.4 第四步:简单的数据分析 182 10.5 第五步:数据可视化 183 10.6 第六步:问题解析 186 10.7 把处理过程应用到全数据量(非测试用)数据表 186 10.8 小结 187
应用信息
同类热门
热门标签
网友评论0人参与,0条评论
最新排行
玻璃幕墙图集03j103-34.91Mpdf高清版 玻璃幕墙图集03j103-3是中华人民共和国建设部批准发布的一款玻璃幕墙标准,主要包括吊挂玻璃幕墙、吊挂点支式玻璃幕墙、座地玻璃幕墙、座地点支式玻璃幕墙四个大类,是指导规范的专业图集,能够给作业者提供更好的参考。另外本款03j103-3全玻璃幕墙图
查看
深入剖析Android开发:小应用里的大智慧pdf扫描版52.58Mpdf扫描版深入剖析Android开发:小应用里的大智慧是一本Android应用开发书籍,由张泳和葛丽娜两人共同编著。本书以谷歌的音乐播放器为例,深入剖析了Android的重要组件和核心服务,书中首先介绍了Android开发环境的搭建,以及AndroidSDK中一些
查看
asp.net mvc5编程实战第3版67.64M埃斯波西托 pdf扫描版 asp.net mvc5编程实战第3版是一本。NET开发经典名著,由著名的Wed和移动开发专Dino Esposito编著。本书将带你深入了解ASPNET MVC5的架构和特性,并学习构建在桌面和移动设备上都运行良好的Web应用程序。同时将向用户全
查看
Android微博应用开发实践36.86M孙弋pdf扫描版 Android微博应用开发实践是一本Android应用开发书籍,由孙弋,李贵民,王树奇编著,全书详细地介绍了Android平台应用程序开发过程中所涉及的开发语言、开发流程及基础开发资源应用等内容,并以国内应用人数最多的新浪微博平台应用程序开发为例,
查看
Linux C编程实战64.42M童永清pdf扫描版 linux c编程实战是一本介绍linux系统下如何使用c语言编程开发的图书,由童永清编著。本书结构合理、概念清晰,采用"基础知识→难点解析→重点提示→编程实践"的写作手法,使读者理解更深入、应用更容易、掌握更快速。文中第一篇主要介绍了linux和
查看
c#从入门到精通第3版119.82M明日科技pdf扫描版 c#从入门到精通第3版是一本C#语言的入门书籍,由明日科技C#程序开发团队数十名程序员编著。本书内容由浅入深,循序渐进,全书以初、中级程序员为对象,先从C#语言基础学起,再学习C#的核心技术,然后学习C#的高级应用,最后学习开发一个完整项目。讲解过
查看
21天学通c语言第6版10.04M琼斯 pdf扫描版 21天学通C语言是一本初学者的超佳轻量级教程书籍,由美国程序员琼斯Bradley Jones,艾特肯Peter Aitken和Dean Miller三人共同编著,本书译自《Teach Yourself C in 21 Days》第6版,是初学者学习
查看
深入浅出iPhone开发pdf版137.03M 《深入浅出iPhone开发》是针对iPhone开发的初学者设计的首选的入门书,它会告诉你如何使用iOS SDK工具,包括Xcode 4框架的知识,以及Objectjive-C编程语言的使用技巧。 《深入浅出iPhone开发》汇集了大量的
查看
oracle数据库精讲与疑难解析131.82M赵振平pdf扫描版 oracle数据库精讲与疑难解析是一本ORACLE数据库疑点难点解析书籍,由赵振平编著。本书内容丰富翔实,可以帮助用户们解决Oracle的大部分疑难问题如安装Oracle时,不能启动安装界面……、安装Oracle时,安装界面显示乱码……、数据库不能
查看
学通ASP.NET的24堂课81.47M房大伟pdf扫描版 ASP.NET是微软公司推出的一款新一代动态web应用程序开发平台,具有方便性,灵活,性能优,生产效率高,安全性高等特性,是目前主流的网络编程工具,但如何更好的快速掌握呢?小编这里推荐用户使用学通ASP.NET的24堂课,这是一本ASP.NET技术
查看
数字设计和计算机体系结构第二版89.96M戴维·莫尼·哈里斯 pdf扫描版 数字设计和计算机体系结构第二版是一本将数字逻辑和计算机体系结构融合的书籍,由美国程序员戴维·莫尼·哈里斯编著。本书内容丰富翔实,其特色在于使用并列方式讲述SystemVerilog和VHDL,使读者可以快速地对比两种语言。第4章更是描述适用于这两种
查看
html5+javascript动画基础52.79Mpdf高清扫描版html5+javascript动画基础是一本教你如何使用HTML5和JavaScript来完成一系列的动画特效的教学书籍,由[美]billy lamberta,Keith Peters著,徐宁,李强翻译,人民邮电出版社出版。全书详细介绍了如何使用HTM
查看
尼康d300s说明书9.95MPDF中文版 本站免费提供尼康d300s说明书下载,版本为PDF中文版,方便用户更清晰直白的进行阅读观看。尼康d300s说明书内包含了一系列关于同名相机的操作指南、功能特点、新增功能等等,用户再也不用担心自己买过来的相机不会用了。 由于文件是PDF格
查看