大小:16.64M
更新时间:23-09-01
系统:Pc
命令行中的数据科学是一本数据科学书籍,由詹森斯(Jeroen Janssens)编著。本书独树一帜,教你利用灵活的命令行工具成为高效多产的数据科学家。为此,作者开发了数据科学工具箱,一个包含80多个命令行工具的安装简单的虚拟环境,能在Windows、OS X和Linux操作系统上运行。
你将学会如何结合使用这些小而强大的命令行工具,快速地获取、清洗、探索和建模数据。通过阅读本书,你会明白为什么命令行是一种灵活、可伸缩、易扩展的技术。即使你已经能够使用Python或R得心应手地处理数据,利用命令行也将大大改进你的数据科学工作流。
《命令行中的数据科学》集实用性和先进性于一身,为数据分析人员使用命令行这个灵活的工具提供了重要参考。作者讲解了众多实用的命令行工具,以及如何使用它们高效地获取、清洗、探索和建模数据。
论你使用Windows、OS X,还是Linux,都可以安装包含80多个命令行工具的“数据科学工具箱”,迅速建立自己的数据分析环境。论你是否已经习惯于使用Python或R语言,都能够通过本书体会到使用命令行的快捷、灵活与伸缩自如。
本书适合各层次的软件开发人员,包括专业和非 专业的数据分析人员。
前言 XIII 第1 章 简介 1 1.1 概述 1 1.2 数据科学就是OSEMN 2 1.2.1 数据获取 2 1.2.2 数据清洗 2 1.2.3 数据探索 3 1.2.4 数据建模 3 1.2.5 数据解释 3 1.3 插入的几章 4 1.4 什么是命令行 4 1.5 为什么用命令行做数据科学工作 6 1.5.1 命令行的灵活性 6 1.5.2 命令行可增强 6 1.5.3 命令行可扩展 7 1.5.4 命令行可扩充 7 1.5.5 命令行处不在 7 1.6 一个现实用例 8 1.7 延伸阅读 11 第2 章 入门指南 13 2.1 概述 13 2.2 设置数据科学工具箱 13 2.2.1 步骤1:下载和安装VirtualBox 14 2.2.2 步骤2:下载和安装Vagrant 14 2.2.3 步骤3:下载并启动数据科学工具箱 14 2.2.4 步骤4:登录(Linux 和Mac OS X) 16 2.2.5 步骤4:登录(微软Windows) 16 2.2.6 步骤5:关闭或重启 16 2.3 必要的概念和工具 17 2.3.1 环境 17 2.3.2 运行命令行工具 18 2.3.3 五类命令行工具 19 2.3.4 命令行工具的组合 21 2.3.5 输入和输出重定向 22 2.3.6 处理文件 23 2.3.7 寻求帮助 24 2.4 延伸阅读 26 第3 章 数据获取 27 3.1 概述 27 3.2 将本地文件复制到数据科学工具箱 28 3.2.1 本地数据科学工具箱 28 3.2.2 远程数据科学工具箱 28 3.3 解压缩文件 29 3.4 微软Excel 电子表格的转换 30 3.5 查询关系数据库 32 3.6 从互联网下载 33 3.7 调用Web API 35 3.8 延伸阅读 36 第4 章 创建可重用的命令行工具 37 4.1 概述 38 4.2 将单行转变为shell 脚本 38 4.2.1 步骤1:复制和粘贴 39 4.2.2 步骤2:添加执行权限 40 4.2.3 步骤3:定义shebang 41 4.2.4 步骤4:删除固定的输入 42 4.2.5 步骤5:参数化 42 4.2.6 步骤6:扩展PATH 43 4.3 用Python 和R 创建命令行工具 44 4.3.1 移植shell 脚本 45 4.3.2 处理来自标准输入的流数据 46 4.4 延伸阅读 47 第5 章 数据清洗 49 5.1 概述 50 5.2 纯文本的常见清洗操作 50 5.2.1 行过滤 50 5.2.2 值提取 54 5.2.3 值替换和删除 55 5.3 处理CSV 56 5.3.1 主体、头部和列 56 5.3.2 对CSV 执行SQL 查询 60 5.4 处理HTML/XML 和JSON 61 5.5 CSV 的常见清洗操作 65 5.5.1 列的提取和重排序 65 5.5.2 行过滤 66 5.5.3 列合并 67 5.5.4 多个CSV 文件的合并 70 5.6 延伸阅读 73 第6 章 管理数据工作流 75 6.1 概述 76 6.2 Drake 简介 76 6.3 Drake 的安装 76 6.4 获取古腾堡计划中下载最多的电子书 78 6.5 所有工作流都从单个步骤开始 79 6.6 具体情况具体对待 81 6.7 重新构建具体目标 82 6.8 讨论 83 6.9 延伸阅读 83 第7 章 数据探索 85 7.1 概述 85 7.2 检查数据及其属性 86 7.2.1 确定有数据头 86 7.2.2 检查所有数据 86 7.2.3 特征名称和数据类型 87 7.2.4 唯一标识、连续变量和因子 89 7.3 计算描述性统计信息 90 7.3.1 使用csvstat 90 7.3.2 在命令行中通过Rio 使用R 92 7.4 生成可视化图形 95 7.4.1 介绍Gunplot 和feedgnuplot 95 7.4.2 介绍ggplot2 97 7.4.3 直方图 99 7.4.4 条形图 101 7.4.5 密度图 102 7.4.6 箱线图 103 7.4.7 散点图 103 7.4.8 折线图 105 7.4.9 总结 106 7.5 延伸阅读 106 第8 章 并行管道 107 8.1 概述 108 8.2 串行处理 108 8.2.1 对数字进行遍历 108 8.2.2 对行进行遍历 109 8.2.3 对文件进行遍历 110 8.3 并行处理 111 8.3.1 GNU Parallel 介绍 112 8.3.2 指定输入 113 8.3.3 控制并发任务的个数 114 8.3.4 记录日志和输出 115 8.3.5 创建并行工具 116 8.4 分布式处理 117 8.4.1 获得运行中的AWS EC2 实例列表 117 8.4.2 在远程机器上运行命令 118 8.4.3 在远程机器间分发本地数据 119 8.4.4 在远程机器上处理文件 120 8.5 讨论 123 8.6 延伸阅读 123 第9 章 数据建模 125 9.1 概述 126 9.2 更多的酒,来吧! 126 9.3 用Tapkee 降维 129 9.3.1 介绍Tapkee 130 9.3.2 安装Tapkee 130 9.3.3 线性和非线性映射 130 9.4 用Weka 聚类 132 9.4.1 介绍Weka 132 9.4.2 在命令行里改进Weka 132 9.4.3 在CSV 和ARFF 格式之间转换 136 9.4.4 比较三种聚类算法 136 9.5 通过SciKit-Learn Laboratory 进行回归 139 9.5.1 准备数据 139 9.5.2 运行实验 139 9.5.3 解析结果 140 9.6 用BigML 分类 141 9.6.1 生成均衡的训练和测试数据集 141 9.6.2 调用API 143 9.6.3 检查结果 143 9.6.4 小结 144 9.7 延伸阅读 144 第10 章 总结 145 10.1 让我们回顾一下145 10.2 三条建议 146 10.2.1 有耐心 146 10.2.2 有所创新 146 10.2.3 肯于实践 147 10.3 接下来做什么 147 10.3.1 API 147 10.3.2 shell 编程 147 10.3.3 Python、R 和SQL 147 10.3.4 数据解释 148 10.4 联系方式 148 附录A 命令行工具列表 149 附录B 参考文献 167 作者介绍 169
1、下载并解压,得出pdf文件
2、如果打不开本文件,请务必下载pdf阅读器
3、安装后,在打开解压得出的pdf文件
4、双击进行阅读试读
同类热门
热门标签
网友评论0人参与,0条评论
最新排行
软测之魂核心测试设计精解31.31M肖利琼pdf扫描版软测之魂:核心测试设计精解是一本软件检测指导书籍,由肖利琼编著,本书是作者多年在测试行业经验的总结,全面的揭示了测试设计的各个环节和相应的技术,理论与实践相结合,辅助以典型的测试案例分析,无论你是软件测试架构师、测试工程师还是测试经理、项目经理都可以从书
查看c# winform实践开发教程42.53M钱哨高清扫描版c# winform实践开发教程是一本基于.NET FrameWork2.0平台进行的C# Windows程序设计开发教材,由钱哨,李挥剑,李继哲 三人共同编著。全书内容衔接合理,采用了项目驱动方式,且完全按项目运作所需的知识体系设置结构来编写。以实际工
查看精通Java Web整合开发(第二版)225.47M刘斌 pdf扫描版 精通Java Web整合开发(第二版)是一本Java Web技术整合开发书籍,由刘斌编著。本书为轻量级Java EE应用开发人员提供一整套实用的主流开发技术,融入了作者多年的Java EE应用开发经验。任何知识点均配以实例进行讲解,每个实例提供同步
查看C#2012数据库编程入门经典(第5版)87.4Mpdf扫描版C#2012数据库编程入门经典(第5版)是一本C#数据库编程入门书籍,由[美]阿加瓦尔Vidya,Vrat Agarwal著,沈刚,谭明红共同翻译。全书就是一本帮助具有C#语言基础的程序员快速掌握数据库编程知识的指南,包括了使用SQL Server 20
查看Android手机程序设计实用教程62.61M耿祥义 张跃平pdf高清扫描版Android手机程序设计实用教程是一本Android移动应用开发设计的指导手册,由耿祥义和张跃平两人共同编著,全书以Android 4.2版本为系统,详细的讲解了Android系统的和手机程序设计的特点、Android手机应用开发的核心内容,并附以实例
查看Spark技术内幕:深入解析Spark内核架构设计与实现原理21.61M张安站pdf扫描版 Spark技术内幕:深入解析Spark内核架构设计与实现原理是一本Spark解析实用教学书籍,由张安站编著,全书详细剖析了Spark内核各个模块,以源码为基础,全面分析了Spark内核的各个模块的设计思想和实现原理,深入理解其内部运作机制乃至实现细
查看实战SEO实用技法与案例剖析69.23M藏锋者扫描版实战SEO:实用技法与案例剖析是一本搜索引擎优化技术指导手册,由藏锋者、崔旭、郝永清三人共同编著。本书脉络清晰,由浅到深,从网站策划、准备、运维、分析的全方面讲解了网站优化的流程和技巧,手把手教你如何去选择网站类型、建站、优化网站,即使你是一个seo小白
查看Android高级进阶43.81MPDF顾浩鑫高清扫描版Android高级进阶是由顾浩鑫所编写,作者实战经验非常的丰富,先后任职过华为、百度、平安科技,本书分为8个部分进行阐述,分别是基础篇、系统架构篇、经验总结篇、新技术篇、性能优化篇、移动安全篇、工具篇、测试篇。内容十分丰富,书中通过简单的代码示例详尽地展
查看windows内核安全与驱动开发203.53M谭文 陈铭霖pdf扫描版windows内核安全与驱动开发是一本Windows客户端安全软件开发指导书籍,由谭文,陈铭霖编著,全书主要讲解的是Windows客户端安全软件开发相关的驱动程序开发,书中的程序使用环境从32位到64位,从Windows XP到Windows 8都有涉及
查看html5移动web开发指南1.99Mpdf完整版html5移动web开发指南是由著名的Web前端工程师唐俊开所编著的,是一门新崛起的语言,现在非常的流行,本书是为从未接触过html5新技术但同时又对移动web技术感兴趣的读者而编写的,同时它也适用于有一定基础或者未来计划的职业是web前端开发工程师、具
查看