本教程的核心内容是利用Python语言操作、处理、清洗、可视化数据,对数据进行基本的分析。虽然以分析为名,但专注于Python的编程、主要类库、工具,而不是分析的方法论。更进一步的数据挖掘、机器学习,将在下一步的教程里体现。
在数据分析和处理领域,毫无疑问,Python是主流语言,其原因在于:
下面是Python数据分析和处理任务中重要的库与工具:
官网:http://www.numpy.org/
Numpy库是Python数值计算的基石。它提供了多种数据结构、算法以及大部分涉及Python数值计算所需的接口。主要包括以下内容:
官网:https://www.scipy.org/
这个库是Python科学计算领域内针对不同标准问题域的包集合,主要包括以下内容:
Scipy与Numpy一起为很多传统科学计算应用提供了一个合理、完整、成熟的科学计算基础。
官网: http://pandas.pydata.org/
Pandas提供了高级数据结构和函数,使得利用结构化、表格化数据的工作快速、简单、有表现力。Pandas将表格和关系型数据库的灵活数据操作能力与Numpy的高性能数组计算的理解相结合。提供复杂的索引函数,使得数据的重组、切块、切片、聚合、子集选择更为简单。Pandas是数据分析和处理工作中,实际使用占比最多的工具,使用频率最高,也是本教程的主要介绍内容。
官网:https://matplotlib.org/
matplotlib是最流行的用于制图以及其它数据可视化的Python库。在基于Python的数据可视化工作中,这个库是行业默认选择,虽然也有其它可视化库,但matplotlib依然是使用最为广泛,并且与生态系统的其它库良好整合。
此工具是本教材主要介绍内容之一,实际上,学会了这个工具,其它可视化库,甚至Matlab绘图,基本套路都是类似的,可以一通百通。
官网:https://jupyter.org/
基于Python的交互式编程环境有IPython、IPython notebook以及Jupyter notebook。但如果对于数据分析、处理、机器学习等相关工作,我强烈推荐基于web的Jupyter notebook。
这个代码测试、开发、编辑、文字工具,真的是谁用谁知道,并且也是本教程的主要内容之一,吐血推荐!
官网:https://scikit-learn.org/stable/
如果说基于Python的机器学习,那么首推必须是scikit-learn库,属于必学工具!它主要包括以下子模块:
机器学习是非常庞大和复杂的一门学科,本教程不准备讲述,而是放在下一步。
刘江老师,这个视频在哪里啊?我在网页的视频课程中没有看到
厉害
支持
test
学习学习
感谢作者
有时间好好学习一下本教程。
博主新年发布了新教程!厉害!感谢!支持!宣传!
不错,很好的教程,已购买视频,支持
你好,请问这个视频课程在哪里买啊?