python数据分析
什么是数据分析?
作为服装店的老板,你发现每到秋冬两季毛衣的销量就会提升,春夏两季衬衫的销量会增加。于是你在秋冬主打毛衣的销售,春夏两季主打衬衫,最终带来销售额的提升。
这是一个最简单的例子,我们从销售数据来得出结论,最终决定销售策略。
我们每天的生活都在产生着大量的数据,每一次电话通话组合起来的数据都在影响着基站的分布,我们点的每一次外卖都会记录,用来优化骑手的派单方案,每一次淘宝购物都在影响整个上下游产业链的生产与营销规划。
这是一个大数据的时代,根据IDC发布《数据时代2025》的报告显示, 2025 年全球每年产生的数据将达到175ZB(约等于1.1万亿GB)。这些数据已经与我们息息相关,小到个人的衣食住行,大到国家层面也需依据数据做出政策规划。
当我们对数据进行处理,从数据中抽取信息的这个过程就叫作数据分所。
数据分析的常规过程
数据为业务服务,这是做数据分析的核心要点。
常规的业务分析有以下历程:
- 确定目的
- 获取数据
- 清洗数据
- 数据分析
- 数据可视化
- 得出结论
为什么用 Python 来做数据分析
在 Python诞生的初期,它一度被看作一种不严谨的脚本语言,被用来处理一些琐碎的工作。不过经过长期的发展,Python 衍生出了许多活跃的社区。使用 Python 开发的项目越来越多,Python 已经成为了数据科学、机器学习、学术界和互联网开发最重要的语言的之一。近两年更是被 IEEE 评选为最受欢迎的语言。
正是因为 Python 通用性,使得我们单单使用 Python 便能完成数据分析的整个过程。从数据的获取到数据的数学计算再到分析结果的展示都可以用 Python 独立高效地完成。避免了同时使用多个工具的繁杂工作。并且 Python 的易用性使得我们可以专注于基于业务场景的数据分析,不用考虑过多的语法细节。
如 Pandas 等运算库都使用 cython 优化过,使得 Python 下对于大量数据的处理速度已经不亚于静态语言。 pyecharts 等的优秀图表展示库使得我们能展示更漂亮的图表,生成一个可交互的网页。爬虫方面的天然优势使得我们获取网络上的数据变得更加简单。
可以说 Python 已经是数据分析的不二之选。
我们这系列课讲了什么?
在这期课程里,会将豆瓣的电影介绍作为数据源。通过实战出发,运用 python 里 NumPy、 Pandas、Matplotlib、pyecharts 等工具对数据进行分析与展示。
以上提到的库都会进行深入的了解与学习,并且将会学习到如何在 JupyterLab 环境下进行开发, 如何对数据进行基本的清洗与筛选, 如何从网络上获取需要的数据。
本课所用到的示例文件。 点击打开 提取码:3yya
课程目录
第一课:用 JupyterLab 来写我们的程序 第二课:CSV表格数据的读写 第三课:Excel表格数据的读写 第四课:NumPy 第五课:用Pandas来处理我们的数据 第六课:数据展示的利器 Matplotlib 第七课:更漂亮的展示之 pyecharts学习遇到困难?微信扫码进入社群与小伙伴一起交流讨论。