python数据分析

python数据分析

什么是数据分析?

作为服装店的老板,你发现每到秋冬两季毛衣的销量就会提升,春夏两季衬衫的销量会增加。于是你在秋冬主打毛衣的销售,春夏两季主打衬衫,最终带来销售额的提升。

这是一个最简单的例子,我们从销售数据来得出结论,最终决定销售策略。

我们每天的生活都在产生着大量的数据,每一次电话通话组合起来的数据都在影响着基站的分布,我们点的每一次外卖都会记录,用来优化骑手的派单方案,每一次淘宝购物都在影响整个上下游产业链的生产与营销规划。

这是一个大数据的时代,根据IDC发布《数据时代2025》的报告显示, 2025 年全球每年产生的数据将达到175ZB(约等于1.1万亿GB)。这些数据已经与我们息息相关,小到个人的衣食住行,大到国家层面也需依据数据做出政策规划。

当我们对数据进行处理,从数据中抽取信息的这个过程就叫作数据分所。

数据分析的常规过程

数据为业务服务,这是做数据分析的核心要点。

常规的业务分析有以下历程:

  1. 确定目的
  2. 获取数据
  3. 清洗数据
  4. 数据分析
  5. 数据可视化
  6. 得出结论

为什么用 Python 来做数据分析

在 Python诞生的初期,它一度被看作一种不严谨的脚本语言,被用来处理一些琐碎的工作。不过经过长期的发展,Python 衍生出了许多活跃的社区。使用 Python 开发的项目越来越多,Python 已经成为了数据科学、机器学习、学术界和互联网开发最重要的语言的之一。近两年更是被 IEEE 评选为最受欢迎的语言。

正是因为 Python 通用性,使得我们单单使用 Python 便能完成数据分析的整个过程。从数据的获取到数据的数学计算再到分析结果的展示都可以用 Python 独立高效地完成。避免了同时使用多个工具的繁杂工作。并且 Python 的易用性使得我们可以专注于基于业务场景的数据分析,不用考虑过多的语法细节。

如 Pandas 等运算库都使用 cython 优化过,使得 Python 下对于大量数据的处理速度已经不亚于静态语言。 pyecharts 等的优秀图表展示库使得我们能展示更漂亮的图表,生成一个可交互的网页。爬虫方面的天然优势使得我们获取网络上的数据变得更加简单。

可以说 Python 已经是数据分析的不二之选。

我们这系列课讲了什么?

在这期课程里,会将豆瓣的电影介绍作为数据源。通过实战出发,运用 python 里 NumPy、 Pandas、Matplotlib、pyecharts 等工具对数据进行分析与展示。

以上提到的库都会进行深入的了解与学习,并且将会学习到如何在 JupyterLab 环境下进行开发, 如何对数据进行基本的清洗与筛选, 如何从网络上获取需要的数据。

本课所用到的示例文件。 点击打开 提取码:3yya