进行数据分析除了需要良好的数学统计基础,对数据的敏感性外,有一位熟练使用的“老手”是非常重要的,数据分析的软件类型有:Excel、SQL、BI、统计编程、数据可视化 JavaScript 库、R 语言等等。
1.Excel 数据处理
Excel:数据的加工以及分析处理,这个工具不用多说,不会这个基本和数据分析这个工作也就没有了,可以说这玩意是数据分析的基础软件工具,掌握它对我们后面进一步学习使用 BI 工具或统计编程工具有很大帮助。
它的功能很强大,数据分析中最常用的功能有:数据透视表、分析工具库、可视化图表、自动化数据处理、快速实现业务报表开发等等,它的数据输入可以是手工输入,也可以是通过各类标准文件导入,也可以是使用“Power Query”功能实现从数据库取数。
2.数据库操作
SQL:结构化数据查询,主要用于查询关系型数据库中的数据,例如:Oracle、SQL Server、MySQL、Hive、PosgreSQL 等。
3.BI 工具
BI(Business Intelligence 商业智能)工具不仅仅是数据可视化,更是智能数据分析工具,可以大大提高数据分析的效率。主要有以下 2 款:
Tableau BI:数据可视化软件,相比 Excel,能够支持更多数据的可视化。不免费,但是淘宝上有低价格的专业版 key 卖一年几十块。
PowerBI:和 Tableau 类似的数据可视化软件,微软出品,PowerBI Desktop 免费,免费版也可以在 PowerBI Service 上进行公开分享,但是如果需要按角色分享就需要付费了,或者更多企业云上功能也需要付费。但是免费版本的 PowerBI Desktop 足以完成所有工作。
其实 PowerBI 和 Tableau 的核心本质是一样的,这个核心就是 Excel 的数据透视表和数据透视图。它们都是通过拖拽字段的方式,实现数据透视分析,并一键生成图表。这也是为什么说如果你对 Excel 数据透视表很掌握,再去学习这两门工具上手会很快。
4.统计编程
一款菜单式统计工具:SPSS,三款统计编程工具:SAS、Python、R
常用的统计模型(或方法):
- 数据的点估计、区间估计、方差分析
- 各种假设检验(卡方检验、t 检验、F 检验、正态性检验等)
- 数据降维(如主成分分析、因子分析等)
常用的数据挖掘模型:
- 预测类算法(如多元线性回归模型、决策树模型、随机森林模型、K 近邻算法、支持向量机 SVM 模型等)
- 分类算法(如 Logistic 回归模型、贝叶斯算法、提升树 GBDT 算法等)
- 聚类算法(如 K 均值聚类、层次聚类、密度聚类等)
5.数据可视化 JavaScript 库
Echarts 和 JavaScript 数据可视化库,用于制作数据可视化网页。
6.R 语言
R 是用于统计分析、绘图的语言和操作环境。R 是属于 GNU 系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R 是用于统计分析、绘图的语言和操作环境。R 是属于 GNU 系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R 语言开发 IDE 通常使用的是 Rstudio,社区版免费,通常够用了。
7.SQL
这里的 SQL 不是单指 mysql 或者 oracle,亦或者 hive 等,而是指标准 SQL 查询语言。数据库可以存储大量的数据,通过 SQL 可以进行复杂的数据关联查询,比如几张表之间的关联信息。写好 SQL,也能高效的挖掘出数据之间的关系,做出最有商业价值的数据分析报表。
通过数据分析来实现软件和数据之间的平衡。资料分析要大量使用资料集合,数据分析手段,所用资料储存的特殊技术,如深度分析法,以资料库为基础,建立以工具书为基础的硬件资料分析系统,资料储存于软体或硬体,以便在整个软体发展、制造过程中,能有效运用。