数据分析之探索性分析

探索性数据分析是指对已有数据通过作图、制表、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是当我们队这些数据中的信息没有足够的经验,不知道该用何种传统统计方法进行分析是,探索性数据分析就会非常有效。课程内容主要包括描述性统计分析、多维数据的可视化、降维技术、数据模型的可视化。

描述统计分析:以揭示数据分布特性的方式汇总并表达定量数据的方法。

包括数据的频数分析、数据的集中趋势分析、数据的离散程度分析、数据的分布以及一些基本的统计图形。描述性统计是一类统计方法的汇总,作用是提供了一种概括和表征数据的有效且相对简便的方法。通常用图示法来表述,易于看懂,能发现质量特性值的分布状况、趋势走向的一些规律,便于采取措施。用于汇总和表征数据,通常是对数据进一步定量分析的基础,或是对推断性统计方法的有效补充。

常见的描述性统计方法分为三类:
数据的统计量描述,如均值、方差。
图示技术描述,如直方图、散布图、趋势图、排列图、条形图和饼分图
文字语言分析和描述,如统计分析表、分层、因果图、亲和图和流程图。

常见的描述性统计的应用范围:适用于能够收集到定量数据的所有领域,提供有关产品、过程或质量管理体系的信息,也用于管理。

多元数据和多维数据的区别?

以下方法来自:http://staff.ustc.edu.cn/~zwp/teach/MVA/Lec2_slides.pdf
多元数据的可视化方法:
1.几何投影方法
2.基于像素的可视化技术
3.层次可视化技术
4.基于图标的可视化结束

以下方法来自:http://www.afenxi.com/post/1643
降维技术的方法:
缺失值比率
低方差滤波
高相关滤波
随机森林/组合树
主成分分析
反向特征消除
前向特征构造

数据模型的可视化

——————————
未完待续……