热门留学专业推荐:数据分析——用数据讲叙的艺术(四)
今天我们继续在数据分析中学会讲故事这个主题。上次讲到了针对不同类型数据可以使用的表达方式,今天我们继续看看如何在搭建模型的过程中讲故事。
那么,如果我们需要查看酒精含量和葡萄酒品质之间是否存在相关性,我们该怎么做呢? 我们可以计算Pearson的“r”。它能帮助我们建立其模型,但无法帮助我们进行很多分析。
这表明酒精含量和葡萄酒质量之间有很强的相关性。但它能告诉你其他什么信息吗? 通常情况下,它不会。那么,它有什么作用呢? 
让我们看看如何将这些信息可视化并从中了解更多信息。
首先,我们将首先了解葡萄酒质量与酒精含量的关系。
在这里,我们可以发现更高的酒精含量与更好的葡萄酒质量有关,这有助于我们深入理解数据。在这种情况下,我们还可以发现异常值。 
接下来,你是否想知道葡萄酒中的酸含量如何影响其质量?
小提琴图,是一种可视化酸度的常用方法。 
生成特征图后,你如何验证预测的效果?
上图告诉我们预测点与拟合线的距离。
我们需要可视化的另一个示例是主成分分析。这是在RStudio中找到的Iris数据集。
当我们在这个数据集上运行主成分分析时,我们会发现以下其具有统计特征:
而当我们绘制下面这个图形时,我们发现生成的视觉效果比统计数据信息丰富得多。
进入模型创建阶段,我们通常会需要了解数据是如何拟合的。
这个模型,可以根据道路的坡度和颠簸程度来预测汽车会驾驶的更快还是更慢。如你所见,决策清楚地对大部分数据进行了分类,但88.21%的准确率并不能说明什么。 
在这里我们甚至可以看到被错误分类的点离决策边界有多远。我们还可以通过查看它们的决策边界来比较某些算法和技术。 
下面显示了另一个使用Iris数据集的示例。
上述呈现方法,没有太多信息可以得出有关我们模型的宝贵见解。
而使用另一种呈现方法的这幅图,则向我们展示了清晰的分类边界。
讲故事的好方法 
既然你知道我们可以使用讲故事的方法来解释观点,在你以后需要自己处理相关问题之前,我愿意在此处给你一些实用的提示:
始终标记你的轴并给出相关标题。 
必要时使用图例。 
使用适当的颜色。 
避免在你的可视化呈现中添加不必要的细节,例如不利于良好可读性的背景或主题。
如果你正在进行时间序列编码,请勿使用点进行可视化。
讲故事并不是目的。
它可以帮你从以前错过的数据中发现新的见解。很难用数字清楚描绘的特征及数据之间的关系可以使用故事和图表来显示。 
在这篇文章中,我们详细说明了如何在各种途径中使用故事/视觉化呈现来更好地解释细节。 
从模型构建步骤中的使用方式开始,我们逐渐研究了哪些图表适合特定数据类型。 
行动起来,渴望听到有关你的数据故事!
(本文图片由原作者提供,如涉及侵权,请联系平台删除,谢谢!)