怎么识别异常值？理论+编码一文搞定

　　在开展数据科学项目时，您在寻找什么? EDA阶段最重要的部分是什么?如果在EDA阶段没有完成某些事情，可能会影响进一步的统计、机器学习建模。其中之一是找到异常值。在这篇文章中，我们将尝试了解什么是异常值?为什么识别异常值很重要?方法是什么?不要担心，我们不会仅仅只讲理论部分，我们也会对数据进行一些编码和绘图。

　　既然我们知道异常值可能是一个错误或者只是一个方差，你会如何决定它们是否重要。那么，如果它们是错误的结果，那么它非常简单，我们就可以忽略它们，但如果它只是数据的变化，我们需要进一步思考。在我们尝试了解是否忽略异常值之前，我们需要知道如何识别它们。

　　大多数人可能会想，就像我们在前面提到的板球例子中所做的那样，我可以在数据的高峰期找到异常值。让我们考虑一个包含500列和10k +行的文件，您是否仍然认为可以手动找到异常值?为了减轻异常值的发现，我们有很多统计方法，但我们只会讨论其中的一些。大多数情况下，我们会尝试查看可视化方法(最简单的方法)而非数学方法。

　　我们将根据两种类型的分析找出异常值，单变量(一个变量异常值分析)和多变量(两个或多个变量异常值分析)。不要感到困惑，当你开始编码和绘制数据时，你会发现自己检测异常值有多容易。为了简单起见，我们将从检测异常值的基本方法开始，并慢慢地继续前进方法。

　　这里我们分析了Uni-variate异常值，即我们只使用DIS列来检查异常值。但我们也可以进行多元异常分析。我们可以用箱型图进行多元分析吗?那么它取决于，如果你有一个分类值，那么你可以使用任何连续变量，并进行多元异常值分析。由于我们在波士顿房屋数据集中没有明确的价值，因此我们可能需要忘记使用箱形图进行多变量异常值分析。

　　散点图是指在回归分析中，数据点在直角坐标系平面上的分布图，散点图表示因变量随自变量而变化的大致趋势，据此可以选择合适的函数对数据点进行拟合。如定义所示，散点图是显示两个变量值的点的集合。我们可以尝试从我们的住房数据集中绘制两个变量的散点图。

　　你一定想知道，这对识别异常值有什么帮助?那么，在计算Z-Score的同时，我们对数据进行重新缩放和居中，并查找距离零太远的数据点。这些距离零太远的数据点将被视为异常值。在大多数情况下，使用3或-3的阈值，即，如果Z-Score分别大于或小于3或-3，则该数据点将被识别为异常值。

　　总结他们的解释，包括错误的数据、错误的计算，这些可以被识别为离群值，并应该在他们改变数据的水平时被丢弃，也就是说，当您建模数据时会引起问题的平均值。对于前5人获得10K，20K，30K，40K和50K的薪水，突然其中一人开始获得100K的薪水。考虑到这种情况，因为你是一名雇主，新的薪资更新可能被视为有，或者你可能还需要增加其他员工的薪水，以保持平衡。因此，您可能有多种理由想要了解并纠正异常值。

　　在整个中，我们看到了数据分析阶段如何能够遇到一些不寻常的数据，即异常值。我们了解了可用于检测和删除这些异常值的技术。但是有人提出了一个关于确定是否可以移除异常值的问题。为了回答这些问题，我们发现了更多的读物(这些链接在前一节中提到)。希望这篇文章有助于读者了解异常值。

　　本文由325游戏（www.325qp.net）整理发布

怎么识别异常值？理论+编码一文搞定

相关阅读

网友评论 ()条查看

推荐文章更多

热门图文更多

最新文章更多

怎么识别异常值？理论+编码一文搞定

相关阅读

网友评论 ()条 查看

推荐文章更多

热门图文更多

最新文章更多

网友评论 ()条查看