统计学是数据科学和机器学习的重要组成部分。统计学是数学的一个子领域,指的是以数学方程的形式形式化变量之间的关系。它试图找到变量之间的关系以预测结果。统计学涉及收集分析、解释、展示和组织的研究。
有很多统计测试,用于衡量变量内部或之间的关系。在数据科学项目中,数据科学家经常会想到一个问题,即要使用哪种统计技术来处理什么类型的数据或变量,以及何时使用它们。在本文中,你可以了解到对几种统计测试的基本理解,以及何时和如何在数据集中使用它们。
单样本测试 vs 双样本测试:
单样本测试是考虑对一列或一个特征的分析的统计过程。它可以是百分比分布分析(分类变量)或平均值分析(连续变量)。
另一方面,双样本测试是一种统计过程,用于比较或计算两个随机变量之间的关系。
单样本测试:
如上所述,单样本测试涉及对一个随机变量进行假设检验。
-
均值的单样本T检验: 对于数值或连续变量,可以使用均值的单样本T检验,来检验你的总体均值是否与一个常数值不同。例如,一个跨国公司有兴趣测试其员工的平均年龄是否为30岁。他们可以使用单样本t检验来得出结果。
-
比例的单样本T检验: 一样本比例检验用于估计总体的比例。对于分类变量,可以使用单样本T检验来检验类别的分布。
双样本测试:
在假设检验中,对来自独立总体的两个随机变量的数据进行双样本测试。该测试可用于测试两个样本之间的显著差异。
一旦你确定了随机变量的目的和数据类型,基本上有三种数据类型组合:
- 两个连续变量
- 一个连续变量和另一个分类变量
- 两个分类变量
两个连续变量之间的统计测试:
当你的实验试图找到两个连续变量之间的关系时,可以使用相关性统计测试。
Pearson相关性:
Pearson相关性是一种用于测量两个线性相关变量之间关系程度的统计技术。其系数的值在[1,-1]之间,其中1表示正相关,-1表示负相关,0表示无相关。
Spearman等级相关性:
两个随机变量的Spearman等级相关性等于这两个变量的秩值的Pearson相关性。它可用于测量两个连续随机变量之间的单调关系。其系数的值在[1,-1]之间,其中1表示正相关,-1表示负相关,0表示无相关。
一个连续变量和另一个分类变量之间的统计测试:
T检验:
当你的实验试图在一个分类变量(具有两个类别)和另一个连续变量之间进行比较或找到差异时,需要使用双样本T检验,以找到两个变量之间的显着差异。
ANOVA:
当你的实验试图在一个分类变量(具有两个以上类别)和另一个连续变量之间进行比较或找到差异时,使用ANOVA(方差分析)测试。
两个分类变量之间的统计测试:
卡方检验:
当你的实验试图比较或找到两个分类随机变量之间的差异时,可以使用卡方检验来测试统计学差异。
结论:
在本文中,我们讨论了统计技术以及何时使用什么测试来推导随机变量之间的关系或结论。使用上述讨论的统计技术,可以评估一个变量对另一个变量的影响。
两个连续变量之间的相关性用于衡量它们之间的关系。所有其他统计测试都可以用于比较两个随机变量,p值可用于接受或拒绝零假设。# 参考资料:
[1] 统计解决方案:https://www.statisticssolutions.com/correlation-pearson-kendall-spearman/
评论(0)