何时需要统计学

您在分析数据时的目的很简单:希望从有限数据中得出最强有力的结论。为此,需克服两个问题:

• 重要的发现可能会被生物的变异性和试验的不精确性覆盖。这使得很难区分真正的差异和随机变异。

• 人类大脑擅长发现模式,即使是在随机数据中。我们的自然倾向(尤其是我们自己的数据)是得出差异是真实的结论,并最小化随机变异性的贡献。统计的严格性防止您犯这一错误。

观察到的差异与试验不精确和生物变异性相比很小时,统计分析非常必要。

一些科学家使用洁净的试验系统提出基本问题,没有生物变异性,试验误差很小。如果者能够说明您的工作,您可留意以下情况:

• 如需过统计学来分析您的试验,则代表您做错了试验。

• 如果您的结果不言自明,不要中断!

其他科学家在他们的工作领域面对大量变异性时,会寻求相对较小的差异。在这些领域,统计方法必不可少。

统计学的基本概念

统计学让您从有限数据中得出一般结论。
推断统计学的全部要点是从有限的数据中推断出一个一般结论。“描述性统计学”只是描述数据,未得出任何一般结论。但统计学的挑战和困难之处在于从有限的数据中得出一般结论。

无法凭借直观来理解统计学。
“直观”一词有两层含义。其中一种含义是“易于使用和理解。”这是我写作 《直观生物统计学》时的目的。“直观”的另一种含义是“本能,或即使没有理由,也按照自己认为真实的东西去做。”使用该定义,统计推理绝非直观。思考数据的树根,直观往往会将我们引入歧途。人们经常在随机数据中看到模式,并经常得出未经确认的结论。从数据中得出有效结论需要统计的严密性。

统计结论总是以概率的形式出现。
“统计学意味着不能说绝对确信。”如果一个统计学结论似乎已确定,则可能是您在误解某些事情。统计学的全部意义是量化不确定性。

所有统计检验均基于假设。
每个统计推断均基于一系列假设。不要试图解读任何统计结果,直至您看完那个列表。每一次统计计算背后的假设是,数据是随机抽样的数据,或至少代表可收集到的更大数量的值。如果您的数据不能代表您本可(但没有)收集的更大数据集,则统计推断将没有意义。

应提前作出关于如何分析数据的决定。
分析数据需要许多决定。参数检验或非参数检验?是否排除异常值?是否首先转换数据?是否对外部对照值进行标准化?是否调整协变量?是否在回归中使用加权因素?所有这些决定(以及更多)均应为实验设计的一部分。如果统计分析的决定是在检查数据之后作出,统计分析很容易成为一种高科技的显灵板 - 一种产生预定结果的方法,而非一种分析数据的客观方法。新名称是p - 值篡改。

置信区间量化精确度,且易于解读。
假设您已计算所收集的一组值的平均值,或者产生某个事件的受试者比例。这些值描述您分析的样本。但您抽样的整个群体如何?真实的群体平均值(或比例)可能更高,也可能更低。95%置信区间的计算考虑了样本量和分散性。给定一组假设,您可95%的确定置信区间包括真实的群体值(您只能通过收集无限量的数据进行确定)。当然,95%并无特殊之处,仅仅是一种惯例。可针对任何期望的置信程度计算置信区间。几乎所有结果 - 比例、相对风险、优势比、平均值、平均值之间的差值、斜率、速率常数...- 应附加置信区间。

一个P值检验一个零假设,且在开始时可能会很难理解。
P值逻辑起初似乎很奇怪。检验两组是否不同时(不同平均值,不同比例等),首先假设这两个群体实际上相同。称之为“零假设”。然后询问:如果零假设为真,则随机获抽样本之间的差异与实际观察到的差异一样大(甚至更大)的可能性是多少?如果P值很大,则您的数据与零假设一致。如果P值很小,只有很小的可能性,则随机机会产生的差异与实际观察到的差异一样大。这使您质疑零假设是否正确。如果您不能确定零假设,您就不能解读P值。

“统计学显著性”并不意味影响很大或在科学上很重要。
如果P值小于0.05(一个任意的、但广泛接受的阈值),则认为结果具有统计学显著性。该短语听起来很明确。但这意味着,这仅仅是偶然,在不到5%的时间,发生您观察到的差异(或联系或相关..)(或更大的差异)。就是这样。一个在科学上或临床上不重要的微小影响可能具有统计学显著性(尤其是在大样本量中)。该结论也可能错误,因为您会得出一个结论,结果在5%的时间具有统计学显著性,这仅仅是偶然。

“无显著性差异”并不意味着没有效果、效果很小或与科学无关。
如果差异无统计学显著性,则可得出结论:观察到的结果并非与零假设不一致。注意双重否定。您不能得出零假设为真的结论。很有可能是零假设错误,且群体之间确实存在差异。对于小样本量而言,这尤其是一个问题。您需要根据该结果作出决定时,将一个结果定义为具有统计学显著性或不具有统计学显著性是有意义的做法。否则,统计学显著性的概念对于数据分析没有什么帮助。

多重比较使得难以解读统计结果。
在一次检验许多假设时,多重比较的问题使其结果变得具有欺骗性。如果有5%的检验“具有统计学显著性”,且如果检验了许多假设,则可能就会期望得到许多具有统计学显著性的结果。可使用特殊的方法来减少该问题,即,发现假的但具有统计学显著性的结果,但这些方法也使得发现真实的效果变得更加困难。多重比较可能非常难以实施。仅当所有分析均计划妥善,且执行并报告所有计划妥善的分析均时,才可能正确解读统计分析。然而,这些简单的规则遭到广泛地破坏。

相关性并不意味着因果关系。
两个变量之间具有统计学显著性的相关性或关联可能表明一个变量会受到另一个变量的影响。但这可能只是意味着两者均受到第三个变量的影响。或者这可能是一个巧合。

发表的统计数据往往均为积极结果。
当您在读一篇论文的时候,就已经产生大量选择。当试验成功时,科学家继续该项目。许多其他项目被放弃。项目完成后,科学家更有可能写出产生显著结果的项目,或者继续以各种方式分析数据,从而得出“具有统计学显著性”的结论。最后,期刊更有可能会发表“积极”研究。如果零假设为真,则您可能会期望在5%试验中得到具有统计学显著性的结果。但这5%试验比其他95%试验更有可能被发表。

最后修改:2024 年 05 月 07 日
如果觉得我的文章对你有用,请随意赞赏