首页 > 文章详情

【GCP学习笔记】医生们必须知道的临床研究样本量计算及考量要点

2022年06月27日

整理：研值圈

来源：研值圈

当有一个不透明玻璃瓶中装有10,000个红色/蓝色玻璃球，想知道瓶中红球的比例，应抽取多少样本量呢？抽10次、100次、1,000次，还是抽10,000次？又或者如果全国有10,000个接受X药治疗的肺癌患者，想知道X药治疗肺癌的缓解率，你会调查多少例患者呢？在权衡资源可获得的情况下，如何以最小的资源消耗获得研究结果的可靠性呢？这便涉及样本量的估算。本文就临床研究中样本量的计算及其考量要点进行整理，以飨读者。

摄图网_500583562_wx_医疗科技（企业商用）.jpg

什么是样本量估算？

样本量的计算在临床研究中至关重要，其既是进行统计推断的前提，同时又可避免浪费过多的人力、物力和财力。样本量估算其实就是保证科研结论具有一定可靠性条件下，确定的最少的观察例数。统计中的基本背景便是通过一个证伪的思路去发现数据与真实情况之间出现极端情况的概率。而既然以小的样本对更大范围的总体进行推断，就需允许其有一定犯错的可能。而研究结果的可靠性本质上就是对推断错误的可能性的承担能力。

影响样本量估算的因素

统计推断的基本步骤是建立假设，确定检验水准；计算检验统计量；确定P值；根据结果做出推断结论。如果P≤α，则拒绝H0，接受H1，认为差异有统计学意义；如果P>α，不拒绝H0，认为差异无统计学意义。其间可能产生以下错误：

Ⅰ类错误：假阳性错误，实际无差异；在设定α的检验水准下，通过假设检验P≤α，拒绝了H0。Ⅱ类错误：假阴性错误，实际有差异；在设定α的检验水准下，通过假设检验P>α，不拒绝H0。

在药物审批时，I类错误可导致批准无效药物，而Ⅱ类错误则导致淘汰有效药物。

微信图片_20220627094916.png

检验效能

检验效能即把握度，是指两总体确有差别，按α水准能发现它们有差别的能力，用1-β表示其概率大小。检验效能为0.8时，表示还不错；检验效能为0.9，表示很好。当检验效能为0.5时，这是赌博式，而检验效能<0.5，则可以放弃。

不进行样本量估算，通常无法满足注册要求和伦理审批，同时也会造成资源浪费，并且可靠性不足。

样本量估算的主要考虑

在对样本量进行估算时，需要从以下几方面进行考虑：

（1）研究目的和试验设计：例如是探索性研究还是验证性研究，是有效性评价还是安全性评价；比较的类型是优效、等效抑或是非劣效；设计的类型为平行还是交叉等。

（2）主要终点：指标类型为比率、均值、生存期或是生活质量等；指标参数是预期大小或变异。

（3）统计特征：检验水准α、单/双侧检验、检验效能1-β，检验方法等。

（4）其他因素：如中期分析、组间样本分配，脱落率，入组/随访时间，优效/等效/非劣效界值等。

常见问题及解决方法

（1）凑样本量/沟通障碍——没有数据凑数据：可基于对统计疾病术式改进后复发率的降低程度；若没有针对同一疾病相关术式研究，可找相似疾病，如同器官/系统/机制的数据；对采用过这一新术式的专家进行咨询访谈可获得参数。

（2）研究指标及其效应值：可选择临床意义相近的其他指标结果。对于指标大小的数据来源的可靠性：文献数据>没数凑数>拍脑袋决定的数据。在面对多个文献都有数据，但结果又不尽相同时，可尽量选择设计要素相近的结果，优先使用以国内患者为对象的研究结果和近年来发表的研究结果。

倘若研究创新性太强，无文献又凑不出数，可根据现有信息或理论可能性，通过理论推断得出逻辑上合理的估计值。如果为定性研究，可咨询专家，通过引入更多的决策者来提高拍脑袋定参数的可靠程度。又或者可开展预实验或采用更为灵活的设计类型进行解决。

（3）优效/非劣效界值确定：如果为研究者发起的研究，临床医生通常会选择被一个能够被该专业所接受的有意义的临床界值范围。对于非劣效界值的确定，可参考2020年国家药监局发布的《药物临床试验非劣效设计指导原则》。

小结

1.样本量是保证科研结论具有一定可靠性条件下，确定的最少观察例数，关于研究成功率。

2.科学合理有理有据估计研究效应值是样本量估算准确性的关键所在，必要时开展探索性研究或预实验。

3.临床研究需求恰当地转换为统计检验需求，选择恰当的方法估算样本量需要统计师与医生共同合作。

^{^{（注：本文根据黄慧瑶博士《医生们应该知道的——临床研究样本量计算及考量要点》讲座进行整理，内容未经黄慧瑶博士审核）}}

责任编辑：Mathilda
排版编辑：Mathilda

研值圈Sci Value Hub—为医疗创新贡献价值