发现错误的心理学论文 - 新闻 - 科学网
当荷兰的研究人员开发了一个开放源代码算法来标记心理学文章中的统计错误时,科学界反应不一,尤其是在免费工具阅读了数以万计的论文之后,结果在网上公布之后。许多人质疑这种算法的准确性,称为statcheck,或者认为它是科学界的公开侮辱。
但事实上,statcheck的开发者最近在预印本服务器PsyArXiv上发表的一项研究中声称,该算法可以在超过95%的情况下得到正确的结果,一些外界人士同意这一点,并呼吁将其作为例程使用。格罗宁根大学心理测量学的科学家卡斯珀·阿尔伯斯(Casper Albers)说,但是,其他人还没有确信。
Statcheck是由蒂尔堡大学方法学家MichèneNüijten和阿姆斯特丹大学心理测量学家Sacha Epskamp于2015年开发的。它可以搜索散文数据发布在美国心理学会(APA)规定的标准格式,并用它们来计算有争议的p值,但广泛用于衡量统计显着性。如果计算的p值与研究者报告的不同,则该工具将标记为不一致;如果报告的p值低于通常的0.05阈值,并且statcheck没有得到数据,反之亦然,它会标记为非常不一致,并可能对文章的结论提出质疑。错误的p值越来越被视为心理学上的一个大问题。 Nuijten认为大多数错误来自人类,但statcheck无法区分不当行为和无意识错误。
在2015年的一项研究中,Nuijten和他的同事使用statcheck阅读了3万多份心理学论文,发现一半的论文中至少有一个数据不一致,八分之一的论文极不一致。去年,蒂尔堡大学的Nurtten同事Chris Hartgerink使用statcheck分析了来自超过50,000种心理学研究的近700,000项结果,并自动发布在同行评议的同行评审的PubPeer上,同时,作者电子邮件收到了通知,一些研究人员对这个反馈表示欢迎,但是德国心理协会(DGP)说,这个声明引发了不必要的声誉损失,普林斯顿大学心理学家,心理学会前主席苏珊·菲斯克(Susan Fiske)骚扰,一项类似的研究只进行一次,从那以后,研究人员并没有公开使用statcheck来阅读这篇论文。
Statcheck是否公平取决于其准确性。如果事实证明,在99%的情况下,自动检查是准确的,这是非常好的,如果准确率只有90%,我将会对现有的程序非常不满意,牛津大学发展神经心理学家多萝西·毕晓普(Dorothy Bishop)在网站上说“退出评论”。
在最近发表的论文中,研究人员使用statcheck分析了49篇文章。在2011年的一篇论文中,Nuijten的同事们手动验证了这些文章中统计学的不一致性,发现算法的真正阳性率在85.3%到100%之间,真实阴性率在96%到100%之间。总体而言,这些数据意味着statcheck从提取的结果中获得了正确的答案,为96.2%至99.9%。
研究人员还试图解决另一个批评:当研究人员对数据应用合理的统计修正时,statcheck经常出错。研究人员通过查找特定的关键字发现,这种修正比以前在本文中估计的更为普遍。同时,数据的修正不是不一致的主要来源。
凯泽斯劳滕大学的实验心理学家托马斯·施密特(Thomas Schmidt)非常谨慎。在最近的PsyArXiv评论中,他指出,由于statcheck只适用于APA类型的报告,所以该算法仅计算61%统计测试中的p值。根据施密特的计算,statcheck的敏感性很差,只有52%。它不能被普遍接受为研究工具,当然也不能用于大量文件的纯自动扫描。在这方面,Nuijten说他的团队从来没有声称statcheck会处理所有报告的统计数据,最新的研究集中在验证算法在处理它所识别的数据时表现如何。
DGP秘书MarioGollwitzer,马尔堡大学的心理学家,现在相信这个算法。他认为,虽然论文不应该仅仅依靠statcheck的结果来解决,但我们认为作者应该使用算法来扫描论文,然后才能将论文提交给杂志。
有些人已经做到了。 Nuijten表示,自开发者2016年9月发布statcheck作为一个web应用程序以来,已有18,000多名访问者获得了该应用程序。 statcheck可以非常快速地检查大量统计信息,并确定可能的数据子集。弗吉尼亚开放科学中心执行主任Brian Nosek表示,这是一个巨大的效率提升。
许多新的心理学期刊都将statcheck作为其同行评审过程的一部分。 Nuijten设想将算法扩展到其他学科,如生物医学科学。 Statcheck并不完美。它的开发者自豪地说,但它非常接近完美。 (宗华编)
阅读更多
科学报告(英文)