《统计信仰》：优先限定犯第一类错误的概率，这想法太妙了！

最近在抽空读徐鸿鹄老师新书《统计信仰》，写一写读书笔记。

===

在算法领域的NFL重要原则：脱离具体问题或场景，空谈哪种算法更好毫无意义。

1912年Fisher正式提出极大似然估计。如何理解极大似然估计，《统计信仰》给出一个案例：假设有一枚图钉，设p为随机投掷后图钉尖朝上的概率，现求p。现投掷5次，尖朝上的结果为上、下、上、上、下。在实验互不影响的前提下，尖朝上顺序出现的概率y可以写成y=p^3(1-p)^2。这个方程被称作似然函数，画出它的图像，能够轻易捕捉到似然函数有一个局部极大值点。通过数值求解可知，当p=0.6时，似然函数取到局部极大值。

图：知乎星影

这种将p的估计值设定为一个值，使得y到局部极大值的基本思想就是极大似然估计。
===

大样本和小样本的差别本质不在于样本量的大小，而在于样本量N是趋于无穷大，还是固定在某个值上。

在专著《The Design of Experiments》中，Fisher第一次提出显著性检验的概念。到1928年，J.Neyman和E.S.Pearson完善了显著性检验，完整提出建设检验，也被称为Neyman-Pearson理论（N-P理论）。

犯第一类错误和第二类错误之间是此消彼长的关系，必须作出取舍。最佳选择应使得两者之间达到最佳平滑。最普遍的做法是将犯第一类错误的概率限定在常用显著性水平α上，比如0.05，以此来优先保证犯第一类错误的概率很低。

N-P理论有一个原则：要求优先限定犯第一类错误的概率，在这个基础上，使得犯第二类错误的概率尽可能小。举例：带上一把无用的雨伞在外面溜达总好过在倾盆大雨里狂奔。

优先限定犯第一类错误的概率是一个更加理性的选择。

===

我们经常要求p值小于0.05，就是为了把犯第一类错误的概率控制0.05之内。

对于原假设H0来说，如果结果显著，结论就可以被推翻；如果结果不显著，得到的最好结论就只是“无法推翻原假设”，而不是“接受原假设”，无法推翻与接受是两个不同的概念。对H0就两个结论，要么直接被否定，要么证据不足无法否定它。

===

棣莫弗第一个推导出正态分布的概率密度函数，拉普拉斯则在《分析概率论》中进行了拓展，并最终建立了中心极限定理的一般形式。但注意，18世纪出现的正态分布最终被冠以19世纪才出生的高斯的名号。

根据中心极限定理，随机误差服从正态分布。高斯分布成为统计系核心理论。

===

样本x作为随机变量，有自己的概率分布，叫做样本分布，比如泊松分布、正态分布；样本抽样后的统计量作为样本的已知函数，也有自己的概率分布，即统计量的概率分布，它不同于样本分布，叫做抽样分布，比如卡方分布，t分布，F分布。

===

一般线性模型统一了定量和分类的自变量，但因变量却还只是连续型的。统计学家无法容忍这瑕疵，所以尝试继续泛化，于是诞生了广义线性模型。

广义线性模型的作用其实就是处理回归问题。

===

频率观点通常包括连续性假设，连续性假设意味着一切规律都能稳定和永久地运行，不会有意外事件发生打破这个规则。

但实际上，没有严格一致的平行宇宙供人们一次又一次得展开相同的实验，因此很难研究其客观规律。

在频率派学者看来，频率是观察到的历史情况，概率是要建立的模型。单纯对频率的信仰并不能帮助我们选择合适的算法来解决实际问题。

以上文字均来自：徐鸿鹄《统计信仰》。

本文不标记原创，如有侵犯知识，请告知删除。

===

我的其他读书笔记：

统计信仰：在成为博学者的路径上，学习统计学是必由之路！

动动你的小手，关注我的公众号：

目前我在微信公众号、知乎、博客上持续发布统计分析文章，读者可以从搜索引擎找到我，也欢迎直接订阅关注我的公众号。

SPSS统计咨询公众号

↑↑↑专门解决SPSS数据分析难题，已发布《学不会SPSS就来答疑突破》《问卷分析三剑客》等畅销视频教程。作者数据小兵，欢迎关注，一起学用SPSS。

数据小兵公众号

数据小兵，统计学知识博主，长期从事统计软件应用研究与数据分析工作。

JASP统计分析公众号

探索和使用免费开放的全新统计软件JASP，主理人数据小兵。