数据畸形与数理模型 - 从高考作文题目说起

-回复 -浏览
楼主 2018-11-07 16:31:16
举报 只看此人 收藏本贴 楼主

2018年高考作文题目之一是我们耳熟能详的“二战期间战斗机防护”故事。这是典型的“幸存者偏差”案例,我称之为“数据畸形”:当样本数据有系统性偏差时,依据样本数据所做的模型和分析都不可信。


这里引申开来,有几点思考:

  1. 工业大数据中,大量的数据是近似或重复的,而且越是高水平的生产,数据的重复就越明显。即便数据稍有起伏,其变动趋势可能也被掩盖在噪音之中。换句话说,数据中的信息含量较低。

            在大生产中,只有异常情况的数据才有更大的信息价值,但是异常数据通常不多,其来源也需要仔细甄别界定。这就需要我们在进行数据分析时,特别关注对异常数据的处理和分析。

  2. 在这个故事中,瓦尔德指出应当在弹孔少甚至没有弹孔的引擎处增加防护装甲,逻辑是,这样的飞机早就坠毁了,并没有被空军的“大数据”所涵盖。

            瓦尔德的做法,其实是兼顾了或者整合了“理论模型”与“大数据模型”(姑且称之为“数理模型” - 数据+理论的融合模型)。我不认为他有坠毁飞机的真实数据,所以,他所声称的1)飞机各部位中弹的概率是一样的;2)“引擎中弹”数据因“幸存者偏差”而被掩盖,其实是没有根据的。在这里,他完全从理论模型出发,构建了“均匀中弹”这个假设,然后依据返航飞机“引擎中弹”数量少这个现象,得出结论“引擎中弹的飞机基本都坠毁了”。在最后,他的结论就是“引擎中弹更加致命”,这个结论与常识不相违背,因此,他的分析大功告成,可以收工了。

            但是,这并不是一个100%严谨的科学分析,只能称之为“常识性推导”。当然,“常识性推导”的不严谨,并不一定就是错误,在很多情况下,反而更加简单有效。


因此,在大生产中,理论模型是有用的,甚至是必须的;建立融合的“数理模型”是最好的方式。

我要推荐
转发到

友情链接