投资笔记
观察、思考、记录
这是第篇原创文章
上一期提到,作者认为大数据模型与传统模型最大的区别在于,传统模型通常都有一个“理论抽象”过程,或者在建模的时候,对于每一步计算以及参数的引用都有一个解释。但是大数据模型则是直接“从数据中来”,更多体现为“经验模型”。说到经验模型,不得不提到“统计模型”。统计模型是以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。1.大数据模型与统计模型的区别乍一听起来,统计模型跟大数据模型是不是非常像?但是作者认为,统计模型跟大数据模型存在本质不同。大数据分析作为一个多学科交叉的领域,涉及数据库、统计学、机器学习等领域,从模型方法的角度来看,其中最为相近的是统计学,但模型的近似不能掩盖本质的区别。其中最具代表性的差异在于数据模型采用了“数据挖掘”这一方法。作者指出,尽管数据挖掘涉及一定的统计基础,但数据挖掘与统计建模还是有本质区别。首先,科学研究中的地位不同。统计建模经常是经验研究和理论研究的配角和检验者;而在大数据的科学研究中,数据模型就是主角,其承担了科学理论的角色。其次,数据类型不同。统计建模的数据通常是精心设计的实验数据,具有较高的质量;而大数据中则是海量数据,往往类型繁多,质量较低。再次,确立模型的过程不同。统计建模的模型是根据研究问题而确定的,目标变量预先已经确定好;大数据中的模型则是通过海量数据确定的,且部分情况下目标变量并不明确。最后,建模驱动不同。统计建模是验证驱动,强调的是先有设计再通过数据验证设计模型的合理性;而大数据模型是数据驱动,强调的是建模过程及模型的可更新性。由此可见,尽管大数据与统计建模均是从数据中获取模型,但两者具有很大的区别,大数据带来的是一种新的模型方法,大数据中的模型是数据驱动的经验模型。2.解释力的区别作者的说法太抽象了,我举个公鸡打鸣的例子。假设统计学家发现公鸡这个现象,首先会对真实数据做统计,比如当公鸡打鸣时,太阳会升起,相关度是%。这个时候,为了进一步了解公鸡打鸣跟太阳升起的关系,统计学家会引入各种“控制”。比如弄个灯泡假装是太阳,看公鸡会不会叫;或者在半夜想办法让公鸡叫,看能不能让太阳提前升起。最后通过各种花里胡哨的变量控制,会发现太阳升起能导致公鸡打鸣,但公鸡打鸣不能导致太阳升起。人类通过统计学实验,是可以想办法解释现实的。但是大数据是纯粹的经验模型,而且是从现实数据中涌现的,其中不存在解释,也不存在控制。比如公鸡打鸣这件事,通过大数据分析所得出的结论是,自然状态下公鸡打鸣与太阳升起将同时发生。人类可以根据这个大数据结果,通过观察公鸡行为判断太阳是否升起,也可以通过观察太阳升起,来判断公鸡是否会打鸣。在这个例子里,利用大数据模型确实可以只观察其中一个变量就能推测出另一个变量的状态,但大数据模型不会告诉你太阳为什么升起,公鸡为什么打鸣。以上这就是大数据模型与统计模型的根本区别。3.每日数据神猫小钱钱