在《大数据:正在到来的数据革命》一书中,作者徐子沛直言不讳地指出,中国人缺乏尊重数据的传统,数据普遍缺乏公信力。
无疑,在数据收集、使用和管理的各个方面,中国社会依然存在较为明显的差距。但徐子沛发现,最大的差距还是意识和态度。正如他所指出的:我们的传统文化,长期重定性、轻定量;重观点、轻数据。
这不能不说是个富有价值的洞见。在我们的现实生活中,数据往往成为一个任人打扮的小姑娘,得不到应有的尊重,数据的公信力严重不足。但正在到来的大数据时代,数据的作用将前所未有地凸显,数据将成为国家竞争的前沿、企业创新的来源。这些传统和现实的不足,是中国社会迈进大数据时代的制约和障碍,我们应该如何应对?
发布数据是一件很严肃的工作,徐子沛在书中曾提到,2000 年美国国会甚至专门通过了《数据质量法》来确保政府发布数据的质量。这部法律规定政府发布数据的产生方法必须是透明的,要说清楚数据怎么来的,每一个数据都要有“出生证”。美国的这些经验值得借鉴。
相比之下,为什么中国社会利用数据弄虚作假的情况如此常见?
徐子沛将其总结为几个方面:一是一叶障目,片面解释一个数据,这其中也可能是别有用心、故意为之;二是人为的控制数据的收集和统计过程,使结果产生扭曲和偏差;三是暗箱操作、修改数据;最后就是无中生有、“创造”数据,这是最糟糕的,因为假数据比没数据对社会的危害还要大。
我们的社会想要达成信息公开的共识,仍有很长的路要走。
目前,数据开放已经形成了一股潮流。在各个国家数据开放的实践中,基本形成了两个界限,第一就是不危及国家安全,第二是不能侵犯公民隐私。当然,对商业组织来说,还要顾及它的商业利益。徐子沛的观点是:在这几个界限之外的数据,都应该开放,而且是免费开放。其中的道理也很简单:政府收集了数据,用的是纳税人的钱、收集的也是关于纳税人的数据,自然要向纳税人开放。英国社会的步子迈得比美国还大,一个新的名词“公民数据权”也应运而生。除了公共领域,数据开放在在商业领域也是大势所趋,各种各样的商业数据正在走向开放。
那么,大数据时代就没有其潜在弊端吗?
当然不是。徐子沛的下一本书就会讨论,一个信息开放的社会可能会给不理性的人带来问题,导致他“信息过度窄化”。例如,信息开放的时候,一个偏激的人更容易找到同类,然后放大异常,会变得更加偏激;而在一个信息流动没那么快、相对封闭的时代,偏激的人像是一个“孤岛”,他更有可能会怀疑自己。仔细观察信息时代中的人的境况,你会发现知识水平越高的人往往越顽固,这是因为他更知道怎么去获得支持自己的信息、形成自己的气场……