?数据与大数据

添加时间：17-11-09 添加人：点击：

　　技术进步，主要是计算机、网络和各种类型的传感器以及云技术、分布式计算与存储等海量存储技术的广泛应用和运算能力极速进步，使得数据概念被大数据概念取代。数据量增加速度之快，大致可以这样描述：最近两年生成的数据量，相当于此前一切时代人类所生产的数据量的总和。

　　大数据指的是所涉及的数据量规模巨大到无法通过人工，在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。大数据的特征，除了巨大、快速、多样多变之外，没有其他。因此，大数据本质上还是数据。

　　在大数据的上述特征中，其多样多变性值得特别关注。它表现为所生成数据格式的多样，如文字、图片、视频等各有多种不同的格式，取决于生成数据的技术与设备，却反映出数据生产的时代性以及数据处理的能力与条件，也反映出被描摹自然和社会的多姿多彩。另外，随着技术发展和数据量急剧增长，新的数据格式还会层出不穷，多变和多样特征更加突出。

　　大数据既是一个技术概念，又是一个商业概念，它的出现，有其特定背景，即it领域的商业和渲染新技术的考量。大数据包揽了人类获取数据的所有途径，提示哲学研究一个全新时代的到来，这个时代的先声，很久远之前就已经响起，那时，它仅仅被称作数据。在我们的讨论中，主要考虑数据与哲学的关联。

　　数据与认识

　　这里的认识，指的是人的认识，是人对外部世界的认识。

　　大数据的出现和引起关注，使得一个事实得到确认，这就是，数据覆盖了人类对于外部世界的感知。感官及其所获得的经验退居到显示屏之后，退居到各种类型的技术装置之后，这些装置将自然和外部世界的映像“转译”成人类感官可以接受的图像、声音甚至触觉和嗅觉味觉。这既是技术发展的必然，又是始料未及的情况。如果说，此前，哲学还试图在技术系统生成的数据之外寻找世界的直观映像，到了大数据时代，这种人类的直接感知即使没有被完全取代，也失去了其传统意义上的优势。一言以蔽之，哲学，需要从数据中寻求对世界的认识，舍此即失去认识的来源。

　　这似乎是一个惊人的变故，其实不然。在影响人类认识的议题上，大数据带来的变化，只是数量和范围上的，并非根本意义上的改变。事实上，回顾历史，我们发现，我们的对外部世界的感知，从来都是依赖于某些技术装置的，也就是说，人的认识，其实是通过数据获得的。

　　最早的技术装置，可能是直尺，它用于测量长度，例如田亩;更早的述说技术装备，也许是绳结，它用来述说一件重要的事件。在我国，从河北泥河湾先民打造石器，到安阳殷墟龟甲上刻画的文字，都可以看作是某种“数据”，表达着人类对外部世界的某种认知。而面对着所有这些早期的承载数据的技术装备，人们获得对外部世界的某种最早的抽象认识。古代人先后发明过算筹、斗和称、漏刻、浑象仪、量角器等等，无不是用来产生认知外部世界的数据，人们也发明笔、纸张、雕版印刷术，也是用来记录和生产数据。依托所有这些，数据成为人们认识的依据，思考的源泉，表达的工具。

　　近代以来，西方的技术和科学异军突起，望远镜、显微镜、六分仪、光谱仪、质谱仪乃至加速器、射电望远镜相继出现，成为人类认识外部世界的有力工具。这些技术装备产生的数据成为近现代思想的新的依托。到了当代，伴随着电子计算机的强大数据处理能力的出现，各种延伸和阔展人类感官感知能力的器皿设备层出不穷，终于完全或接近于完全取代人类对外部世界的直接感知，通过把数据呈现给人类，成为人类认识的来源。这就是大数据的时代。

　　关键点在于，我们所知的世界，全部是数据表达的，其中一部分获得理解和解释，更多的只是数据，没有得到解释甚至没有得到关注，它只是像自在自然那样在那里，等待人们去搜索发现它，解释它，运用它。

　　数据与本体

　　根据上述认识，似乎可以通过观察数据的形成和生产，来理解哲学与科学的在解释客观自然议题上彼此消长。

　　在近代科学初兴时期，它并没有从传统哲学中分离出来，它被冠之以自然哲学。与之相并行不悖的，有哲学本体论和形而上学。后两者都是试图以某些观念描述和解释外部自然，寻求事物的本质，并在哲学领域合法存在。伽利略、牛顿等人推崇的使用先进观测和实验手段观察与调控自然，用数学述说自然过程。当这一切成为风气之后，哲学本体论逐渐衰退，哲学似乎放弃了对客观世界的描蓦和解释，让位于自然科学。

　　最后一位试图运用科学数据来解释自然的哲学家是康德，他研习了牛顿的运动力学和天体力学，提出宇宙演化学说。然而，拉普拉斯在康德基础上，用物理理论和数学表述了星云说，在无限时空中的恒星和星系演化学说。拉普拉斯之后，科学之描摹自然优越于传统哲学得到公认。

　　一般认为，在经典科学时代，哲学与科学在描摹自然方面的差异，在于是否运用数据和使用数学方法。今天我们发现，这并非全部问题所在。经典时代，直至大数据崛起的今天，自然科学的确在使用各种技术装备获得的数据方面占据优势地位，哲学则固守传统的概念分析和一般推理方法，这还是指的好的哲学。这与其说是哲学落后于科学，勿宁说人类获得数据的能力尚有不逮，给传统哲学留有施展余地。

　　大数据的出现，包围了人类认知世界的所有方面，情况发生变化。在科学界开始讨论并实施“计算一切”的时候，同时也给哲学重新回到讨论本体打开方便之门。这里发生的变化是，数据成为认知的源泉，思维的质料;我们对世界的解释转变为对数据的解读，舍此无他。大数据的出现，使得我们发现，我们所知的称作外部世界的东西，是通过数据来呈现的，当我们寻求世界的本质和意义时，我们实际上是在数据中徜徉;当我们觉得有所发现有所体悟时，实际上是自觉找到了一些数据之间的关联。

　　数据的物理学气质

　　所谓物理学气质，指的是思考事物的本质，从原理层面上对事物的本质进行探究，揭示出事物的基本规律。当前备受热议的数据和大数据是否具有揭示事物基本规律的功能，可能还有待于观察，但是，数据，就其现象而言，似乎已经展示出某种物理学气质，考察这一特性，既有利于认识数据的本质，也有利于深化对物理学的认识。

　　这里所说的物理学，主要指的是量子力学。

　　众所周知，量子力学无论在理论上还是在应用上都获得巨大成功，在场论、粒子物理和天体物理学研究上都扮演者基础角色，在固体物理、半导体物理以及超导物理等应用学科上都有极出色表现。量子力学与哲学的联系，比其他任何自然科学领域都要来得紧密，其中最重要的就是认识论问题。

　　量子力学发现，建立在测不准关系基础上的认识，受到基本物理原理的限制，客观世界原则上不可能真正被观察到，我们只能根据物理测量结果认识世界。而测量本身形成对客观世界的干扰，导致无法真正认清它的本来面目。所以，我们对于世界的认识，唯一来源就是测量的结果，即所谓经验。

　　量子力学的这一认识原则引发将近一百年的讨论，至今未能平息。

　　尼尔斯·玻尔认为我们必须接受量子力学给出的认识原则，承认和接受自然作出的安排，量子力学已经很好地描绘了自然;爱因斯坦则不愿接受玻尔的“绥靖哲学”，他觉得一定是量子力学本身的不完备造成，人对自然的认识应该是能够穷尽的，不可能也不应该像量子力学所描绘的那样。

　　当我们回顾前述数据与大数据的认识论与本体论含义时，就明白，一直以来有关量子力学问题的争论，本质上就是对于数据的意义的争论。显然，爱因斯坦不愿意接受数据给出的结果，以及对于数据的解释，而玻尔则认为数据揭示的自然正是自然本体，无论我们是不是喜欢它。

　　有趣的是，人们一直在争论量子力学的测量问题，此前却几乎从来没有人意识到测量的结果本身就是数据，而数据已经成为事实上的认识来源。离开数据，我们对于世界一无所知。

　　在这个大数据时代，当我们认识到，数据正是我们认识世界的源泉，所谓世界其实就是数据构成的，我们也会看到数据本身所具有的物理学气质，正像量子力学所强调的那样，世界隐藏在经验表象背后，我们所能谈论的，只是经验本身。

2016年9月份，彭博社做了一份按市值来的公司排名，市值最高的五家公司已经全都变成了IT公司：苹果以5710亿美元的市值高居榜首，之后依次是Alphabet（谷歌）和微软，市值分别为5400亿美元和4410亿美元。亚马逊（Amazon）以3640亿美元的市值紧随其后，第五位为Facebook，市值为3570亿美元。

在中国，如果说过去15年里最为成功的企业，那显然是BAT，截至2017年9月27日，百度市值为783亿美元，阿里巴巴3927亿美元，腾讯2.96兆港元。

显然，这是过去三十几年里范式转移的结果，IT和互联网行业巨头崛起，深刻改变了人们从购物到沟通，从出行到饮食等诸多方面。

让人很难想象的是，过去我们从农业到工业、从工业到IT互联网每次变化的时间跨度都是数十年甚至上百年，但在互联网之后，我们几乎还没有喘息，AI（人工智能）就接踵而来。AI与互联网不同，很可能带给我们一场更为持久且深刻的变革。

AI=超级自动化

要想看清AI对商业的冲击，首先要对AI的含义进行界定。若要想对AI的含义进行界定，那就一定要把AI和这次以深度学习为代表的技术突破区隔开来，而更多地去关注它究竟会带来什么。

有这样的视角切换后，我们就会发现对AI最好的描述是：AI是一场更为彻底的自动化，其落地过程就是一个世界实现超级自动化的过程。

从这个角度看，人工智能并不开始于这次深度学习的进展，而是开始于软件编程，其历史长度与IT行业相同。

此前的软件编程同现在的AI，核心差异只是一般软件的智能非常初级，只能处理预先定义好的事情，而现在的人工智能则能进行推理，进而能够处理并没有在程序中预先清晰定义的事情。

这种差异就好比是：传统的软件可以让高铁在固定的轨道上，按特定的速度从北京行驶到上海，但这一次AI挑战的则是没有轨道，不限定具体的A点和B点及车况，让汽车总是能从A行驶到B。

而之所以把这一过程定义为超级自动化，核心原因在于，泛化的自动处理不只发生在物理世界也发生在数字世界之中，并且很多时候需要打穿两者才能达成最终目的。正因为这点，AI的核心特征与互联网不同，影响范围也不同。

AI的典型特征是软硬融合，很大一部分AI应用实际上是要和物理进行结合的，这与互联网有巨大差异。

互联网更多被局限在虚拟世界里，处理的是某种终端所生成的信息，即使到后期的O2O等，更多的也只是导入了位置信息，并不强调终端与物理世界的互动。但AI则要求这种与物理的结合更为紧密。

不管是智能音箱，还是VR/AR，乃至于自动驾驶，它们都需要导入更多的物理成分，比如声学、光学、雷达等。抽象来看，这些产品上总是先形成一个与感知反馈相关的智能层，这一层负责连接物理世界和数字世界，然后才是由互联网沿袭下来的基于数据的各种智能。也正因为这一层的存在，AI才是与互联网、IoT（物联网）完全不同的概念。

1984年创立的军事刊物简氏防务周刊此前作了这样一则报道：

俄军在某次反恐战争中投入了五类机器人：六部履带式战斗机器人、四部轮式战斗机器人、一个自行火炮群、数架无人机、一套指控系统。所有上述战斗机器人都与前线的指控系统相连接，并通过这个系统直接受莫斯科国家防务指挥中心指挥。

显然这是典型的AI应用（但肯定不能说这是互联网或者IoT的应用），这种应用和互联网里面的强调连接以及信息整合有着本质差别——它不只要进行信息的传输和处理，还要根据前线的具体状况在物理空间进行具体的战斗。

虽然AI的应用可以只是停留在数字世界，比如说可以作为大数据的延伸应用到金融、医疗领域，但AI最大的不同就在于它可以走出数字空间，让物理世界发生巨大变化，潜在的这种变化远比O2O、“互联网+”所能带来的更大。

如果AI是一场会同时影响数字世界和物理世界的超级自动化，那这会对现有经济体系形成怎么样的冲击？

大部分人会失去经济价值

有一件事是百分百确定的：AI会取代现有经济体系下可见的各种职位。

职位本身越容易清晰定义，那取代的就会越快。如果一个职位人可以做，AI也可以做，从性价比最优的角度看，这类职位最终一定会替换成AI。竞争越激烈，企业的压力越大，这种替换发生的速度就会越快。从结果来看，我们一定会迎来一个只有少部分人工作就可以创造更大经济价值的经济体系。

按照AI其实是编程的延续这一视角来看，这种趋势事实上并非是未来才会出现，而是已经发生相当长的时间，只不过人工智能让潜在的趋势凸显得更加鲜明。

比如说：钢铁企业往往会有数十万人，而互联网公司只用四五万人，就可以支撑几十倍的销售额和利润，电商平台所优化掉的传统渠道人数，也一定比电商平台自身雇佣的人数要多。

总结来看，我们会迎来这样一种状态：一部分人的空余时间越来越多，但很难创造社会财富；一部分人则越来越忙，负责支撑起巨大的经济体系。

这种区隔很可能会彻底分离两类人群，在过去，即使是在大型制造工厂里工人和CEO也是通过某种层级关联在一起的。而上述状态下，大部分人很可能和既有经济体系是隔离的，和经济体系里的人也是隔离的。

那么在一个“人”会逐渐失去经济价值的趋势下，商业模式会发生何种变化？

AI下的商业模式

信息通信技术曾经带来多次商业模式变迁。

在芯片主导的硬件时代，商业模式最为简单，就是单纯地卖货并追求毛利率；以微软Windows为代表的授权模式，对这种卖货模式稍有修正，销售的同时还要达到培育生态的目的，但本质变化不大，还是卖货赚钱模式。

到了互联网时代，互联网的后端变现模式则对此形成根本性颠覆。互联网模式下，前端的量越多，后端变现的通路就越通畅，本质上和追求毛利率授权费的模式有冲突。对于互联网模式而言，追求毛利率和要求授权费是增加收入的阻碍，所以才会有硬件免费这类极端的主张。此后出现的云服务则是比较典型的出租模式。

在通往人工智能的路上主流的商业模式很有可能变成下面两个：

一是出租模式。随着智能程度的上升，设备的精密程度也会上升，但人们的收入水平却只可能平缓增长，甚至下降。唯一的解决方法只能是出租，按使用计费。

如果真有机器人，那大部分人并不会拥有一台机器人，而只是会按需进行租用。具体谁负责运营这样一种复杂的租赁系统，既可能是滴滴、神州专车这样的专门运营平台，也可能是奔驰宝马这样的生产企业直接运营。

这种模式下胜出的公司需要同时具备互联网和硬件基因，国外有此属性的公司是苹果和亚马逊，国内则是小米。

另一个则是后端收费的模式。彼时人们拥有更多的闲暇时间，但经济上的自由程度却未必就提高，因此，很可能游戏、文娱、VR/AR这类消耗大量时间的产品会获得空前发展。

不少人打游戏之初，往往并不是因为游戏好玩，而是因为无聊，一旦沉迷，游戏本身就会变成一种驱动力。只要人们的空闲时间增加，并且没办法在物理世界释放，那数字世界里的消费内容就只可能越来越繁荣，也许是游戏、直播或者其他。

在这种模式下胜出的，一般都是像是腾讯这类有社交网络，并且拥有丰富后端内容的公司。

无论是哪种模式，有一点是高度一致的：未来的商业必然会越来越中心化。前一种也许会按品类（比如汽车、机器人、AR等）催生不同的巨头，后一种也许会强化现有互联网巨头的统治性地位。

从更长远的维度来看，人工智能甚至有可能吞噬掉现有的整个商业体系。

当它取代一切现有经济体系中的职位时，那在现有的经济体系下总的供给会极大，但总的需求会极小。此时经济体系不能完成自救，必须导入其他维度力量（比如政府的力量等）的干预和再平衡才可能突破自己完成自救。

这种转变无疑是一个痛苦且漫长的过程，我们也许会像过去那样经历新的经济危机，每次危机都会成为变革的导火索。至于这种变革最终会以何种形式发生，眼下我们还很难清楚预测。

网景创始人马克·安德森曾经专门写过一篇文章《软件正在吞噬世界》，来描述软件以及互联网对传统商业的冲击。而软件所能吞噬的，相比于AI还只是很小一部分。

传统软件和互联网已经达成的对传统商业世界的冲击，对于AI来说，更像是一种前奏。我们未来所要面对的变化，很可能是已经发生变化的十倍百倍。那时候的世界将与今日截然不同。