移动互联网时代信息技术新趋势

对于金融业,从来都是“信息比知识更重要”。而近20年来,科技的突飞猛进越来越多地体现在对信息的搜集和分享上,而非生产力的直接提升。谷歌实现了信息搜索的最大化,Facebook实现了信息分享的最大化,Twitter以及其他平台都是在这两个方面精细化操作,但就这样也仍然积累了巨大的影响力。这种前所未有的信息爆炸对金融行业来说可谓是“祸兮福之所倚,福兮祸之所伏”。

一方面,信息搜集的便捷给金融分析师、研究员们提供了从前难以想象的操作手段和交易方法。如果没有庞大的数据库支持,几乎所有的现代金融模型都不可能成立,金融行业的规模化也就只能是纸上谈兵。另一方面,信息的迅速传播和共享在成就了金融行业的同时也使市场更为透明有效,市场操纵者因此将很难依靠所谓独家信息获利。因此,在某种程度上,金融市场也因此变得更加公平。

随着云计算、大数据、移动通信和社交网络的发展,彭博的封闭网络模式已不能适应移动互联网时代的投资管理需求,云服务大幅度降低运营成本,数据和新闻不再仅仅由专业机构所垄断,每个人都是信息的消费者和创造者,一个开放、平等、分享、协作的,基于社交网络的投资平台将主导未来的资产管理生态系统。移动互联网时代来临,信息技术发展呈现新的趋势。

云计算

自从进入了21世纪的第二个10年,“云”飘到了各行各业,进入了人们的生活。人们开始使用云、谈论云,云这一概念也越发火热起来。你可能没听说过云主机、云存储等技术术语,但是云通讯录、云笔记、各种应用程序中的云端同步功能已经是大众司空见惯、耳熟能详的名词了。云办公、云销售、云物流、云视频、云通信、云书城、云医疗、云金融、云理财层出不穷,只要跟云搭得上边的,都成了VC竞相追逐的概念。

中国很多企业也都在做云。除互联网公司、电商、电信公司、设备厂等外,大批创业公司和中小公司也进入了这个领域,寻找大公司不曾覆盖的云的夹缝,为整个云业务的生态系统提供补充。

什么是云计算

那么多人在谈云、做云,那么云计算到底是什么呢?

高德纳咨询公司定义云计算是“一种计算类型”,它通过使用互联网技术、虚拟化技术等实现可扩展和弹性的信息技术功能,并以一种“即服务”(as-a-Service, 即aaS) 的形式提供给外部用户。aaS也是从事云计算和服务的行业人士最爱提到的一个词。

怎么理解呢?云计算其实并不是21世纪革命性或颠覆性的伟大发明,云计算所体现的核心理念长久以来一直存在。云计算包括5个关键特征:

第一,资源共享,实现规模效应。

打个比方,学校一般都会有食堂,几个师傅做的大锅饭可以喂饱整个学校的人,而无须为每个学生聘用专门厨师,建设专门厨房和餐厅。食堂的初建成本比单独为一个学生建设厨房要高,但是当学生越来越多,食堂的边际成本越来越低,食堂通过规模化生产降低了运营成本,提高了菜肴质量,也降低了学生的就餐成本。这就是规模效应的魅力,也是学校不会傻到为每个学生设立专属餐厅的原因。

然而,目前在许多行业的信息技术领域,这样的傻事却被许许多多的企业践行着,原因是没有人站出来造食堂。在过去,企业往往自己搭设服务器,建数据中心,开发和购买软件以开展业务。为了保证稳定性和安全性,往往需要付出高额的系统集成、咨询、设备购置的费用。云计算其实类似于食堂模式,通过统一管理的数据中心为企业提供服务,形成规模效应,让企业可以像学生买午餐一样,用较低的成本来获得等同于自建信息技术基础设施而所要得到的信息技术能力。

第二,弹性,随需即用。

云的大小和形状是不定的,云的服务就像云朵那样有弹性,可以随时扩展和缩小。还是拿食堂做例子,每个学生可以一顿吃两个包子,也可以一次打包20个包子。食堂需要确保随时能提供20个包子给要购买的学生,但不必为每个学生都准备20个包子,因为不是每个学生都需要打包20个包子。

云计算就是这种随时可以将服务扩容,具备弹性的信息技术服务。云计算提供商将服务做成类似“包子”这样可以增删的单元,例如虚拟云主机、云存储的存储层、功能的访问次数等,让客户可以弹性地使用云端资源。不断发展的分布式计算、网格计算、虚拟化的技术使得信息技术的底层资源也能够实现动态提供和管理,这些技术的发展和进步是云计算发展的重要动力。

第三,基于服务接口,明确范围且精益求精。

服务提供者需要通过服务接口来约定消费者能够使用的服务,让消费者明确服务的清单和使用方式,服务提供者则可以针对服务进行优化和改进。就是食堂往往提供相对固定的菜单,上面都是一些大众菜肴,大部分都是可以用大锅炒的。学生们都知道食堂能买到什么,买不到什么。比如可以在食堂买到饺子,但是买不到“妈妈包的饺子”。

与此同时,通过开展云计算和服务获得的反馈,服务提供者可以在投入产出配比合理的前提下不断延伸扩展服务范围和品种。食堂师傅能够从全校师生那搜集广泛的意见,增减菜肴并相应改变服务方式,以更好地满足大众的口味和需要。云计算所说的服务,是传统信息技术场景下所要解决的共通的问题和需求,比如基础设施、应用平台、中间件、存储、应用软件等。且由于服务的集中供应,云计算往往能提供相比一般企业自建的信息技术设施更高质量的服务,比如更高水平的服务等级协议,服务响应时间,更高级别的灾备、容错、安全方案等,且能够不断基于客户反馈进行改善,精益求精。

第四,按用量计费,减少资源闲置和浪费。

在传统的信息技术场景中,由企业买断基础设施、运维开发团队、应用平台、软件使用权。在周期性的业务量下降时,往往会发生不必要的设备、服务、人员闲置的情况。而且,旧的设备、技术知识在残酷的信息技术业发展中只能接受被淘汰的命运,一旦投入是很少升值的。对于用户来说,aaS让客户可以随时从云端获得自己所需要的信息技术服务,只需要为自己所消费的部分埋单。这是符合现代经济竞争日益加剧,产业和产品周期急剧缩短的特征的。

第五,使用互联网来交付高可用性的服务,确保即时、高效。

与学校食堂不同的是,食堂只能服务于本校或者附近的人,受空间限制,互联网世界则不同。互联网技术拉近了云计算服务与全世界之间的距离,通过互联网、移动互联网,乃至物联网,云计算服务能够惠及千千万万的企业、客户、个人,从而更加凸显其规模效应。

就像学生无须知道食堂的厨房在哪,企业也无须关心云端服务是从哪里提供服务的。上海用户访问某企业官网,该网站是由在上海的主机来支持的;成都的客户访问同样地址的网站却可能是由在成都的信息技术设施来支持。通过这样的设置,用户可以得到更高速和更流畅的访问体验,企业也只需要购买云端的这种服务而无须关心是如何实现的。在互联网技术实现云计算的同时,云计算提供商凭借其规模效应,能够整合更精英的技术团队和设施,将互联网技术发挥到极致,为广大客户实现附加价值。

云是高高在上的,是互联网把它托上了天,让我们觉得它抬头可见而又遥不可及。谁也不担心哪天云会掉下来,互联网和软硬件技术的发展所带来的高可用性也赋予云更多自信。

而且在互联网上,云平台能够更有效地整合上、下游服务和资源,实现租户之间的互动,打造更具创新性的业务模式、价值链条和生态系统。

云就是以上5个特征的总和。我们可以认为具备以上5个特征的计算服务就是云计算。

此外,云这一概念也常被引申到一些服务行业和移动应用场景的内容、计算能力托管服务和专业服务中。比如“云翻译”可以描述互联网上随时可用的按字数计费的文本翻译服务,用户无须关心为其翻译的是人还是机器,也不用担心翻译的质量,因为这个服务为成千上万人提供翻译,可以交付更专业的翻译质量。其实“云某某”已经无处不在,有兴趣的读者可以依据上面的5个特征判断,看看哪些云是货真价实的,哪些云是挂羊头卖狗肉。

当然,事物在不断发展变化,对一个概念的诠释并非放之古今和四海皆准。这里所描述的云计算,是为了明确本书中对云计算的概念性理解,以便读者能够了解本书中的每个“云”字的本意。

云计算的分类

像天上的云一样,每个人心中的云都是不同形状的,每家企业在追逐的云也都各有特色,飘在不同高度和层次的空中。云计算大致可以分为IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)等不同层面。

与后两者离大众生活更近、更熟悉的特点相比,IaaS主要面向企业客户,让企业,特别是初创型和中小型企业能够节省下机房建设和维护上的高昂成本。IaaS不仅给用户提供一般数据中心所提供的计算资源,还允许用户在部署和运行任意软件(包括操作系统和应用程序)时弹性配给处理、存储、网络和其他基本资源。用户不管理或控制底层的云基础设施,但能控制操作系统、存储和部署的应用程序,并可有限地控制挑选的网络组件(例如主机防火墙)。通过IaaS提供的自服务界面或者API(应用程序编程接口),企业能够在IaaS提供商所提供的基础设施资源池中,搭建出虚拟的数据中心、局域网、各种应用服务器和存储集群,而且随需弹性使用。云计算的先驱之一,亚马逊推出的EC2(弹性计算云)就是IaaS的例子。由于亚马逊的电商特性,为了支持购物高峰,实现交易数据分析,它购置了许多计算资源,雇用了顶尖的互联网和基础设施的人才,使自己具备了提供云计算IaaS服务的先天条件。

PaaS是指在IaaS的基础上将软件所依赖的中间件、存储等,以服务的形式供应,让软件开发者,特别是互联网应用的开发者能够免去基础平台的搭建和维护,而集中精力去做应用功能的创新。其中最典型的是应用平台即服务。PaaS供应商提供应用平台服务,包括网络应用容器、负载均衡、数据库、数据分析工具和分布式存储等。PaaS的用户将使用PaaS所支持的编程语言、库、服务和工具所开发出来的应用程序通过PaaS的自服务界面一键部署到平台上,这些应用程序就可以立刻提供互联网服务。应用程序运行所需要的扩展性、高可用性则由PaaS平台提供。开发者不再控制底层的基础设施,而是使用PaaS提供的监控功能来运维应用。很多网页游戏和手机游戏的开发商都愿意使用PaaS,让团队能够专注于产品本身的快速迭代和改进,因为PaaS提供商已经提供了专业的平台搭建和维护技术服务。

SaaS允许用户通过网络,使用浏览器、客户端,或者从不同的终端设备访问应用程序,而应用程序的大部分的存储和计算放在云端数据中心,用户只要在网上开通服务,就可使用到以往需要在自己的数据中心或者服务器上部署硬件、数据库、网络服务才能使用的应用程序。著名的SaaS服务提供商Salesforce通过在其网站上提供CRM(客户关系管理)SaaS,赢得了大量企业用户。要知道以往想拥有一套CRM软件,每个企业非但自己要有机器,要雇人来开发、安装、部署,还要有尽职的运维团队时刻准备着应对服务宕机、应用程序出错。而Salesforce通过提供SaaS,赢得了企业广大客户的信任,客户和Salesforce都从云计算的规模经济中获得了价值。产品基于广大客户的需求快速迭代进化,也免去了整个CRM行业的大量重复建设,使得客户的CRM系统提供新功能、新特性的周期大大缩短了。

如果看了以上分类还不好理解,那么我们继续拿食堂的例子打比方。

IaaS就好比学校建了厨房、食堂、仓库,然后出租给了餐饮公司。一个食堂可以租给多个餐饮公司,这样学生们就可能在食堂里看到南翔小笼、兰州拉面等不同的店,这些餐饮公司都租用了学校的厨房、水电、仓库以提供服务,不同的小店自行装修,雇会计、服务员、厨师和清扫工,买炊具,做自己的菜,自己算账,但不需要自己建造基础设施。

PaaS就是学校提供了会计、服务员、清扫工、炊具,餐饮公司只要找到自己的厨师和经理,自己装修就能够建成不同风格的小餐馆,并提供风格迥异的餐饮,所以,餐饮公司只需关心餐厅风格和菜品质量。

SaaS更彻底,指的是学校把食堂已经装修成一个个小格子,每个格子都是一个独立的食堂,此时客户就不再是餐饮公司,而是那些需要食堂的公司了。比如周边的公司可以租用其中一个小格子作为自己的食堂,挂上自己的牌子,把自己的菜单给学校,就可以拥有一个属于自己的食堂。SaaS与这里的食堂不同的是,公司员工可能要走上一段距离才能到达公司食堂,但是SaaS的终端客户可以无缝、瞬时地访问到企业所租用的软件服务。

还有一种分类就是私有云和公有云。我们将一些运用云技术对单一客户提供服务的云服务或者企业建立的自用的云计算服务称为“私有云”。私有云拥有者能够有效控制数据私密性、安全性和平台特性。私有云提供商主要提供云的技术方案、部署、升级和运维的托管。私有云一般建设在企业数据中心的防火墙内,对内部业务系统提供软件、平台和计算资源。公有云指由第三方提供商所运维的云,向多个用户提供服务,一般可通过互联网直接访问。企业既部署私有云,又将部分业务放到公有云的方式被称为“混合云”。

云计算之于金融行业

金融业是计算能力的消费大户,每个参与者都需要海量数据处理以占得市场的先机。传统的信息技术部署往往受制于物理环境的极限,金融行业通过云计算保证海量信息的处理已经是大势所趋。

未来,云计算数据中心将为成千上万个金融机构提供计算服务,金融行业产品和服务因为云计算技术而发生巨大革新。

在云计算的服务模式下,金融用户可以最大限度地从信息技术运营中解放出来,集中优势力量投入到自身核心的投融资业务中。运营商也能够集中最先进的技术和资源为客户提供一般模式下无法获得的高质量信息技术服务,同时获得信息技术规模效应所带来的业绩增长。

而金融的互联网化也已经成为一种趋势,云计算必然成为未来金融机构提供金融服务的一个非常重要的手段。

第一,云计算是未来金融企业在投资中占得先机的必要技术。

对于金融企业来说,信息、数据、模型和计算能力是其比竞争者更早获得市场情报,更早地做出更自信的判断的前提。移动互联网时代,甚至物联网时代的信息量、数据量之大是世人有目共睹的,金融企业都需要获取并处理更大量的数据,而云计算能将这种信息的获取和处理能力作为服务提供给金融企业。在互联网上,大数据才是真正的金融核心资源。比如阿里巴巴拥有大量的在线交易数据,而交易数据就是一种能够对企业的未来经营收入做前瞻式预测的数据,阿里小贷正是依仗这些数据判断贷款与否及数额。在未来,更重要的是更好地运用前瞻性数据,进行更加理性的预测。而前瞻式预测的数据支撑,主要来自互联网、移动互联网乃至将来的物联网这些高速产生数据的平台。对大量数据进行搜集、存储和分析需要非常庞大的软硬件和信息技术投入,对于一般的金融机构来说,自己建立相应的工具所需要花费的成本是非常高昂的,显然是不经济的。云计算可以对数据进行一次性搜集,并且将数据分析、预测工具、能力以服务的形式和经济的价格提供给广大金融机构和投资者,而且出于规模效应,工具、服务得以不断迭代进化。当广大金融企业能够通过投资云平台的数据和工具来进行决策时,当其他金融企业随时都能获得近乎无限的计算能力时,自建相应能力的金融企业就可能由于无法快速获得相应的计算能力和数据集而落后。

第二,云计算是互联网环境下金融企业应对突发事件的关键技术。

金融突发事件,特别是危机事件、市场波动,是难以预测和防范的。对于提供市场基础设施的交易所和金融的其他环节,技术系统如何应对业务的高峰是一大难题。

金融机构要求有一种更有效的处理突发事件的新技术和服务方式。1987年的股灾、1995年巴林银行倒闭都发生得非常突然,而且这种危机往往由于技术的原因被扩大。1987年10月19日,美国的华尔街股市下跌508点,跌幅达到了22.62%。当时分析称原因有很多,但是其中非常关键的一个就是技术原因。在那时的华尔街,程序化交易在当时的股指期货交易中广泛使用,而且算法也都雷同。一旦股指的价格远远低于现货的价格,就会引发在现货市场中的大量套盘。由于当时纽交所出现卖单高峰,系统宕机达45分钟之久,于是,股票的价格下跌停滞,现货价格跟不上期货价格,现货出现大量卖空套盘,加速了股指的瀑布式下跌。这一情形在中国也发生过,一些营业部由于系统运维不利,经常出现交易中断,让投资者蒙受损失,营业部一般只好通过降低佣金、补偿免费服务来挽留客户。在互联网环境中,交易的参与者越来越趋向于大众化、广泛化,对金融业的基础设施、架构和软硬件提出了新要求。云计算的弹性和可扩展的特性能够很好地满足金融机构和交易所的需求,并且,处理突发事件的新技术和服务方式都在随着云计算的发展而进步。通过淘宝的“双11”可以看到,余额宝背后的天弘基金凭借阿里云所提供的弹性计算资源,应对了当日相对传统货币基金公司所不可想象的单日清算业务量。云计算平台起了非常重要的作用,对缓解交易容量的突发增长极为有效和经济。

第三,云计算是互联网时代金融机构高效的技术后台。

当下,金融机构在所有行业中是在设备和信息技术方面投入比较多的,从使用的效率来看,存在大量的信息技术成本。传统的IOE结构在企业后台的占比超过50%,投入巨大,且一个系统锁定一批资源,这一做法增加了系统的复杂度和运维压力。而且金融机构是广泛经营的一种生态,在各地开设营业部、分支机构,建设自己的IOE,这种模式需要投入的资金量非常大,让新兴金融机构的初创成本异常高昂。云计算恰恰极好地解决了这一问题,大大降低了广泛建立技术前、后台的建设成本,提高了信息技术资源的利用率,让金融机构的业务能够借助互联网更快地铺开,金融创新也能够更快地实现。

再论大数据

沃尔玛每小时处理100万客户交易,向数据库输出2.5拍字节数据(1拍字节=千万亿字节),等于167个美国国会图书馆所有书籍的数据量。坐落于美国新墨西哥州的斯隆数字巡天望远镜在最初几周所搜集的数据量已经超越了天文学有史以来搜集到的所有数据量,数据正在快速增长到泽字节(1泽字节=十万亿亿字节)的级别。

加利福尼亚大学伯克利分校的计算机科学家乔·赫勒斯泰因将大数据称为数据的产业革命,影响着从业务到科技,从政府到艺术的各个领域。我们进入了数据爆炸的时代。

用云计算承载大数据

云计算是大数据的基础,它给大数据提供了硬件和平台支持。在传统模式中,数据是和应用程序绑定的,应用程序的设计和开发是相互独立的,只有创建了应用才能解读数据,应用间的数据交换往往伴随着复杂的ETL(数据提取、转换和加载)过程,企业的数据库管理员往往被不同的数据在不同系统中的不同表现和元数据管理弄得焦头烂额,甚至产生许多不必要的错误。而今云计算PaaS平台中,提倡SOA(面向服务的体系结构)的理念,将数据以API服务的形式重新释放出来,与应用解耦,这样一份数据可以被更多应用程序所共享和使用。数据成了云平台的“酒单”中的酒,应用程序开发者和客户可以将各种数据自行调配成风味各异的“鸡尾酒”,从而产生附加价值。

随着大数据的出现,数据平台的概念也应运而生。由于数据量极为丰富,数据本身就可以成为一个平台,而数据在数量和复杂度上的高速增长,是数据平台在构建时应当首要解决的问题。

云计算已成为推动企业大数据应用的技术力量。云计算通过存储资源的供应为大数据提供廉价、弹性的分布式数据存储;通过IaaS平台资源的动态供应,来实现PaaS所提供的数据采集平台、大数据分析平台以及消费数据展现应用程序等的运行环境。解耦后的数据资源使企业无论在移动通信设备、计算机端、平板电脑都能共享云端的应用程序和数据,让金融企业走出办公室,拥抱移动和社交,为客户创造更多价值。

大数据的每个环节都伴随着飞速增长的计算、存储资源的需求。如果说大数据是超级跑车,那么云计算就是高速公路,没有云计算这样的高速公路,大数据这样的超级跑车就跑不起来。当人们对大数据这辆超级跑车有很高需求的时候,云计算高速公路就会往纵横方向不断发展,形成良性互动的关系。未来趋势是建设一个数据高速路平台。在这个高速路平台上,基础设施和构建模块是可以重复使用的,甚至大数据的数据本身,也可能重复使用。

除了可以容纳海量数据外,这条数据高速公路可容纳的数据类型也极为丰富,不但包括企业的业务订单数据这样的结构化数据,也包括客户评价这样的非结构化数据,还包括外部的社交网站数据、位置数据、物联网数据、博客数据等。

数据高速公路的架构总览主要显示出三大特征:

第一,静态的数据被转化为动态的数据。云计算的出现使得储存动态复杂数据的技术能够更容易获得。

第二,层次化可重用设计。在数据高速公路中,共有6个层次,分别是数据发布层、数据可视化层、数据处理层、数据存储层、数据集成层以及数据建模层。实时获得的数据可快速地进行实时处理,再加上可重用的层次化设计,数据处理效率大大提高。可重用也就意味着云计算提供商可以在实现平台的同时,提供规模效应。

第三,传统的数据仓库转变为数据源。与传统的需要自建大型物理设备来存储数据的方式不同,数据高速路平台可以让企业将数据储存在云端,在保证数据的灾备安全的同时,使得数据的访问更为标准化、分布化。

金融投资的未来

在未来,互联网将云端的大数据分析平台的数据和分析能力送到了普通投资者的手边,技术不再是壁垒,普通投资者手中也能握有投资的利器,头脑好的投资者和团队甚至可以与机构同台竞争,为其自身或客户提供优秀的财富管理服务。

大数据技术下的量化投资作为服务让投资者能够科学、稳定地在全球市场投资。不远的将来,一大批靠天吃饭的共同基金经理和公司将被超越和淘汰,留下的基金公司将是那些能够根据大数据分析提供交易策略,占领独特优势的对冲基金和自营基金。

信息高速流转,市场中的机会会被量化交易策略快速地发现和捕获,金融市场也会变得更加有效,更加真实地反映由大数据所描述的现实。

新型金融服务的先驱者——阿里金融

互联网金融的先驱者阿里巴巴在金融创新方面可谓不遗余力。在阿里巴巴集团副总裁胡晓明看来,阿里金融的核心竞争力是其所拥有的大数据和云计算技术。

阿里金融提供的主要服务是为商户发放贷款。贷款主要分成两类:阿里贷款和淘宝贷款,前者针对阿里巴巴B2B平台上的商家,后者针对淘宝网和天猫上的商家。所有贷款都是订单贷款或者信用贷款,也就是说不像银行那样需要房产或其他抵押品。

除了对部分商家,阿里金融会派人采用视频调研加实地考察之外,大多数时候都是客户在线申请,阿里金融通过调用客户在阿里平台上的各种数据,建立各种各样的评分卡,决定是否放贷。客户也免去了传统银行贷款模式下提交各种烦琐材料的过程,节省了时间和金钱。

放款之后,阿里金融会通过支付宝等渠道监控现金流,避免客户违约。即便发生坏账,阿里金融经过各种催收之后,还有最后一招:清除客户在阿里巴巴平台上的账号和店铺。这些客户筛选和贷后管理措施帮助阿里金融在批量放贷的同时,不良贷款率始终保持在1%以下。这种对于贷款安全的良好控制,恰好也是新型金融服务平台的优势体现。

阿里金融手中握有每个客户在阿里巴巴生态系统,包括阿里巴巴、淘宝、天猫等的数据,这些数据通过阿里巴巴的大数据平台,成为阿里金融客户经理手中的撒手锏,相当于传统行业中,银行握有每个客户的真实账本、客服记录、客户关系、身份信息、核心银行账号(支付宝)、客户评价。客户经理可以用非常小的考察成本来了解一个申请贷款的客户。每个客户经理服务的客户数量是传统商业银行的15倍,平均每个客户经理每年能够服务300家企业。阿里金融的目标是把这个数字继续提高到3 000家,也就是说,不考虑企业规模,与银行的同行们相比,阿里金融的客户经理在同样的时间里,将能够为数量是前者服务量的150倍的客户放款,而且能保证这些客户几乎都不会赖账。在这种新型的金融服务模式下,客户可以享受快速、高效的贷款服务,贷款流程大大简化,足不出户,就能完成贷款的全部过程。

阿里金融的年化利率是18%,但由于用互联网方式放款,允许客户随借随还,按天计息,日利率通常是万分之五或万分之六。阿里金融提供的数据称,2012年全年,通过它们获得贷款的小微企业,实际付出的平均成本是6.7%,而银行一年期的贷款利率为6.1%左右,差别不大。

阿里金融发现了互联网企业独有的、金融机构不能全盘复制的价值。阿里金融希望利用大数据批量放贷,把阿里金融打造成一个可以流水线工作的现代金融服务工厂。

机器学习

互联网,特别是移动互联网造就了大数据,就好比高清电视替代普通电视,将实景中更多的细腻画面细节清晰地呈现在观众眼前。而随之产生的问题就是观众的普通视力是否可以捕捉到这些由于技术演进而增加的细节,充分享受技术革命所带来的全新视觉体验。假如观众视力不能有效分辨高清画面,那么高清摄像、播放和显示技术产生的意义对他/她而言就是非常有限的。而可以帮助解决这一问题的方法就是为观众配备提高视力的眼镜。对于互联网技术所推动的大数据而言,能够帮助数据用户增强“视力”的“眼镜”就是机器深度学习。

人工智能与机器学习

人工智能作为计算机科学的一个分支,专注研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统。而一般可以把人的智能概括为灵敏准确的感知功能、快速正确的判断功能以及恰当有效的执行功能。机器学习是人工智能的一个分支,就是通过预先设定好的学习规则——往往是计算机算法——使机器可以利用大量历史数据学习如何对研究分析对象进行有效分类或预测。由于人工智能的主要实现手段是机器学习,机器学习几乎成为人工智能的代名词。从20世纪80年代末期以来,机器学习的发展大致经历了两次浪潮:浅层学习和深度学习,两者的主要区别在于学习规则的目标和架构。

20世纪80年代末期,用于训练人工神经网络模型的反向传播算法的发明掀起了基于统计模型的机器学习热潮。在反向传播算法中,机器首先使用一个初始的神经网络模型对数据样本进行分类或预测(被称作“前向传播”),然后将分类或预测结果的好坏(激励响应)作为“学习反馈”,指导下一步对神经网络模型所进行的调整。通过这样自动实现的反复修正,使得神经网络模型可以快速和准确地“学习与掌握”数据样本中所包含的模式和规律。与传统的预测模型的估算方法不同的是,反向传播算法可以依据模型预测结果的好坏自动地指导模型结构进行调整。而传统的模型估算是在得出预测结果以后,由数据分析师人工决定如何调整模型,再重新进行学习。反向传播这种基于统计的机器学习方法比起过去基于人工规则的系统,在很多方面显示出优越性。这个时候的人工神经网络,虽然也被称作多层感知机,但实际上是一种只含有一层隐层节点的浅层模型。这个节点包含了如何使用既定的特征变量信息来对数据进行分类和预测的规则,而机器学习的目的就是要利用样本数据来确定这些规则。浅层学习也因此而得名。

20世纪90年代,更多的浅层机器学习模型相继被提出,比如支撑向量机、Boosting算法、最大熵方法等。这些模型的结构或带有一层隐层节点(如支撑向量机、Boosting),或没有隐层节点(如最大熵方法)。

2000年以来互联网高速发展,在商业领域为大数据的智能化分析和浅层学习模型提供了前所未有的应用空间。其中最成功的案例包括谷歌的AdWords(关键词竞价广告),百度的凤巢系统,雅虎、微软的搜索引擎和各类基于内容的推荐系统等。

2006年,加拿大多伦多大学教授杰弗瑞·辛顿和他的学生鲁斯兰·莎拉哈特迪诺夫在《科学》杂志上发表了一篇文章,提出了两个重要观点:第一,很多隐层的人工神经网络具有优异的特征学习能力,能通过数据样本学习得到更能对数据本质特征进行刻画的变量,从而更为有效地实现可视化或分类;第二,可以通过逐层初始化来克服深度神经网络在训练上的难度,以此开启了机器学习在学术界和工业界的第二次浪潮。由于这一次机器学习浪潮涉及多隐层神经网络,即深度神经网络,它也被称为“深度学习浪潮”。

自2006年以来,深度学习在学术界和应用领域持续升温。2013年4月,《麻省理工学院技术评论》杂志更是将“深度学习”列为2013年10大突破性技术之首。

今天谷歌、微软、百度等拥有大数据的著名高科技公司争相投入资源,占领深度学习的技术制高点。这些世界顶级计算机和互联网科技公司对于深度学习的高度重视并非偶然,恰是因为它们都看到了在大数据时代,更加强大的深度模型能真正有效揭示海量数据里所承载的复杂而丰富的商业信息,为创造新的服务产品和提高服务质量创造真正机遇,也为掌握这些技术的公司提供最为牢靠的竞争壁垒。

大数据与机器深度学习

在工业界一直有这样一个很流行的观点:在大数据条件下,简单的线性机器学习模型往往要比复杂模型更加有效。而最近学界在深度学习领域所取得的巨大进展,促使我们开始重新思考这个观点。也许在大数据情况下,只有通过以更有效的方式运用更强大的深度模型,才能让我们从正在以前所未有的速度积累的大数据中发掘出更多有价值的信息和知识。

为什么大数据需要深度学习模型?我们先用一个简单例子来进行说明。语音识别是一个涉及大数据和机器学习的领域,因为我们通常要使用十亿到千亿级别的训练样本来完成声学建模。在谷歌的一个语音识别实验中,人们发现训练后的DNN(深层神经网络)在训练样本和测试样本的预测误差基本相当。这个结果让人感到非常吃惊,因为通常DNN的参数会根据测试样本进行调整以降低训练样本的预测误差,因此,DNN在训练样本上的预测误差往往会显著小于测试样本。唯一能够解释这样一个反常结果的原因就是与语音关联的大数据含有高纬度的信息结构,即便是DNN这样的高容量复杂模型也只能侦测到其中一小部分。从这个简单的例子中我们可以看出,大数据确实需要深度学习。

接下来,我们再比较浅层学习和深度学习,以便充分理解使用深度模型来分析大数据的必要性。

浅层学习有一个重要特点,就是假设系统依靠人工经验来决定样本的特征,同时强调模型主要是负责对既定的样本特征进行分类或预测。这样一来,在模型被正确使用的前提下,所选定的样本特征的好坏就成为整个系统性能的瓶颈。举一个简单的例子,在区分动物种类的时候,人们通过观察和经验选取了体重作为分类特征,然后依据每种动物的平均体重以及波动幅度来对它们进行区分。在这种情况下,当两种动物在体重上相差无几,譬如老虎与狮子、苍蝇和蜜蜂,人们就只能将它们归为一类,而不能再进行区别。因此,通常在给定浅层学习模型的条件下,一个数据模型开发团队中更多的人力是要投入到发掘更好的特征上去的,即确定模型的变量结构。而要发现一个好特征,就要求开发人员对需要解决的问题有非常深入的理解。而要达到这个程度,往往需要开发人员花费大量时间在理论层面反复探究和摸索数据对象的本质特征,有时甚至是数年磨一剑。因此,在人工设计样本特征的情况下,即使开发团队掌握再多数据资源也无法迅速提升模型功效。

深度学习的实质,是通过构建具有很多隐层的机器学习模型和海量的训练数据,来学习和鉴别更有用和有效的特征,在许多方面替代原先开发人员所做的特征研发工作,从而更快地提升分类或预测的准确性。简而言之,深度学习是以深度模型为手段,以特征学习为目的进行数据学习。而深度学习区别于浅层学习的地方在于强调了模型结构的深度和突出了特征学习的重要性。用技术性语言来表述就是通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,使分类或预测更加容易。在刚才所举的动物分类的例子中,体重是唯一区分动物类别的特征。而采用深度学习以后,人们就不再人为地来决定分类特征,而是将所有描述动物性征如毛发、身长等的大数据作为研究分析对象,通过深度模型先决定到底哪种性征组合更能被用来有效地区分动物的种类,将其确定为分类特征,然后再通过浅层学习对动物加以有效区分。

通过以上比较,我们不难看出,与通过人工规则来构造特征的方法相比,利用大数据来学习特征,能更主动有效地刻画数据丰富的内在信息特征结构。所以,我们深信在未来的几年里,在不同的研究和实践领域,我们将看到越来越多的深度模型,而非浅层线性模型,被应用于大数据的成功案例。接下来,我们再介绍几个深度学习在大数据分析中的典型应用,包括语音识别、图像识别、自然语言处理(NLP)和自然用户界面(NUI)。

语音识别

长期以来,语音识别系统采用混合高斯模型描述每个建模单元的统计概率模型。这种模型的特点是估计简单,适合海量数据训练,同时有成熟的区分度训练技术支持。但该类模型本质上是一种浅层网络建模,它在描述特征的状态空间分布和特征之间的相关性,以及区分模式等方面受到浅层学习的结构性约束,能力有限。

微软研究院语音识别专家邓立和俞栋从2009年开始和杰弗瑞·辛顿合作,用机器深度学习开发新型语音识别方法。2011年,微软宣布基于深度神经网络的识别系统取得成果并推出产品,彻底改变了语音识别原有的技术框架。

深度神经网络可以充分描述特征之间的相关性,并可以把连续多帧的语音特征并在一起构成一个高维特征,最终采用高维特征训练进行模拟。这种多层次特征学习结构和人脑处理语音图像信息有很大的相似性。深度神经网络的建模技术在实际线上服务时,能够无缝地与传统的语音识别技术相结合,在不引起任何系统额外耗费情况下,大幅度提升了语音识别系统的识别率。

例如,百度在实践中发现,采用DNN进行声音建模的语音识别系统相比于传统的混合高斯模型语音识别系统而言,相对误识别率能降低25%。百度于2012年11月上线了第一款基于DNN的语音搜索系统,成为最早采用DNN技术进行商业语音服务的公司之一。

图像识别

图像是深度学习最早尝试的应用领域。早在1989年,受到了著名的Hubel–Wiesel生物视觉模型的启发,纽约大学教授燕乐存和他的同事们就开始研究CNN(卷积神经网络)。CNN是一种带有卷积结构的深度神经网络,通常至少有5个隐含层,包括两个非线性可训练的卷积层、两个非线性的固定卷积层和一个全连接层。但在很长时间里,由于没有更有效的计算机算法和足够强大的计算能力配合,CNN虽然在小规模的机器学习问题上取得过很好的学习效果,如手写数字,但一直没有在大规模图像识别领域上取得过显著的发展。2012年10月,借助算法和图形处理器带来的计算能力的增强,杰弗瑞·辛顿和他的学生在著名的ImageNet(视觉数据池)问题上用更深的CNN取得了世界最好结果,使得图像识别技术取得重大突破。在辛顿的模型里,输入的就是图像的像素,没有用到任何的人工特征。

百度在2012年年底也将深度学习技术成功应用于自然图像光学字符识别和人脸识别。2013年,百度将深度学习模型成功应用于一般图片的识别和理解。从百度的经验来看,深度学习应用于图像识别不但提升了准确性,而且避免了人工特征抽取的时间消耗,从而提高了在线计算效率。

自然语言处理

除了语音和图像,深度学习的另一个应用领域是NLP。经过几十年的发展,虽然统计模型已成为研究NLP问题的主要手段,但作为统计方法之一的人工神经网络在NLP领域几乎没有受到重视。2003年,加拿大蒙特利尔大学教授约书亚·本吉奥等人提出用嵌入的方法将词映射到一个矢量表示空间,然后用非线性神经网络来表示N–Gram语言模型,开始在NLP领域应用神经网络。而NEC美国研究院是世界上最早将深度学习用于NLP研究工作的。斯坦福大学教授克里斯·曼宁等人最近也将深度学习用于NLP。总体来看,深度学习在NLP上取得的进展还没有像在语音和图像领域上那么令人印象深刻,但由于语言是完全由人类大脑产生和处理的符号系统,模仿人脑结构的人工神经网络,特别是深度学习,在NLP方面应该有很大的探索空间。

自然用户界面

机器学习技术的发展,催生了人机接口技术的不断改进: 从早期的穿孔纸带、面板开关和显示灯等交互装置,发展到今天的视线追踪、语音识别、感觉反馈等具有多种感知能力的交互装置。用户界面的发展历经了批处理、命令行(CLI)、图形界面(GUI)三个阶段,现在进入了NUI阶段。

NUI是一种新兴的人机交互方法,通过触控、手势技术使人机交互变得更加自然直观、更为人性化,实际的应用程序包括微软平板电脑Surface、苹果手机iPhone和一些采用Windows Mobile(微软移动设备操作系统)的手机。而在Windows 8(微软操作系统视窗8)中,触控技术也首次被应用在计算机操作系统,为用户提供了比键盘、鼠标更直观和新颖的控制方式。从苹果手机iPhone4S开始,苹果手机增加了利用语音识别技术实现人机交互的Siri应用程序。Siri能够与用户聊天,为用户管理手机、日程、搜索信息,让用户和整个业界看到了人机交互的力量和未来。

机器学习之于金融投资行业

机器学习以卓越的认知能力应对大数据时代的挑战,这些挑战来自整个社会,而首当其冲的就是将高效分析处理信息数据作为其生命线的金融投资领域。面对移动互联网所带来的非结构化数据的日益泛滥,金融投资业迅速提升其信息处理的速度和能力自然迫在眉睫。

首先,机器完全有潜力去分析海量内容,包括解读财务、法规、经济和社会数据等信息,学习新的研究成果、公开发表的报告以及海量即时咨询,从而帮助投资机构及个人投资者更准确、高效地进行科学决策,获取更高的收益回报率。举一个简单的例子,对银行和投资管理公司而言,被IBM应用于云环境开发平台的Waston可以通过分析分析师报告与各类文字资讯更好地提供投资决策和服务。因此,机器深度学习必然会被用于增强内容分析和学习能力,帮助全面改善金融投资业务体验。

其次,智能技术已被普遍用于投资管理的各个环节:从新闻中抽取关于股票的情绪,从上市公司的投资者见面会录音中提取管理层对公司未来发展前景和风险的看法,从海量数据中构建公司间的关系图谱,模拟研究员的投资研究理念智能生成研究报告,自动为文章撰写摘要,完全替代一个研究员的日常工作,甚至比研究员更能吃苦耐劳,在处理大量数据上也更为高效。

毫无疑问,以机器深度学习为基础而建立的高级认知系统在金融投资领域有着广阔的发展前景。而由于金融投资是人类社会活动中决定有形资源配置和社会经济关系的主导方式,当机器深度学习为金融投资管理活动增添前所未有的智慧与效率时,人类社会活动的内容与形式也将产生真正颠覆性的变化,最终推进人类社会关系结构的演进与升级。