在回答问题之前,先对讨论之框架做个限定,免得撕逼。同时,抛出行业翘楚供大家参考。
首先,金融业的涵盖非常之广,主要包括三大类:银行类、投资类和保险类。具体则很多:商业银行、投资银行、证券、保险、小贷公司、租赁等。而且随着时代和技术发展,还出现了各类新型金融机构,比如:消费贷、P2P等等。
其次,金融业基本是全世界各个行业中最依赖于数据的,而且最容易实现数据的变现。在本回答中不纠缠于大数据和数据的区别。比如世界上最大的金融数据公司Bloomberg,看起来它提供的金融数据服务在深度上并不复杂,而且其成立时间远早于大数据这个词汇出现的时间,但是你很难说,Bloomberg不是一个金融大数据公司。
提到金融数据公司,就不能不提Bloomberg L.P.。这家创立于1981年的公司,是整个金融数据界的翘楚。创始人Michael Bloomberg,曾是Salomon Brothers的合伙人,因为公司被收购而拿到一千万美元的遣散费后离职,并创立了Bloomberg。下图左一就是Michael Bloomberg,不用怀疑你的记忆,你没有记错,他也是那个只拿一美元和坐地铁上班的纽约市市长,所以才有机会和加州州长施瓦辛格一起出现在Time杂志封面。
Bloomberg的最初产品是Innovative Market Systems (IMS),主要功能是向金融市场的各个玩家提供市场的实时数据、财务计算能力、财务分析等(听起来是不是很low,和大数据毫无关系)。创业之初,即使是高富帅创业的Michael Bloomberg及团队也依然苦逼,没有方向没有客户,为了激励劳累不堪的员工,Michael Bloomberg只好建议员工“看鱼缸中的金鱼来消遣”,于是每位新来的员工都会得到一只鱼缸。后来人员激增只能以公共空间的巨型鱼缸替代。
在1983年,Bloomberg以30%股份的代价获得美林3000万美元的投资,估值仅为1亿美元。自此一路狂奔,推出各类产品,包括:Bloomberg Terminal,Bloomberg News,Bloomberg Radio,Bloomberg TV等等。
在1996年,Bloomberg以20亿美元的估值,花费2亿美元从美林回购10%的股份。而到了金融海啸的2008年,丝逆袭。昔日的大股东美林面临,结果其最大的资产就是所持有的20%的Bloomberg股份。昔日的小弟Bloomberg利用美林的危机买回所有股份自赎,当时估值为225亿美元。
2004年,这家专注于数据的公司,在纽约的曼哈顿的Midtown竖起了246米的高楼。算是技术公司对金融公司的一次彻底逆袭吧。
到今天,Bloomberg全球布局192个办公室,有1.5万名员工,2014年的收入是90亿美元。因为是私有公司,利润无从得知。但是按常规估计,即使20%的利润率及30xPE(这可不是市梦率Forward PE,而是一年多以前的实际PE),Bloomberg的估值也在500亿-1000亿美元之间,甚至超过1000亿美元。这个估值已经超过华尔街的标志企业高盛(2016年2月,高盛的市值为650亿美元),这才是真正的逆袭。
如果把Instant Bloomberg当成一种社交软件或者把Bloomberg Terminal当成一种客户端,Bloomberg是可以妥妥得作为一个互联网公司入围下面的排行榜(数值采集于2015年8月),至少排入前六,仅次于Google、Facebook、阿里、亚马逊及腾讯。将BAT之中的某家公司牢牢甩在后面。如果考虑到Bloomberg Terminal的软硬件结合以及Instant Bloomberg的社交属性(以上两个均为提升估值的利器),Bloomberg成为全球第二或第三值钱的互联网公司不是梦想。
华尔街的“约炮”名言堪称“Just Bloomberg Me”,Instant Bloomberg如果在中国会不会也被牵连到各种打黄扫非的案件中?因为Instant Bloomberg实在太垄断和强大了,堪比Facebook(Facebook的LYR PE可是38x),所以我说给Bloomberg更高的PE一点不过分。
然而外界经常猜测其利用Instant Bloomberg里面的隐私信息套利。2014年10月,一家叫做Symphony的创业公司出现了,并将产品定位于替代Instant Bloomberg。而华尔街上的各大机构对于Bloomberg实在是又爱又恨,在Symphony宣布成立时,十四家金融机构联合向 Symphony 注资 6600 万美元。2015年10月,Symphony 宣布寻求新一轮融资,估值高达 10 亿美元,投资人很可能是Google。
下图是著名的Bloomberg Terminal,Bloomberg的现金牛及拳头产品。经典的Terminal界面和极客的黑色背景,几乎没有图像化操作的违和感;下方是定制的键盘及无数的快捷键。Bloomberg Terminal每个终端每年的起步价是2.4万美元,根据服务级别不同,坐着火箭往上涨。
毫不客气得说,大部分购买Bloomberg Terminal的机构,只是做装饰,里面0.1%的功能都没有用到。在回答(做投行、行研、咨询等金融岗位,有没有什么好用的找数据技巧呢? - 何明科的回答)中提到,为了方便其他同事使用Bloomberg数据,我不得不写了个程序利用Bloomberg API获取Bloomberg数据,然后推送到邮件。Bloomberg API支持多种程序,包括 Java、C、C++、COM 和 Perl,API 设计简洁,适用于低延迟的应用程序,是quant及有编程功底的trader的最爱。
这种拿Bloomberg Terminal提升逼格的情况不仅仅在国内,华尔街也是如此。Bloomberg Terminal在某种程度上是一个人在华尔街地位的强大象征。过去当一名I Banker被提拔到董事总经理职位时,会得到一套个人专属的Bloomberg Terminal作为一种待遇,尽管实际的数据处理是由做牛做马的Analyst完成的。是不是很类似国内大老板们满满的书柜?
当然除了上述的严肃功能,Bloomberg还提供了订酒店、买红酒以及搭讪等各种高级功能。比如输入命令行指令DINE和FLY指令,可快速检索本地餐厅和航班。如果输入POSH,就可以得到各种华尔街和各种金融街的纸醉金迷。下图是《华尔街之狼》的截图。
定价永远是金融或者任何市场中最核心的部分之一,大部分金融活动都涉及到风险和收益的平衡。放贷,是在平衡利息收益与违约风险之间的平衡;保险,是在平衡保费收入与理赔金额之间的平衡……
大数据技术,可以让金融产品的颗粒度精确到每个人。从而可以根据每个人过去的历史推测其未来的财务状况及履约情况,即所谓的大数据征信,因此给于每个人不同的授信额度以及利率。
而扩展到保险,也是同样的道理,保费可以根据每个人的情况不同而差异化。比如在美国买车险,根据人的婚姻状况、车辆颜色、年龄等各种信息,都会得到不同的保费金额。而最近大火的UBI(Usage Based Insurance)更是将大数据技术的使用推向新高度。甚至通过在保险购买者的车辆上安装检测OBD数据的硬件设备来获取各项数据,从而对好司机和坏司机差别定价保费。
除去银行和保险,金融的另一大类是投资,无论对于一级市场还是二级市场投资,拥有更早更多更准确的信息,会让投资人获得先发优势而最终转化为投资回报。而且大部分投资游戏都是玩家之家的零和博弈,谁下手早下手狠下手准,就会进一步扩大利收益。这个口号真是很像奥运会更高更快更强的口号。
在获得更早更多更准确的信息方面,大数据可以充分得发挥。常见的技术有:爬虫、视觉技术、AI、软硬件结合等等。在我的回答(
)中其实已经提到了许多案例,正是因此这个原因,许多前卫的基金找到我们团队,希望利用大数据的各种技术帮他们建立信息优势,而最终将信息优势转化为投资回报。
哪个VC不想在众多的App中,先于所有人找到下一个独角兽,用钱把公司锁定呢?
我们利用爬虫获取各个应用市场及社交网络的数据,找出增装最快的App。下图是在各个维度找出最有价值的App,各种量级范围内在30天/7天增长最快及评价最好榜单。(顺便吹一下牛,我们这个榜单很早就发现小红书App的快速增长趋势以及在年轻人中的极佳口碑)
在二级市场中,对一个公司的判断分歧越大,堵对方向而且敢于下注的一方,就会收获最大的利润。
在搜房从广告平台转型到交易平台后,市场意见出现严重分化。在公司财报发布之前,我们利用爬虫获取搜房在各个城市的经纪人数量及单产搞清楚并按时监督。发现搜房经纪人的产出远低于行业内的标杆公司——链家,而且完全没有出现快速爬坡追赶到行业平均水平的趋势。
越来越多的互联网公司甚至是传统行业的公司,变为产品导向性,一两款产品的走势就能决定公司的整体趋势乃至股价的走势,比如:苹果、长城等等。
我们抓取社交网络上关于哈弗H6及其他国产SUV的评论和用户购买信息,观察其重点产品上市的走势。同时根据用户的购买及关注行为,做出品牌忠诚度的交叉图,可以详细观察各个竞争品牌之间的替代和转换关系。
苹果的价格很大程度上依赖于新发布的及,然而这些产品的销量公布总是滞后或者大家是同步获得的。如果我们监测58上二手手机的价格(
),根据二手对于新品的折扣率,就可以基本得到新款的销量情况。基本上,销量与折扣率完全正相关。
(以下案例为道听途说,不能完全保证其准确性,不过这些案例大部分都能实现)
MIT某实验室将声音采集设备放到交易所大厅,通过采集交易员的吼叫声然后做情绪分析,判断当前交易所众交易员的情绪,然后预测股市未来一段时间的走势。
有海外对冲基金动用卫星拍摄照片,根据建筑物的阴影长度,来跟踪某国各地的建筑情况,以此作为该国宏观经济的运行情况。
—————————————————————————————————————
感觉答案里实际经历或纯金融和大数据结合的例子不多。我介绍个某行的实验项目和分析的公司案例(雅虎),权当娱乐~ 这方面有兴趣也有技术背景的同学可以和我保持联系,之后有意往这方面发展。: )
先科普,介绍下为什么做这个项目:我们都知道信用评级(可以理解为违约概率),有个人的(类似于个人征信,比如芝麻信用),有公司的(大到标普穆迪,本地的如中诚信,大公)。对于银行对公投行业务来说,银行还需要做一个内部评级(internal rating, 分自动评分和人工两种)。这种内部信用评级是银行计算风险权重资产(RWA)等重要关键数据的基础。目前来看,无论是基于财务分析或非财务分析,无论是系统根据模型自动评分或人工依据预设分析模板手动计算评分,都属于传统方法 - 即客户经理或信贷员将财务数据填入系统,然后得出一个信用评级。
但是这样的评分仍然片面,因为一个公司,假设上市有年报的话,里面提供的信息往往不是财务信息所能表达的,然而传统评级方法很难体现这类的考虑。同时,很多公司,比如一些大型银行,年报厚达600页,国内比如万科的年报也有200多页。靠人来读然后给出评价的话基本不现实。也因此,我们目前在做的这个实验项目就是通过成千上万家上市公司年报进行大数据文本挖掘,借助机器学习算法,看是否可以相对准确快速的预测公司的信用评级,将这类结果提供给银行业务人员做为一个重要的参考指标。
#更新:评论区有朋友说有点粗糙,不够细致(但是感谢点赞!)。我想开脱两句:一是毕竟是行内在做的实验性东西(其实就是几个部门有类似兴趣爱好的同事),不好放上来所有具体的细节,只希望提供观点和实际经验引起讨论,谢谢理解;二是我尽量服从需求,往这里添加一些可以公开的信息和细节,供大家讨论交流。当然,这个只是初步尝试,还有很多缺陷,路还很长。评论区有些讨论很有意义,权当对答案的补充。
1. 模糊匹配 (fuzzy matching):因为数据量大,我们不能手动匹配公司年报与我们已有的公司评级数据库(已有的评级数据库是用来之后机器学习培训模型用的),所以我们将下载的所有年报公司名称通过模糊匹配的方法对应到我们已有的公司评级数据库里(这个数据库我们用的是标准普尔的):模糊算法主要是传统的Jaro-Winkler和Levenshtein。
2. 预处理数据,去掉噪音:目前我们只做英文年报,去掉年报中的文本噪音,比如the, and这类意义不大的词条,也包括去掉空格,将大写字母换成小写字母,去掉标点符号,数字等
3. 文本分割与词条分析:去掉噪音后,剩下的我们认为有意义的文本,计算词条频率,又称文本-词条矩阵;补充更新:其实这步还做了一些其他处理(feature selection & Binning),只是没有全写下来,这里补充下:
5.模型应用:根据前一步培训的模型预估信用评级(具体预测的评级分布见下图更新2,深蓝色Base代表的是正确的评级,浅蓝色代表的是不同算法得出的结果,可以看出SVM和NSVM的评级分布拟合的最好)
综上,目前来看,支持向量机(svm和nsvm)得到的结果最好,但是总体来说准确率不到60%,还有很多地方可以改进来提升模型评估能力。
最终,我们将评估结果,外加语义情感分析(sentiment analysis)等做成自动报告供银行内部相关部门使用。
说到这儿,我有说所有的这些我们都用的是免费开源的R语言吗?: ) 这年头银行也很会省钱。
最后放个雅虎公司的报告做例子。泛亚电竞平台基于2015年的年报,2.78%的词条有正面情感,3.08%负面,94.14%方向不清晰。模型结果:支持向量机的最准确,BB-,和标普以及行里内部给的评级一致,朴素贝叶斯和线性降维给的是BBB-,差了点儿。
实时风控引擎&准实时风控引擎实时风控主要在交易过程对交易过程进行实时监控,一个典型应用场景是甄别钓鱼、盗卡风险。准实时风控典型应用场景是在T+1结算时候,对商户洗钱、跑路进行甄别。实时/准实时风控引擎一般采用规则引擎+复杂事件处理(CEP)。
复杂事件处理(CEP):开源的方案有Esper、Storm、Spark等,商业方案有Apama。了解复合事件处理,有篇
2)大数据催收(根据大数据技术描述出的个人知识图谱和用户画像而进行的大数据催收)
现在大数据的应用领域非常广泛,它几乎已经涵盖各个行业,包括但不限于金融、政府、零售、交通、制造、电信、医疗卫生以及政府的很多部门的各个领域。然而,金融行业一直是大数据应用的前沿和领航者,这与金融行业的激烈竞争和“有钱”是分不开的。
数据显示,中国大数据IT应用投资规模以五大行业最高,其中以互联网行业占比最高,占大数据IT应用投资规模的28.9%,其次是电信领域(19.9%),第三为金融领域(17.5%),政府和医疗分别为第四和第五。
在大数据应用综合价值潜力方面,信息技术、金融保险、政府及批发贸易四大行业潜力最高。具体到行业内每家公司的数据量来看,信息、金融保险、计算机及电子设备、公用事业四类的数据量最大。
引用一篇报告,里面讲到:说起高科技驱动的行业时,人们首先想到的肯定不是银行业。然而,当我们考虑大数据的 3V 特性,Volume、Velocity和 Variety时,很难有其他行业能够比金融行业更加贴近这些特性。例如,仅 2016 年 4 月一个月,外汇(ForEX)市场每天平均交易额为 1.5 万亿美元,外汇市场提供了世界各国货币之间的实时汇率,促进了全球贸易和结算。
Volume:TB 甚至 PB 的数据才被认为达到大数据级别。金融行业产生了大量的报价、市场数据和历史交易数据。单是纽交所一天就会写入超过 1 TB 的数据。
Velocity:数据存储或者处理速度达到每秒 100000 次以上才认为符合大数据标准。 对于金融市场而言,如此高速的产生数据不算什么难事。而且,系统处理交易数据的速度越快,他们交易的速度就越快。
Variety:这要求大数据算法能够处理不同的数据格式和数据源。在企业银行中,机构要同时处理参考数据(比如法人实体)、交易和市场数据、客户要求(通过电子或者声音的形式提出)以及其他很多数据源。
从大数据的视角来看,金融行业更有意思的地方在于,新的规范和汇报标准形成的持续流动为金融系统提供了新的数据源和更加复杂的维度。
一些金融行业管理者认为,大数据只能解决技术问题而不能解决业务问题。然而,数据是由业务产生的、数据结果用在业务上,泛亚电竞平台很明显技术是支持业务的。一些人不理解如何从数据流中获得价值,而另一些觉得大数据方法可以提升技术效率但是对于盈亏底线用处不大。然而,大数据方法可以提供的深度分析能够直接支持业务增长并提升效率。金融行业从来不是数据科学家的心之所往,所以一些金融机构在为自身寻找和吸引技能型人才方面困难重重。最终,即使是金融机构具备变革意愿,但他们并不清楚要让企业转型利用大数据方法应该如何开始、从何处开始。
国内不少银行已经开始尝试通过大数据来驱动业务运营,如中信银行信用卡中心使用大数据技术实现了实时营销,光大银行建立了社交网络信息数据库,招商银行则利用大数据发展小微贷款。总的来看银行大数据应用可以分为四大方面:
第一方面:客户画像应用。客户画像应用主要分为个人客户画像和企业客户画像。个人客户画像包括人口统计学特征、消费能力数据、兴趣数据、风险偏好等;企业客户画像包括企业的生产、流通、运营、财务、销售和客户数据、相关产业链上下游等数据。值得注意的是,银行拥有的客户信息并不全面,基于银行自身拥有的数据有时候难以得出理想的结果甚至可能得出错误的结论。比如,如果某位信用卡客户月均刷卡8次,平均每次刷卡金额800元,平均每年打4次客服电话,从未有过投诉,按照传统的数据分析,该客户是一位满意度较高流失风险较低的客户。但如果看到该客户的微博,得到的真实情况是:工资卡和信用卡不在同一家银行,还款不方便,好几次打客服电话没接通,客户多次在微博上抱怨,该客户流失风险较高。所以银行不仅仅要考虑银行自身业务所采集到的数据,更应考虑整合外部更多的数据,以扩展对客户的了解。包括:
(1)客户在社交媒体上的行为数据(如光大银行建立了社交网络信息数据库)。通过打通银行内部数据和外部社会化的数据可以获得更为完整的客户拼图,从而进行更为精准的营销和管理;
(2)客户在电商网站的交易数据,如建设银行则将自己的电子商务平台和信贷业务结合起来,阿里金融为阿里巴巴用户提供,用户只需要凭借过去的信用即可;
(3)企业客户的产业链上下游数据。如果银行掌握了企业所在的产业链上下游的数据,可以更好掌握企业的外部环境发展情况,从而可以预测企业未来的状况;
(4)其他有利于扩展银行对客户兴趣爱好的数据,如网络广告界目前正在兴起的DMP数据平台的互联网用户行为数据。
第二方面:精准营销。在客户画像的基础上银行可以有效的开展精准营销,包括:
(1)实时营销。实时营销是根据客户的实时状态来进行营销,比如客户当时的所在地、客户最近一次消费等信息来有针对地进行营销(某客户采用信用卡采购孕妇用品,可以通过建模推测怀孕的概率并推荐孕妇类喜欢的业务);或者将改变生活状态的事件(换工作、改变婚姻状况、置居等)视为营销机会;
(2)交叉营销。即不同业务或产品的交叉推荐,如招商银行可以根据客户交易记录分析,泛亚电竞平台有效地识别小微企业客户,然后用远程银行来实施交叉销售;
(3)个性化推荐。银行可以根据客户的喜欢进行服务或者银行产品的个性化推荐,如根据客户的年龄、资产规模、理财偏好等,对客户群进行精准定位,分析出其潜在金融服务需求,进而有针对性的营销推广;
(4)客户生命周期管理。客户生命周期管理包括新客户获取、客户防流失和客户赢回等。如招商银行通过构建客户流失预警模型,对流失率等级前20%的客户发售高收益理财产品予以挽留,使得金卡和金葵花卡客户流失率分别降低了15个和7个百分点。
(1)中小企业贷款风险评估。银行可通过企业的产、流通、销售、财务等相关信息结合大数据挖掘方法进行贷款风险分析,量化企业的信用额度,更有效的开展中小企业贷款。
(2)实时欺诈交易识别和反洗钱分析。银行可以利用持卡人基本信息、卡基本信息、交易历史、客户历史行为模式、正在发生行为模式(如转账)等,结合智能规则引擎(如从一个不经常出现的国家为一个特有用户转账或从一个不熟悉的位置进行在线交易)进行实时的交易反欺诈分析。如IBM金融犯罪管理解决方案帮助银行利用大数据有效地预防与管理金融犯罪,摩根大通银行则利用大数据技术追踪盗取客户账号或侵入自动柜员机(ATM)系统的罪犯
(1)市场和渠道分析优化。通过大数据,银行可以监控不同市场推广渠道尤其是网络渠道推广的质量,从而进行合作渠道的调整和优化。同时,也可以分析哪些渠道更适合推广哪类银行产品或者服务,从而进行渠道推广策略的优化。
(2)产品和服务优化:银行可以将客户行为转化为信息流,并从中分析客户的个性特征和风险偏好,更深层次地理解客户的习惯,智能化分析和预测客户需求,从而进行产品创新和服务优化。如兴业银行目前对大数据进行初步分析,通过对还款数据挖掘比较区分优质客户,根据客户还款数额的差别,提供差异化的金融产品和服务方式。
(3)舆情分析:银行可以通过爬虫技术,抓取社区、论坛和微博上关于银行以及银行产品和服务的相关信息,并通过自然语言处理技术进行正负面判断,尤其是及时掌握银行以及银行产品和服务的负面信息,及时发现和处理问题;对于正面信息,可以加以总结并继续强化。同时,银行也可以抓取同行业的银行正负面信息,及时了解同行做的好的方面,以作为自身业务优化的借鉴。
大数据时代,券商们已意识到大数据的重要性,券商对于大数据的研究与应用正在处于起步阶段,相对于银行和保险业,证券行业的大数据应用起步相对较晚。目前国内外证券行业的大数据应用大致有以下三个方向:
2011年5月英国对冲基金Derwent Capital Markets建立了规模为4000 万美金的对冲基金,该基金是首家基于社交网络的对冲基金,该基金通过分析Twitter 的数据内容来感知市场情绪,从而指导进行投资。利用 Twitter 的对冲基金 Derwent Capital Markets 在首月的交易中确实盈利了,其以1.85%的收益率,让平均数只有0.76%的其他对冲基金相形见绌。
麻省理工学院的学者,根据情绪词将twitter内容标定为正面或负面情绪。结果发现,无论是如“希望”的正面情绪,或是“害怕”、“担心”的负面情绪,其占总twitter内容数的比例,都预示着道琼斯指数、标准普尔500指数、纳斯达克指数的下跌;
美国佩斯大学的一位博士则采用了另外一种思路,他追踪了星巴克、可口可乐和耐克三家公司在社交媒体上的受欢迎程度,同时比较它们的股价。他们发现,Facebook上的粉丝数、Twitter 上的听众数和 Youtude 上的观看人数都和股价密切相关。另外,品牌的受欢迎程度,还能预测股价在10天、30天之后的上涨情况。
但是,Twitter 情绪指标,仍然不可能预测出会冲击金融市场的突发事件。例如,在2008年10月13号,美国联邦储备委员会突然启动一项银行纾困计划,令道琼斯指数反弹,而3天前的Twitter相关情绪指数毫无征兆。而且,研究者自己也意识到,Twitter 用户与股市投资者并不完全重合,这样的样本代表性有待商榷,但仍无法阻止投资者对于新兴的社交网络倾注更多的热情。
(1)客户细分。通过分析客户的账户状态(类型、生命周期、投资时间)、账户价值(资产峰值、资产均值、交易量、佣金贡献和成本等)、交易习惯(周转率、市场关注度、仓位、平均持股市值、平均持股时间、单笔交易均值和日均成交量等)、投资偏好(偏好品种、下单渠道和是否申购)以及投资收益(本期相对和绝对收益、今年相对和绝对收益和投资能力等),来进行客户聚类和细分,从而发现客户交易模式类型,找出最有价值和盈利潜力的客户群, 以及他们最需要的服务, 更好地配置资源和政策, 改进服务,抓住最有价值的客户。
(2)流失客户预测。券商可根据客户历史交易行为和流失情况来建模从而预测客户流失的概率。如2012年海通证券自主开发的“给予数据挖掘算法的证券客户行为特征分析技术”主要应用在客户深度画像以及基于画像的用户流失概率预测。通过对海通100多万样本客户、半年交易记录的海量信息分析,建立了客户分类、客户偏好、客户流失概率的模型。该项技术最大初衷是希望通过客户行为的量化分析,来测算客户将来可能流失的概率。
2012年,国泰君安推出了“个人投资者投资景气指数”(简称3I指数),通过一个独特的视角传递个人投资者对市场的预期、当期的风险偏好等信息。国泰君安研究所对海量个人投资者样本进行持续性跟踪监测,对账本投资收益率、持仓率、资金流动情况等一系列指标进行统计、加权汇总后得到的综合性投资景气指数。
3I指数通过对海量个人投资者真实投资交易信息的深入挖掘分析,了解交易个人投资者交易行为的变化、投资信心的状态与发展趋势、对市场的预期以及当前的风险偏好等信息。在样本选择上,选择资金100万元以下、投资年限5年以上的中小投资者,样本规模高达10万,覆盖全国不同地区,所以,这个指数较为有代表性。在参数方面,主要根据中小投资者持仓率的高低、是否追加资金、是否盈利这几个指标,来看投资者对市场是乐观还是悲观。“3I指数”每月发布一次,以100为中间值,100—120属于正常区间,120以上表示趋热,100以下则是趋冷。从实验数据看,从2007年至今,“3I指数”的涨跌波动与上证指数走势拟合度相当高。
总的来看,大数据在金融行业的应用起步比互联网行业稍晚,其应用深度和广度还有很大的扩展空间。金融行业的大数据应用依然有很多的障碍需要克服,比如银行企业内各业务的数据孤岛效应严重、大数据人才相对缺乏以及缺乏银行之外的外部数据的整合等问题。可喜的是,金融行业尤其是以银行的中高层对大数据渴望和重视度非常高,相信在未来的两三年内,在互联网和移动互联网的驱动下,金融行业的大数据应用将迎来突破性的发展。
网易数帆 EasyData 作为一站式数据开发治理平台,通过大数据开发套件,将数据开发、任务运维、自助分析、数据管理、项目管理等工作通过工作流的方式有效的串联起来,提供敏捷易用的用户操作界面,降低了大数据分析的使用门槛,显著的提高了数据开发工程师和数据分析师的工作效率。猛犸大数据平台在电商、音乐、云课堂学习、企业工业制造等领域已广泛应用,基于持续的需求驱动,通过多行业的业务验证,同时丰富全面的组件,提供完善的平台能力,满足不同类型的业务需求。
在对数据的分析处理过程中,数据的安全重要性不言而喻。猛犸平台底层使用Kerberos认证,实现了数据的安全性和隔离性。除了认证系统,利用Ranger实现了细粒度的权限控制,保证了各个租户只能查看授权访问的表、库和字段。不仅如此,平台还提供审计功能,通过对用户平台行为进行记录、分析和汇报,用来帮助对事故追根溯源,提高了平台的安全性。
大数据重塑了金融行业,给金融领域带来了巨大变革。那么,大数据在金融行业能够实现哪些功能,金融行业大数据的来源有哪些,运营商大数据在金融领域扮演着怎样的角色呢?本节将依次解答以上问题,详细介绍运营商助力金融服务的案例——征信产品中的验证查询类服务、信用评估服务。
国际知名咨询公司麦肯锡的分析报告指出,无论是从投资规模还是从应用潜力来看,金融行业都是大数据应用的重点领域(见图 5-10)。
如今,大数据及相关技术已经被充分利用在金融信贷、信用消费评级、信息验证等金融业务场景中。具体而言,大数据在金融行业能够实现的功能如下:
征信,即信用报告或者信用分享。在放贷之前,放贷机构需要了解借款人的信用状况。
信息验证核实,在个人用户办理业务时,应用大数据分析技术能够大幅度提高数据的真实性和可靠性。可以在用户办理业务的过程中,增加对用户的验证查询,加强欺诈识别,降低金融风险。
信贷预判,为金融服务商提供决策依据,为银行、贷款、P2P 金融等业务提供风险控制服务,拓展信用体系生态圈。
图 5-10 大数据应用的领域(来源:麦肯锡《大数据:下一个创新、竞争和生产力的前沿》报告)
随着金融改革进程的加快,建立多元化、安全、诚信的运作系统是未来金融行业发展的必然趋势。不断探索、发掘、洞悉金融大数据的有效价值,利用大数据分析和挖掘等技术进一步催化社会诚信,助力金融信用体系建设,才能使金融信用本身的「含金量」得到有力显现。
一是运营商数据,如运营商维护的用户各类消费历史及消费情况、客户的 VIP 属性、缴费行为和付费模式,这类数据可以用来评估用户的信用情况。另外,运营商独有的实时位置信息资源能够辅助进行用户职住信息核实等。
二是信用卡类数据,如信用卡申请年份、申请通过与否、信用额度、卡片种类、还款金额、还款及时情况等,这类数据都可以用来作为信用评级的参考数据。
三是第三方支付数据,最典型的案例如支付宝。支付是互联网金融行业的资金入口和结算通道,第三方支付平台可基于用户消费数据做信用分析,支付方向、月支付额度、消费品牌都可以作为信用评级数据。
四是电商数据,以阿里巴巴为例,它已利用电商大数据建立了相对完善的风控数据挖掘系统,并通过旗下的阿里巴巴、淘宝、天猫,结合支付宝等积累的大量交易数据作为基本原料,将数据输入网络行为评分模型,进行信用评级。
五是生活服务类数据,包括 O2O 服务、租车打车 App、水电煤气费交纳等,此类数据从吃穿住行等角度客观真实地反映了个人基本信息,是信用评级中一种重要的数据类型。
六是类数据,目前可以充分利用的小贷风控数据包括信贷额度、违约记录等。由于单一企业信贷数据的数量级较低、地域性较强,业内共享数据的模式已逐步被认可。
运营商掌握着个人/企业入网时长、更换号码频率、入网后业务账单详单、各类 App 安装及使用情况、欠费时长、消费水平、通信欺诈嫌疑、信用等级等信息。因此,基于运营商真实全面的用户信息大数据资产,能够在保障用户隐私安全的前提下,利用脱敏数据提供金融行业数据验证和征信评估服务,为专业化的授信机构提供征信服务。也可以通过分析用户的各类 App 使用情况,精准选择金融产品的目标用户。