寻求报道

冰鉴科技顾凌云:技术本身不是壁垒,每个技术在微小方向上的推进才是

顾凌云 2017年05月24日 热点
独立第三方征信一定要坚持走到底,如果没有独立的第三方征信,基本上中国的征信市场是起不来的


微信图片_20170524140053.jpg5月24日下午,由小饭桌、凡卓资本主办的“2017中国金融创新创业峰会”在北京四季酒店召开,冰鉴董事长兼CEO顾凌云先生发表题为《基于大数据算法技术的小微企业与个人信用评估》的演讲。演讲全文如下:   

非常感谢能有这个机会站在这里跟大家分享我的一些想法,我跟铜板街的何总不一样,何总半年没有出山,他是第一次讲,我已经讲很多次了,我今天之后就不讲了。

现在有很多人对于大数据处于完全崇拜过程当中,我认为大数据已经到达中国顶峰,以后会慢慢回落。什么事情都用机器学习和算法解决,这肯定是有问题的。

我们对自己的定位非常明确——独立的第三方征信公司。借贷机构和金融机构是我们的上帝,是我们的甲方。

做一家科技金融公司要看是否能够凝聚一堆有才华、有理想、有执行力的精英团队。

但是光有团队也没有用,还要有数据。我后面会讲到数据和技术以及算法之间到底谁最重要,我们现在因为经过长期跟各个金融机构的深耕,已经有了超千万的贷后数据,这个贷后数据和大家平时理解的不太一样。

有了团队,有了数据,我们还需要算法,在具体的场景当中展开合作,这才有用。任何算法,如果游离于场景之外是没有意义的,这就是早年在IDG资本投资的时候,我从来不投大数据平台公司的原因,以算法和框架为主导的公司,不落地场景都是空谈。

一个创业公司应该做到精致和小而美,我们为什么把个人和小微企业征信都做了呢?

我们一开始做小微企业征信,不做互联网征信,小微企业给我们留下比较长的护城河,至今为止,城墙很高,很多人都爬不上去。即使你拥有了大量的数据,而且拥有了长时间的历史数据,你仍然不能很好地解决小微企业的问题,比如说IBM1972年侧重于卖硬件,1982年是硬件和资讯混合,它仍然不能给出一个很好的评估,从这个角度来讲,小微企业的征信难度比个人征信高很多。

我们为什么做个人征信了呢?原因很简单,要对小微企业做征信,我们要对小微企业的舆情做分析,最重要一点,对小微企业的法人,也就是掌管者进行征信。所以在逻辑上,我们慢慢地从小微企业做到了个人征信。

为什么小微企业征信是比较难的事情呢?原因是这样,个人征信有很多变量,从算法角度来讲,它叫做缓变量,所有变量是高度趋同的,今天我看到一个人,他月收入十万人民币,清华大学计算机本科毕业。我基本上能判断出来他在哪几个城市工作,无外乎就是北京、上海、广州、深圳、南京、成都这几个城市,而且我知道他住的房子是什么样的,我不需要大数据技术就能够解决。个人征信变量高度相关,而且变量渐趋平缓,这样的变量让我们的建模变得更加简单,比如说一个人的性别,只能变一次;一个人的学历只能单项发展,不可能倒回来,但这些便利性在小微企业不存在的。小微企业会有无数人跳进去,想把它变成红海,但是淹死自己的可能性,比把小微企业变成红海的可能性还要更大一些。

想要打造一个高效率平台,人非常重要。在高管层面上,我们基本上70后、80后、90后按比例分布,这已经是比较好的状态了;我们公司硕士生占35%,博士生11%,本科生54%,整个公司一百多个人,大家做事情的时候都可以通过基本沟通把很多事情推进下去,沟通成本并不是特别高。

我们成立这几年,无论是4个专利44个软件著作权,还是拿到金融科技50强、2016年中国创客大奖等,都是对我们的肯定。

指数级上升的中国征信市场

很多人都说过,你在IDG美国做得很好,为什么回到中国来?我用一个数字清晰地告诉大家,我为什么回到中国来。到目前为止,中国拥有征信的人群只有3.7亿,这些人当中有很多是僵尸报告,这些僵尸报告对征信没有作用。但是在美国不一样。美国85%的人群已经被FICO覆盖了,哪怕是15%的人都能让市场欢呼雀跃,在中国这个比例完全倒过来,一部分人群根本没有被征信报告覆盖。从这个角度来讲,中国征信市场大有可为。中国征信市场是200亿还是2000亿还是3000亿,我根本不关心,中国征信是中国经济新常态渐趋平缓以后的小菜,后面慢慢剧烈以后,征信呈指数级上升的可能性是极大的。

中国的银行最大的一个问题,在于如何能够把现在掌握在自己手中,根本没有用出去的资金,投入到小微企业当中来,中国小微企业占中国企业总数的99%以上,在不到2%的批准情况下,98%的企业根本没有办法从银行体系当中拿到钱,而且即使拿到也有很大的运气成分在。基本上两个人到小微企业要看一两天,这种方法完全没错,但是没法上规模,现在有一百家企业,两个人一个小组,要么扩展成两百人的小组,要么一百个企业至少用两百天,才能轮到他做。我们通过大数据,通过第三方维度的数据,加上算法和一定程度上被减弱的IPC技术,把小微企业征信做下来。

个人征信和小微企业征信有一个最大的区别,我们从来不相信小微企业通过大数据可以全自动放贷,恰恰相反,在非常小额和高频的个人征信当中,个人征信的全自动化指日可待。

我在美国待了17年,我非常清楚地看到,独立第三方征信一定要坚持走到底,如果没有独立的第三方征信,基本上中国的征信市场是起不来的,所以央行非常明确地说明,想要拿牌照,第一件事情是先做独立第三方。要么在金融领域放贷,好好把利差做得更好,要么只做征信。

多年下来,美国还有一点比中国做得好很多,就是对于用户隐私的保护,而隐私这件事情,今天我们没有什么人过多关心,每天都有无数人问我,“我有一个2016年3月份以前的社保公积金的库,80万卖给你,你要不要?”我肯定不会拿,从经济学角度考虑也不会拿的。

隐私在很多人心中完全不被当回事,如果央行在改革当中,把隐私保护这件事情真正做起来,对于没有技术的征信公司是很大的挑战。因为最容易的显性变量也是隐私变量,比如男女性别比例一定不会被使用,是否结婚也不能使用,种族也不能使用,哪个城市和哪个省的也不能使用。当隐私的变量不允许使用了,我们会用更加薄弱的弱变量对小微企业进行评估。

数据为王还是技术为王?

到底是数据为王,还是技术为王,到底是算法重要,还是独到的数据重要。这件事情非常清楚,我对于数据极度尊重,数据今后一定会跟期货一样,在所有的场合都变得越来越透明,无论是国家政策驱动,还是数据本身的属性,都决定了这个趋势。就跟今天你买白菜一样,你可能因为白菜收成不好,今天没买到,明天你一定会买到白菜,区别是两块钱一斤,还是一块八毛钱一斤,大家看到数据流转得越来越快,政府数据开放得越来越多,所以对于大家来讲,数据不是0和1互通有无的事情,只会是多和少的事情。

从这个角度来讲,是不是数据不重要?显然不是,数据源本身变得越来越透明,但是数据积累是不能被逾越的护城河,公司做的越长,数据量的积累会越来越多,这就是我们为什么要做服务于金融机构的原因。贷后变量跟行为变量,二者结合在一起,才是映射的关系,这才是最后建模的过程。

从技术角度来讲,我们从来不认为一招鲜的技术可以解决很多问题,很多投资人问我,“你的技术是不是非常厉害?如果今天有另外一个团队跟你比技术,你会是什么情况?你会比他好多少?”我经常反问投资人,“你觉得核武器厉害不厉害?金正恩也有核武器。”所以任何一个技术,在某种程度上来讲,绝对不是独家所有,技术本身也不会成为壁垒。什么会成为壁垒?每一个技术在微小方向上推进多少会形成非常大的壁垒,我们都知道IDG投资的一家公司——三只松鼠,大家都会在网上买它的坚果,淘宝喊亲,三只松鼠服务商喊主人,你吃瓜果的时候,他给你一个塑料袋,这些效果就非常好。这就是冰鉴致力于解决的,我们在数据清洗上比别人做得好,我们在变量的整合上也比别人做得好,我们在单一的模型建立上比别人做得好,我们在模型的级联上也比别人做得好,总共加起来,我们在系统上的优势就会非常明显。

这张图看上去高大上,大家读过两年计算机或者学过三个月机器学习的公开课就会了解,这个并没有多么高深。大家看到左下角是把二维平面的数据投影到三维立体以后,如何把两个不同的子集区分开来的例子,这个说明在很多时候,之所以机器学习算法管用,那是因为我们在低维空间,当投到高维空间,到一个高平面把它分开之后,我们可以通过非线性决策边界替代决策边界。替代这件事情,大家仔细看一下这个例子就会知道,我们在这个平面当中,红颜色的点是一类,黑颜色的点是一类,因为二维空间区分开来,只能通过一维空间当中的一条直线把它分开,大家不妨试试,无论把这条直线怎么画,都不可能把黑色和红色点完全干干净净区分开,在三维空间当中,我可以用二维的超平面,非常轻松把红点和黑点区分开,这就是机器学习,是不是在所有场景下都这样做呢?显然不是,我们有三种数据,只有在反欺诈领域,在机器学习算法才会有更多的应对,在更多征信当中,某种程度上,非常简单的核心金融变量可以把个人征信做到极致。这个在小微企业做不到。

QQ截图20170524133226.png

我们对变量处理以后,层层叠加,得到我们技术的变量。

这是小微企业当中一款比较受欢迎的产品,就是通过MLT,我们对于网上抓取的所有信息进行文本和非结构化数据的分析,从而产生一个舆情指向分数,来判断一个具体的企业是怎样的。QQ截图20170524133350.png

在数据不为王的情况下,在建模过程当中,哪些数据是有用的?大家可以看到运营商、电商、第三方支付、政企机构等等,我们从来没有看到一个场景是需要以上所有数据的。在我们看来,数据固然重要,但是它并不是每时每刻在每个场景当中都发挥同等重要的作用。

到目前为止,我们积累的数据量以及我们合作伙伴的数据量,一共有70多个场景,包括冷启动的模型,包括流行的一千到三千的发薪贷,包括无场景的现金贷、线下无场景或者有场景的分析、小微企业贷款等。

我们有三款在市场上大家非常认同的标准化产品,第一款我们称之为线上小额现金贷的解决方式,包括额度稍微大一点的,甚至到一万块钱左右,有场景的消费分析都没有问题,而且我们提供了两个版本,一个是普通版,直接可以通过抓取一些数据来获得,另外叫极速版,我们只需要姓名、身份证号码和手机号就可以了。


第二款是贷款家,也就是贷款管理系统,对于小微企业和P2P平台同样适用。你的金融产品的结构设计成什么样子,你希望信息什么样子,你把信息告诉我们之后,我们的消费信贷平台会开始自动筛选,从70几个模型当中,选出针对你的金融产品最合适的模型,或者组合的模型,从而给你提供完整的风控解决方案。 

第三个是消费信贷平台。在线下消费场景中,作为链接消费者、商户、银行之间的桥梁,平台帮助银行准确评估,帮助消费者快速申请贷款,并直接用于商户消费,实现共赢。

这个例子,我简单说一下数据和现在的机器学习算法。我自己是中国历史坚定的喜好者,三国时期最著名的对手之一,就是司马懿和诸葛亮。无论从年收入还是违约记录上看,司马懿都是拥有丰富金融数据的那个人。这是传统金融机构的传统变量,根据这些变量,得到的结果是,金融机构一定会贷款给司马懿,不会贷款给诸葛亮。

QQ截图20170524133441.png

如果加上一些新的第三方数据重新进行机器学习的时候,我们发现情况变了:司马懿最近上网IP地址飘忽不定,一会儿去魏国国家图书馆,一会儿去蔡文姬茶楼去了;他没在银行借钱。在银行征信报告当中看不出来,但是在互金平台上面,苗头出现了。他以前之所以老老实实还钱,那是学生贷款,先从工资扣除再发工资,没有机会逾期;另外最近在许昌、洛阳、长安之间频繁搬家,说明要被篡权了。

再看诸葛亮,去年被马车撞了,医疗帐单超过2000两纹银,从南洋搬到成都不久,一直住在成都的丞相府。

如果把这些信息重新综合起来,我们来看,到底是司马懿值得借钱,还是诸葛亮值得借钱?所有情况就全部改变了。

QQ截图20170524133526.png

这只是一个例子,给大家解释为什么今天第三方数据极其丰富的情况下,很多反欺诈可以做得更好的原因,其本质就是数据的积累和算法的调优才能做得到。

在我看来,在小微企业的征信中,机器学习只能起到辅助作用,不能起到决策作用,因此如何跟银行体系内部信审流程产生相对比较好的结合,这是我们探索的事情。

我们之所以一直强调我们是高科技平台,我们着力于金融场景,都是基于我们的技术。比如说最前端,当用户还不知道在哪里的时候,我们通过机器学习进行精准营销,包括唤醒沉睡客户等;我们可以对用户的风控、定额、个性化定价等做出评价;最后把钱借出去之后,我们做贷后的风控模型管理,对贷后来进行判断,哪些人借了钱以后,会出现新的借贷风险,哪些在还钱的情况,会进入到M1、M2、M3的预期。我们从头到尾,用我们的算法和数据,为金融机构提供解决方案。

谢谢各位!

   

    

 

 

   


原文来源:小饭桌 作者:顾凌云
赞(5)
呵呵(0)
有料要爆,希望项目被报道,请点击寻求报道

热门推荐

最新文章