Skip to main content

忘掉你的大数据,数据思维才最重要!

“坦白讲如果没有拥有数据思维,那即使拥有了很多数据,而且不管这些数据有多大,都不能说你在做大数据,所以大数据的核心其实是要拥有数据思维。”
1、数据思维
利用数据解决问题
什么是数据思维?数据思维的最核心是利用数据解决问题,利用数据解决问题的最核心是要深度了解需求,了解真正要解决什么样的问题,解决问题背后的真实目的是什么。在解决问题的过程中我们使用数据的方法,通常可以叫量化的方法。

所谓量化的方法,就是解决问题的过程要可衡量、可评估,有非常明确的定义,这点在车老师书里有一篇就介绍了他的几个定义,即“PIMA”,这四个字母分别代表了解决问题时要考虑的几个纬度。

需要有明确的目的(P);
在达到目的的过程中需要有清晰的定义(I);
在解决问题的过程中所使用的手段是可量化的(M);
对问题、解决问题的全过程可评估(A)。

所以不管是财务、人事、还是生产或销售的每一个环节都是可量化的,可以通过数据解决问题的。

通过量化的数据解决问题,就是我们所谓的数据思维。举明略在金融行业的实际案例来看:我们先思考一下,金融行业里银行、保险或证券公司经营的目的是什么?这是核心。车老师在书里也介绍了,考虑大数据也好,考虑数据思维也好,首先是要分析出所做事情的真正目的是什么?然后再进行量化分析。

实际上,金融行业企业最核心的是风险控制问题。银行获取存款的过程做一个最基本的存款操作就行了,是没有任何风险的。但当银行想盈利的时候,存款业务因为要支付储户利息成为非赚钱手段,想赚钱要通过贷款实现。银行把收过来的存款贷出去,两者之间的利差是银行的利润。

所以对于银行来讲,真正的核心诉求是如何在贷款过程中降低风险,尽量减少贷款个体或企业不还款的风险。这个风险越低,银行的利润空间就越大。因为整个贷款利差并不高,可能只有几个点,最多也不会超过十个点,即便是现在的小贷,也不会超过十个点。但一般一个贷款人还不了款的话,银行利润就会被大打折扣。现在整个市场上的风险率或坏账率有时会高达百分之三、百分之五,即便比较低的时候可能在很多银行有百分之一点几、百分之二点几。所以如何有效的控制这个风险对银行很重要。

所以对于银行来讲,他需要了解贷款人的还款能力。而且还款能力从他贷款到还款过程中也在时时发生变化,有消费者在贷款瞬间是有还款能力的,但在还款之前的整个周期里他经历的状况其实在不断发生变化。企业更是这样子,每个企业在经营过程中的状态是瞬息万变的。所以对于银行来讲了解消费者或企业的整个经营状况、资产状况、风险状况是非常关键的,中间的每个环节都可能造成贷款人最后无法还款,银行需要评估这里面的每一个因素与最后能否发签证的关系。

在传统金融行业里,很多银行只会考虑发贷款或者发信用卡之前的风控分析。很多银行到人民银行拿到一些个人消费者征信报告,这些数据包含了消费者以前其他的贷款、每个月工资情况等等这样一些最基本的信息。银行根据信息打分,然后这个分数之上的消费者可以获批贷款,在分数之下的就不会获批。这整个过程是成本较高的,因为任何一个报告都是要花钱去买。第二点是很多情况下需要面访,现场进行风险考察,然而这个考察过程中数据的真实性和有效性也是值得商榷的。

比如我们的一个客户——邮政储蓄银行。向他们贷款的很多客户是农民,他们在种植或者养殖生产中需要资金支持,比如用来投资买种子或者购买种植养殖的基本设施。但是当面谈的时候他或许假装家里有一头牛,我将来可以卖掉这个牛还款,但这个牛有可能是从他的邻居家拉过来的。所以真正证明贷款申请人信用的数据真实性和有效性是解决这个问题过程中非常核心的问题。数据是否是真实有效的、数据是否跟最后结果有关系,这就是我们在数据思维决策过程中需要考虑的两个非常核心的问题。

“ 其实我是有一点近视眼的,我看很远处的一个广告牌,上面的文字有时我看得不是很清楚,但我的大脑是能够猜出来文字大概是讲什么的。本质上是因为在我的大脑是拥有识别低分辨率的数据,同时再把它还原推测到高分辨率的那个能力。这种能力其实也是大数据公司里面非常核心的能力。”
2、数据治理
还原推测到“高分辨率”
我接下来就给大家讲讲处理数据里面最核心的两个工作。第一个工作我们称之为数据清洗或是叫数据治理。

很多公司拥有大量的数据,但如果这些数据没有办法整合到一起,没办法清洗、在线化,没办法让使用者方便取用,那即便数据量再大也不能说这个公司有大数据。所以清洗和整合数据是非常重要的。通常在技术领域有一个概念叫“ETL”,ETL其实只把数据抽取到一起,进行数据格式统一化,最后再加载到一个可应用的平台上,这是整个数据治理行业里面最核心的几个环节。但在大数据概念出来之后,跟传统ETL有一个挺大的区别在于数据格式跟以前相比更加复杂。通常我们所谓的大数据、我们处理的数据除了包括以前的结构化数据,还包括新的非结构化数据。

非结构化数据是指数据里每一条记录之间的格式并不统一,甚至很多数据都是脏数据。大家可以想象银行的很多数据,比如消费者注册信息:姓名、年龄、手机号、身份证号,包括月收入可能都要求填,但很多情况下大家填信息的时候格式都不一定统一,比如说手机号可能有一些人填没有加“86”,再比如说身份证号有人填的是18位的,有人填的是15位的,这些信息是否是统一格式对于未来的数据应用非常关键。

今天很多互联网公司都是拥有大量数据的,中国最大的三巨头BAT都拥有海量消费者网名数据。百度云每天一个人搜索数据,阿里拥有每个人每天购物的浏览数据和下单采购数据,腾讯就不用说了,他有我们每个人的聊天记录、通信记录。他们拥有的数据都是非常可怕的。这些数据有一个很主要的工作在清洗过程中,就是需要把数据的唯一用户标识进行统一,因为很多的数据是散落在不同的子平台上的,在不同的平台上的可能会有不同的唯一标识,在有的情况下一个网名是处于登陆状态,而有些情况下是处于没有登录的情况。如何把不同的数据都打到同一个标签上是很多公司正在做的事情。

像我最近在跟几个阿里包括车老师,还有腾讯的人聊,他们自己内部都有一个类似于叫自然人计划的项目,这是公司的核心项目。这个项目工作就是把整个集团下属的所有公司的数据收集到一起,把这些数据连到一块儿,把消费者行为最后标到一个真正的可以看出来的一个自然人身上。比如说像我在阿里体系里不仅是有购物行为,还有在高德地图上的浏览的行为,而且我在高德地图上是没有登录的,那在阿里体系里面他就需要通过一些算法的猜测,而这个人使用地图的具体行为可能正好也就是这个人使用的支付宝账号的信息,他们通过一个算法是可以关联起来的。实际上这个关联并不难,因为我这两个行为都是落在同一个手机上的,他可以通过手机的ID就可以把我的行为连起来了,最后得出结论就是吴明辉的。

所以前面我也反复提到过好多次,数据实际上是每一个人、每一个个体、每个机器、每天日常的各种人的行为的一些记录。因为程序的能力,可以把数据及行为记录下来,这就产生数据。但是任何一个商业公司也好,甚至是国家也好,都没有能力去记录一个个体、一个人一天二十四小时所有的行为,这是不可能的。每个人只能记录一个片段,所以数据清洗的过程还有一个很重要的工作就是想办法把一个人的所有行为进行补全,甚至对你的未来行为进行预测。

这就好比平时用数码相机照相,平时看到一张照片是一百万像素、五百万像素还是一千万像素的,事实上大家可以理解整个世界的像素是无穷的。但是我们最后把拍照存下来的时候肯定是有限制的,如几百万或者一千万,最高可能有几千万像素的相机。但实际上拍下来,真正数码化存下来的时候,他已经是一个采样的过程,就是把真正分辨率极高的这个真实世界里面的一部分信息抽样存下来,然后分辨率越高,就是抽样的比例越高。分辨率越低,抽样的比例越低。

而我们真正记录下来数据,记录得越全面,对还原真实世界就还原得越好。但是很多情况下,如果真正的技术、好的算法或者数据清晰的整合能力很强的话,可以把一个低分辨率的信息,还原成原来很高分别率,很真实的情况。就像我们的人眼其实就很厉害,因为其实我是有一点近视眼的,但是我看很远处的一个广告牌,上面的文字有的时候我看得不是很清楚,但是我的大脑是能够猜出来到底这个文字是讲什么的,本质上是因为在我的大脑里面是拥有识别低分辨率的数据,同时再把它还原推测到高分辨率的那个能力。这种能力其实也是大数据公司里面非常核心的能力。

“并不是所有的数据在系统里面都存在,比如说我跟我同事之间的关系,我跟我爱人之间的家庭关系,可能在公安系统里面并没有完整的存储数据。但是很多数据可以非常快速的被发现出来。”
3、数据关联
同一趟火车到互为同事的推断
前面我给大家介绍的是数据的清洗整合。实际上大数据技术除了信息整合之外,另外一个很核心的技术是数据的关联。

前面我也提到了很多大数据客户不管是政府还是企业都有很多不同的数据,因为数据本身是需要关联起来,在数据真正联系到一起之后,在数据内部我们可以发现很多数据和数据之间的关系,而这些关系真正的挖掘好了之后,它的实战价值是非常大的,可以起到1+1远远大于2的作用。

在美国有一家非常有名的大数据企业叫“Palantir”,这家公司现在虽然还没上市,但市值已达两百亿美金,是全球没有上市的企业里市值排名前五的企业。这家企业之所以厉害是因为其在利用数据关联这种能力去给美国情报机构,包括CIA、美国国土安全局提供数据挖掘服务,帮助他们进行反恐和非常重大的刑事案件追查,数据的关联在很多情况下能够帮助政府很好的发现犯罪份子。

明略数据现在也在利用类似的技术给中国的公安局等部门提供类似的服务。在整个公安破案过程中,这种关系的挖掘是非常重要的。就像前面我说的,并不是所有数据在系统里面都存在,比如说我跟我同事之间的关系,我跟我爱人之间的家庭关系,可能在公安系统里面并没有完整的存储数据。但是很多数据可以非常快速的被发现出来。举个例子,当时我们在河北做了一个试点,我也是很强烈地被震撼到了。当时把我的名字输到这套系统之后,其实是通过我们自己做开发的系统,我们可以用非常快速的方法查出哪一些人是我在明略的同事。

虽然在公安系统里并没有记录我是明略的,我的同事也是明略的,我们之间这种同事关系,但在公安系统里记录了我曾经从北京坐了一趟动车去到了河北,我的另外一个同事也坐这趟车过去,同天晚上我们又入住了同一家酒店,就这样简简单单的信息,就把我们两个人关联上了。我们其他同事用类似的方法都可以非常简单地被关联在一起。当我们利用这样方法把几组数据,比如乘坐火车的数据和住酒店的数据关联到一起之后,很多关联关系就自动的被发现出来了。这个价值对于整个安全体系来讲是非常非常重要的。今天其实很多公安都在试用类似的方法侦破重大案件。

总结
大数据的核心有两个:第一,要知道数据是如何获取的。第二,要拥有“数据思维”,拥有数据思维最核心是我们要考虑到一个事物从起因到结果的发展过程,所有的数据其实是记录这个过程中的证据。

当一个机构在给一个消费者、一个个人提供服务的过程中,这些数据很多情况下就被存储下来了。存储下来的数据可以通过大数据技术来还原最开始的真相,通过统计学的模型可以把缺失的信息补全,用来预测未来的信息,这就是大数据的本质。

Spark 读取mongo数据

1. 添加mongo的依赖

org.mongodb.spark
mongo-spark-connector_2.11
2.2.0

2. 通过新的SparkSession读取数据
[java]
package com.mongodb.spark_examples;

import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.SparkSession;

public final class GettingStarted {

public static void main(final String[] args) throws InterruptedException {
/* Create the SparkSession.
* If config arguments are passed from the command line using –conf,
* parse args for the values to set.
*/
SparkSession spark = SparkSession.builder()
.master("local")
.appName("MongoSparkConnectorIntro")
.config("spark.mongodb.input.uri", "mongodb://127.0.0.1/test.myCollection")
.config("spark.mongodb.output.uri", "mongodb://127.0.0.1/test.myCollection")
.getOrCreate();

// Create a JavaSparkContext using the SparkSession’s SparkContext object
JavaSparkContext jsc = new JavaSparkContext(spark.sparkContext());

// More application logic would go here…

jsc.close();

}
}
[/java]

3.通过已经存在的SparkSession 读取数据
注意: MongoSpark从SparkContext中的conf读取mongo db的配置,所以添加新的配置必须更新到SparkSession的SparkContext,否则会报错,看了源代码才发现这个问题。
20180320233513
[java]
@Override
public Tuple2<Dataset<Row>, Schema> process(Tuple2<Dataset<Row>, Schema> data) throws ApplicationException, SystemRuntimeException {
SparkSession spark = this.getSparkSession();
getExtraOptions().forEach((k, v) -> {
spark.sparkContext().conf().set(k, v);
});

JavaSparkContext sparkContext = new JavaSparkContext(spark.sparkContext());
Dataset<Row> readData = MongoSpark.load(sparkContext).toDF();
return new Tuple2<Dataset<Row>, Schema>(readData, SchemaUtils.buildSchema(readData.schema()));
}
[/java]

如果Mongo支持ssl,这也是一个坑。

供应链金融简介

最近供应链金融比较火,在互联网金融行业整体融资趋冷的背景下,供应链金融平台仍在不断得到风险资本的青睐。其实,这是供应链金融因其风控严谨而多层次,因此是最后一片优质资产集中供应的领域,在经济下行期,互联网金融平台都在开展资产端的激烈争夺,供应链金融无疑将会受到大家的最大关注。但是做好供应链金融除了有一定资源背景外,还必须设计好交易结构,并同时深入而严谨的把握其风控关键点。
  供应链金融本质是基于对供应链结构特点、交易细节的把握,借助核心企业的信用实力或单笔交易的自偿程度与货物流通价值,对供应链单个企业或上下游多个企业提供全面金融服务。
  供应链金融并非某一单一的业务或产品,它改变了过去银行等金融机构对单一企业主体的授信模式,而是围绕某“1”家核心企业,从原材料采购,到制成中间及最终产品,最后由销售网络把产品送到消费者手中这一供应链链条,将供应商、制造商、分销商、零售商直到最终用户连成一个整体,全方位地为链条上的“N”个企业提供融资服务,通过相关企业的职能分工与合作,实现整个供应链的不断增值。
  供应链金融融资模式目前主要有三种,分别是应收账款融资模式,基于供应链金融的保兑仓融资模式和融通仓融资模式。
  应收账款融资模式是指企业为取得运营资金,以卖方与买方签订真实贸易合同产生的应收账款为基础,为卖方提供的,并以合同项下的应收账款作为第一还款来源的融资业务。
  基于供应链金融的保兑仓融资模式是在仓储监管方(物流企业)参与下的保兑仓业务,融资企业、核心企业(卖方)、仓储监管方、银行四方签署“保兑仓”业务合作协议书,仓储监管方提供信用担保,卖方提供回购担保,银行为融资企业开出银行承兑汇票。
  融通仓融资模式是指融资人以其存货为质押,并以该存货及其产生的收入作为第一还款来源的融资业务。企业在申请融通仓进行融资时,需要将合法拥有的货物交付银行认定的仓储监管方,只转移货权不转移所有权。在发货以后,银行根据物品的具体情况按一定比例(如60%)为其融资,大大加速了资金的周转。
  目前国内供应链融资平台主要做应收账款项下融资。这其中,又分为贸易项下,信贷项下,经营物业项下三类,其本质都是基于未来可预测、稳定、权属清晰的现金流来进行融资。这种融资方式快速盘活了中小微企业的主体资产——应收账款,使得中小微企业能够快速获得维持和扩大经营所必须的现金流,很好的解决了这些中小微企业回款慢而且融资难的问题。
  该模式核心交易结构如下:
10104339380
  总体来说,还款来源有四层:
  第一层:应付账款方(央企或大型国企);
  第二层:融资人/应收账款方(上游企业);
  第三层:产品增信机构(若有);
  第四层:保理机构。
  具体到产品,常见的一般有以下四种:
  央/国企作为支付信用的供应链金融;核心企业作为支付信用的供应链金融;基于融资租赁业务为交易模式,租赁资产应收租金收益权作为支付保障而设计的产品;基于商业写字楼租金收取权,商业写字楼的应收租金作为支付保障而设计的产品。
  1、央/国企作为支付信用的供应链金融
  该产品一般交易结构如下:
10104405396
  该产品的还款来源有三重保障:中央企业支付信用,融资人承诺回购,第三方资产管理公司回购保障。
  这类产品的风控标准关键点是:把控支付核心——央企,包括严格核心央企准入和核心央企动态监测。一般供应链金融平台通过自主研发的央企准入模型,实行定性指标、定量指标相结合的方式严格央企准入标准,从源头控制风险。同时需要自建企业动态跟踪监测系统,通过自主获取信息、公开市场披露信息、媒体报道信息、社交网络信息等,提前预判核心央企信用风险,一旦出现预警,立刻停止新增业务开展。
  2、核心企业作为支付信用的供应链金融
  该产品一般交易结构如下:
10104430435
  该产品的还款保障来源也是三重:大型企业支付信用,融资人承诺回购,第三方资产管理公司回购保障。
  这类产品的风控标准关键点是:筛选并监控支付核心——大型企业,包括严格大型企业准入和核心大型企业动态监测。供应链金融平台在提供融资之前,先通过自主研发的大型企业准入模型,实行定性指标、定量指标相结合的方式严格大型企业准入标准,从源头控制风险。贷后,供应链金融平台自建企业动态跟踪监测系统,通过自主获取信息、公开市场披露信息、媒体报道信息、社交网络信息等,提前预判核心大型企业的信用风险,一旦出现预警,立刻停止新增业务开展。
  3、基于融资租赁业务为交易模式,租赁资产应收租金收益权作为支付保障而设计的产品
  该产品一般交易结构如下:
10104621963
  该产品由于涉及交易方比较多,产品结构上有五重还款来源保障:承租企业支付信用,担保企业保证支付,承租企业实际控制人连带责任保证支付,融资人(融资租赁公司)不可撤销回购担保,第三方资产管理公司回购保障。
  这类产品的风控标准关键点除了把控承租企业和担保企业外,还需要贷前严格融资租赁公司准入和贷后对融资租赁公司动态监测。供应链金融平台通过自主研发的融资租赁公司准入模型,实行定性指标、定量指标相结合的方式严格融资租赁公司的准入标准,从源头控制风险。贷后,平台自建企业动态跟踪监测系统,通过密切跟踪关注发行租赁公司及基础资产承租人的主要的财务数据、生产运营管理机制、企业征信等情况,进行系统性的定期风险量化分析,提前预判融资租赁企业、承租企业的信用风险,一旦出现预警,立刻停止新增业务开展。
  4、基于商业写字楼租金收取权,商业写字楼的应收租金作为支付保障而设计的产品。
  该产品一般交易结构如下:
10104643473
  该产品的还款来源保障有三重:租户支付信用、业主保证支付和第三方资产管理公司回购保障,涉及到租户、业务和第三方资产管理公司。
  这类产品的风控标准关键点是严格物业公司的准入和动态监测租户、出租地段。平台一般通过自主研发的物业公司准入模型,实行定性指标、定量指标相结合的方式深入研究业主的租后管理机制和商业房产的所有权属等事宜,严格业主的准入标准,从源头控制风险。贷后,平台自建租户动态跟踪监测系统,通过深入研究租户的企业性质、网点布局规划、租户的征信情况以及出租地段出租率等进行系统性的风险量化分析,提前预判融租户的信用风险,一旦出现预警,立刻停止业务开展。
  综上,可以看出供应链金融的产品涉及交易主体众多,包括核心企业,融资企业,融资租赁公司,担保企业、物流企业和第三方资产管理公司等等。因此产品交易结构设计的严谨和贷前贷后对多交易主体风控的深入和细致都将决定供应链金融产品的风险,并从而决定供应链金融平台的生存和发展