求知 文章 文库 Lib 视频 iPerson 课程 认证 咨询 工具 讲座 Modeler   Code  
会员   
 
  
 
 
     
   
分享到
大数据之“用户行为分析”
 
火龙果软件    发布于 2014-03-28
 

这几年,几家电商的价格战打得不亦乐乎,继去年的“双 11 大促”和“6·18 狂欢节”之后,电商之间以价格为主要诉求的大规模促销层出不穷,几乎要把所有能够用来造势的节日都用上了。而消费者们作为这场游戏中的弱者,不断地被这些真假价格战挑逗着和引导着。然而,在当今的商场上,还有另外一类企业不是通过简单粗暴的价格战,而是通过对数据的充分使用和挖掘而在商战中获胜的。

最典型的当属全球电子商务的创始者亚马逊(Amazon.com)了,从 1995 年首创网上售书开始,亚马逊以迅雷不及掩耳之势,彻底颠覆了从图书行业开始的很多行业的市场规则及竞争关系,10 年之内把很多像 Borders 以及 Barnes and Noble 这样的百年老店被逼到破产或濒临破产。亚马逊在利润并不丰厚的图书行业竞争中取胜的根本原因在于对数据的战略性认识和使用,在大家还都不太明白什么是电子商务时,亚马逊已经通过传统门店无法比拟的互联网手段,空前地获取了极其丰富的用户行为信息,并且进行深度分析与挖掘。

何为“用户行为信息”(User Behavior Information)呢?简单地说,就是用户在网站上发生的所有行为,如搜索、浏览、打分、点评、加入购物筐、取出购物筐、加入期待列表(Wish List)、购买、使用减价券和退货等;甚至包括在第三方网站上的相关行为,如比价、看相关评测、参与讨论、社交媒体上的交流、与好友互动等。

和门店通常能收集到的购买、退货、折扣、返券等和最终交易相关的信息相比,电子商务的突出特点就是可以收集到大量客户在购买前的行为信息,而不是像门店收集到的是交易信息。

在电商领域中,用户行为信息量之大令人难以想象,据专注于电商行业用户行为分析的公司的不完全统计,一个用户在选择一个产品之前,平均要浏览 5 个网站、36 个页面,在社会化媒体和搜索引擎上的交互行为也多达数十次。如果把所有可以采集的数据整合并进行衍生,一个用户的购买可能会受数千个行为维度的影响。对于一个一天 PU 近百万的中型电商上,这代表着一天近 1TB 的活跃数据。而放到整个中国电商的角度来看,更意味着每天高达数千 TB 的活跃数据。

正是这些购买前的行为信息,可以深度地反映出潜在客户的购买心理和购买意向。例如,客户 A 连续浏览了 5 款电视机,其中 4 款来自国内品牌 S,1 款来自国外品牌 T;4 款为 LED 技术,1 款为 LCD 技术;5 款的价格分别为 4599 元、5199 元、5499 元、5999 元、7999 元;这些行为某种程度上反映了客户 A 对品牌认可度及倾向性,如偏向国产品牌、中等价位的 LED 电视。而客户 B 连续浏览了 6 款电视机,其中 2 款是国外品牌 T,2 款是另一国外品牌 V,2 款是国产品牌 S;4 款为 LED 技术,2 款为 LCD 技术;6 款的价格分别为 5999 元、7999 元、8300 元、9200 元、9999 元、11050 元;类似地,这些行为某种程度上反映了客户 B 对品牌认可度及倾向性,如偏向进口品牌、高价位的 LED 电视等。

亚马逊通过对这些行为信息的分析和理解,制定对客户的贴心服务及个性化推荐。例如:当客户浏览了多款电视机而没有做购买的行为时,在一定的周期内,把适合客户的品牌、价位和类型的另一款电视机促销的信息通过电子邮件主动发送给客户;再例如,当客户再一次回到网站,对电冰箱进行浏览行为时,可以在网页上给客户 A 推荐国产中等价位的冰箱,而对客户 B 推荐进口高档价位的商品。

这样的个性化推荐服务往往会起到非常好的效果,不仅可以提高客户购买的意愿,缩短购买的路径和时间,通常还可以在比较恰当的时机捕获客户的最佳购买冲动,也降低了传统的营销方式对客户的无端骚扰,还能提高用户体验,是一个一举多得的好手段。

纵观国内外成功的电商企业,对用户行为信息的分析和使用,无不在这个兵家必争之地做大量投入。他们对数据战略性的高度认识和使用,非常值得国内的电商学习和借鉴。

团购的尴尬

相信很多人和我一样,每天电子信箱中都充满了这样的邮件,但是从来没有打开过。

很多团购公司都会虔诚地每天发给订户各种各样的促销信息,坦率地说其中很多都的确非常优惠,非常吸引人,但是这些团购公司忽略了一点——用户体验。

我们看看其中的一两个团购邮件,来分析里面的问题:

1,美食的推荐不分地域:一封邮件中,从五道口到王府井,从苏州桥到簋街,可能有人会因为一个 3 折或者更低的团购感兴趣,但是真的会从东五环开车去西四环吗?

2,娱乐的推荐也有类似的问题,丝毫没有考虑用户的地理位置,价格等因素

3,更有甚者,不分收信人的性别,有没有考虑可能带来的尴尬。

其实,所有这一切现象都表明现在的团购网站在 EDM 的思路上,基本上还是粗旷式的,把所有客户当作一人,彻底把电商的优势放弃了,回到了传统零售门店和邮寄销售模式的阶段去了。不仅如此,其实在电商的环境中这样的 EDM 有时候比没有还糟糕,因为它们恰恰带给这些可能成为他们客户的人们一个非常负面的用户体验,用长期不相关的占用大量篇幅的邮件占领用户的邮箱,长此以往,他们离“讨人嫌”只一步之遥了……,而对他们的惩罚可能是既简单而又残酷的,鼠标轻轻一点,他们的邮箱地址送到垃圾邮箱,从而再也无法给这个潜在的客户推送促销信息。

如果看看你的用户们的垃圾邮箱,当你看到你辛辛苦苦设计的促销直邮,规律地,全部地,在垃圾邮箱中按时报到的话,你做何感想?据专业人士分析,对一个 500 万会员的电商来说,每次 0.5% 的退订或者放进垃圾邮箱,意味着近 100 万元的营销费用打了水漂。

那么,团购网站应当如何做呢?个性化是最基本也是很有效的方法:

1, 对客户进行多维度地分析:以用户的地域、性别、年龄等人文属性建立分析维度,把所有的团购信息进行筛选,这样可以简单地把 EDM 的相关性大幅提高,起码用户收到的邮件是基本在住宅、工作场所附近,和自己的普通属性相关的,可能有一些兴趣的商品。

2, 对客户过去是否有点击,是否有购买,购买的产品价值,购买的频率,最近一次什么时候购买等属性进行量化,产生客户价值的评分,把客户分出价值的高低,对推荐的接受难易程度作出评估,依据这些评分来决定多频繁对该客户进行 EDM 操作,以及推荐的商品的细类,以提高反馈率。

3, 对购买过商品客户的购买记录,以及点击过的商品记录进行分析,对团购的折扣比例,商品原价,折扣金额,团购时间长短,能否退款,是否单人使用,口味(餐饮类),风格等等分别打分、统计、归类,以对客户的可能兴趣点进行“预测”,这是一个相对高级、相对复杂的过程,但是运用得好的话会收到非常良好的效果。

4, 考虑在所有推荐的商品旁边增加一个“不喜欢”的按钮,收集客户不喜欢的东西对个性化推荐来说具有几乎和喜欢的商品一样重要的价值,假设一个客户告诉你他不喜欢一款 49 元的西餐厅的双人午餐,可能比他点击甚至购买另外一个 99 元日餐双人套餐给你透露的信息还要多。

比如我观察到的一个比较成功的案例:一个旅游网站对客户之前的浏览、搜索行为进行了跟踪,并以此进行了有效的推荐,注意:该推荐中体现了客户的目的地、价位、旅游诉求等多方面的需求。按照这些方法,业界专门从事 EDM 优化的公司可以把 EDM 的点击率从传统意义上的 1% 左右提高到近 10% 的点击率,5000 封 EDM 产生 370 个人,510 个点击,最终共产生 800 个订单。

因此无论从什么角度来说,电子商务和团购都还有大量的优化空间,我相信以大数据为核心的个性化营销则是帮助电商在这场红海大战中赢得战役的利剑。

大数据是当下非常火爆的一个词,人人都在谈论大数据。但大数据的定义是什么?它到底是如何出现的?它有什么特别之处?它最大的应用领域在哪里?它的发展方向是什么?对于以上问题,其实大多数人是弄不清楚的。

1) 大数据时代出现的必然性

大数据和云计算这两个词经常被同时提到,很多人误以为大数据和云计算是同时诞生的、具有强绑定关系。其实这两者之间既有关联性,也有区别。云计算指的是一种以互联网方式来提供服务的计算模式,而大数据指的是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和关联形态上的颠覆性变化的总和。大数据处理会利用到云计算领域的很多技术,但大数据并非完全依赖于云计算;反过来,云计算之上也并非只有大数据这一种应用。

云计算的起源可以追溯到2003年末Amazon公司工程师Chris Pinkham提交给CEO Jeff Bezos的一篇论文中的一个设想:将Amazon内部使用的计算基础设施开放给全世界的开发者。次年11月,Amazon发布了第一版云计算服务:Simple Queue Service。Simple Queue Service 再往后发展至2006年,演变成立今天著名的AWS(Amazon Web Sercice)。同在2006年,Google 公司CEO Eric Schmidt首次公开提出了“云计算”(Cloud Computing)的这一概念,云计算也在这一年开始变得广为人知。

大数据这个词的流行却晚了好几年——直到2009年,大数据这个说法才逐渐开始在互联网圈内传播。但仅仅在互联网领域流行,仍然不足以引起普遍关注,因为纯互联网经济毕竟只占全球经济总量的很小一部分。而大数据概念真正变得火爆,却是因为美国奥巴马政府在2012年高调宣布了其“大数据研究和开发计划”——美国政府希望利用大数据解决一些政府部门面临的非常重要的问题,该计划由横跨6个政府部门的84个子课题组成。这标志着大数据真正开始进入主流的传统线下经济。

大数据出现的时间点自有它深刻的原因。2009年至2012年这段时间正是电子商务在包括中国在内的全球全面开花的几年。众所周知,互联网领域有3大类商业模式:广告、游戏和电子商务。而电子商务又是第1个真正将纯互联网经济与传统经济嫁接在一起诞生的混合模式。准确地说,正是互联网与传统经济的碰撞,才真正催生出了今天几乎全民关注的“大数据”。大数据横跨了互联网产业与传统产业,而且大数据真正广阔的应用领域其实也正是比纯互联网经济大得多的传统产业。

从数据量的角度来看,在电子商务模式出现以前,传统企业的数量增长缓慢。传统企业的数据仓库中的数据大多数来自于交易型数据,而交易这种行为处于用户消费决策漏斗的最底部,这就决定了交易前的各种浏览、搜索、比较等用户行为数据的都量远远超过交易数据。电子商务模式使得企业可以采集到用户的浏览、搜索、比较等行为,这就导致企业的数据规至少提升了一个数量级。现在日益流行的移动互联网以及将来会流行的物联网又必将使数据量提高两三个数量级。从这个角度来讲,大数据时代是必然会出现的。

从IT产业的发展来看,第一代IT巨头大多是2B的,比如IBM、Microsoft、Oracle、SAP这类传统IT企业;第二代IT巨头大多是2C的,比如Yahoo、Google、Amazon、Facebook这类互联网企业。一个有意思的现象是:大数据时代前,这两类公司彼此之间基本是井水不犯河水,我们很少看见这两类公司的老板们在一起坐而论道;但在当前这个大数据时代,这两类公司已经开始直接竞争。比如Amazon已经开始提供云模式的数据仓库服务,直接抢占IBM、Oracle的市场。这个现象出现的本质原因是:在互联网巨头的带动下,传统IT巨头的客户普遍开始从事电子商务业务,正是由于客户进入了互联网,所以传统IT巨头们不情愿地被拖入了互联网领域。如果他们不进入互联网,他们业务必将萎缩。所以第三代IT巨头可能会是2B与2C融合的IT公司。

2) 大数据的核心内涵

大数据概念虽然非常火爆,但少有人真正理解大数据的核心内容。一个普遍而且严重的误解就是:大数据=数据大,即大数据就是量大的数据。事实上,除了数据量大这个字面意义,大数据还有两个更重要的特征:

1) 跨领域数据的交叉融合。相同领域数据量的增加是加法效应,不同领域数据的融合是乘法效应

2) 数据的流动。数据必须流动,流动产生价值

对于第1)点,百分点推荐系统研究中心实验结果显示:百分点公司有3家客户,分别是从事服装、化妆品和箱包销售的电商,百分点向这3家客户提供个性化商品推荐服务,即:百分点挖掘用户的偏好,不同的用户上同一家电商网站时,向他们展现不同的服装、化妆品或箱包,从而提高电商的转化率和客单价。我们做过两种测试:

a) 将每家网站的数据隔离。当每家网站自身的数据量增加到以前的4倍时,推荐效果大约能提高5%;

b) 将三家网站的数据在去除敏感信息之后进行某种融合。融合后的数据大致是与单家网站的数据的3倍,比第一种情况数据量还少。但利用融合后的数据进行数据挖掘时,推荐效果能提升30%,而且推荐商品并未发生变化,仍然是:用户上服饰类网站时只看见服装、上化妆品网站时只看见化妆品、上箱包网站时只看见箱包。

解释得详细一点,上述实验说明:对同一个消费者,如果我们要向其推荐服装。第一种方法是我们根据他过去的4次购买服装的行为来预测其下一次可能会购买的服饰;第二种方法是我们根据他过去分别购买服装、化妆品和箱包的各1次行为来预测其下一次可能会购买的服饰。两种方法的基于的用户行数分别是4次和3次,但第二种方法的效果明显更好。

对于第2)点,其实10多年前传统企业开始做数据仓库时,数据仓库从业者经常强调一个观点:企业级数据仓库的目标是让不同部门的数据流动起来,各个部门数据割裂,数据的价值就得不到发挥。到了今天的互联网时代,我们发现即使企业已经打通了内部各个部门之间的数据,但与整个互联网比起来,数据量仍然微乎其微,数据应该以互联网为媒介在企业之间某种形式的流动。参照“企业级数据仓库”的概念,现在已经开始出现了“互联网数据仓库”的概念:就是企业通过互联网渠道将与自己相关的外部数据与内部数据进行整合,从而形成“互联网数据仓库”。百分点已经在零售与媒体领域比较成功地打造了“开放数据联盟”,该联盟的成员可以在公允、安全的情况下基于该联盟建立起自己的“互联网数据仓库”,从而享用海量数据的价值。

3) 大数据的应用领域

大数据的起源要归功于互联网与电子商务,但大数据最大的应用前景却在传统产业。一是因为几乎所有传统产业都在互联网化,二是因为传统产业仍然占据了国家GDP的绝大部分份额。

哪些传统企业最需要大数据服务呢?至少有3类企业:

1) 对大量消费者提供产品或服务的企业

2) 做小而美模式的中长尾企业

3) 面临互联网压力之下必须转型的传统企业

第1)类企业都需要利用大数据精准分析不同消费者的偏好,提高营销和服务的质量;第1)类企业都需要利用大数据分析精准定位自己的客户群;第3)类企业主要指哪些正在遭受来自互联网的新玩家冲击的传统企业,此类企业自然都需要利用互联网和大数据作为自我进化的工具。当然,第3)类企业与前2类企业有重叠。

具体来讲,中国最需要大数据服务的行业就是受互联网冲击最大的产业,首先是线下零售业,其次是金融业。

受电商的冲击,国内很多零售巨头都增长严重放缓,甚至遭遇负增长,线下零售已经到了不得不变革的危机关头。我们也看到了银泰百货、王府井百货、万达集团这些具有创新意识的传统巨头开始利用互联网和大数据来改造线下商业。其中银泰百货以手机为载体、利用O2O方式进行双线数据挖掘的创新非常值得借鉴。

而金融行业就更加特殊:金融业并不销售任何实体商品,它自诞生起就是基于数据的产业。由于国家管制,金融业在前几年享受了非常好的政策红利,内部变革动力不足。而目前金融业已经逐渐开始放松管制,新兴的金融机构必将利用互联网以及大数据工具向传统金融巨头发起猛烈攻击。而传统金融机构在互联网方面的技术积累和数据积累都不足,要快速应对新进入者的挑战,必然需要大数据服务。我们也看到了中信银行信用卡中心、招商银行信用卡中心已经在开始利用互联网大数据进行创新。

那么传统产业需要什么样的大数据服务呢?这主要包括3层:

1) 基于大数据的行业垂直应用。每个行业都有自己的特点,所以自然会存在行业应用的需求;

2) 顾客标签与商品标签的整理。不管什么行业,都需要精细化整理自己顾客的属性标签以及商品属性标签,而且这些标签必须能够细化到单个顾客和单个商品。标签是行业应用的基础;

3) 企业内部和外部数据的整合与管理。要给顾客和商品打标签,首先必须整合企业内部和外部数据,尤其是日益重要和庞大的外部数据。

图:传统企业需要的大数据服务

第3层和第2层的方法相对比较通用,行业特殊性相对较少。百分点已经在第3层和第2层做出了比较成熟的产品,并且也开始在第1层做出了一些具体的行业应用产品,比如针对服饰行业的时尚服饰搭配系统。

4) 大数据的发展方向

大数据产业未来会向什么方向发展?随着数据逐渐成为企业的一种资产,数据产业会向传统企业的供应链模式发展,最终形成“数据供应链”。拿钢铁产业来讲,铁矿石公司从矿场中挖出矿石,经过粗加工,卖给钢铁企业;钢铁企业再进行精细一点的加工,将板材、钢条卖给下游制造业公司;这些制造业公司做出汽车、飞机、门窗、电脑等产品卖给下游公司。这个产业链中存在找矿、运输、加工等诸多环节,每个环节都有对应的企业。

图:传统企业的供应链

在“数据供应链”中,存在数据、数据整合与挖掘工具以及数据应用这3大环节。数据就好比矿场的矿石;数据整合与挖掘工具就好比钢厂的冶炼炉;而精准营销、服饰搭配等数据应用就好比汽车、电脑等可以出售给消费者的产品。企业在数据供应、数据整合与挖掘、数据应用等所有环节都需要专业的服务。这里尤其有两个明显的现象:

1) 外部数据的重要性日益超过内部数据。在互联互通的互联网时代,单一企业的内部数据与整个互联网数据比较起来只是沧海一粟;

2) 能提供包括数据供应、数据整合与加工、数据应用等多环节服务的公司会有明显的综合竞争优势。

5) 什么样的大数据企业会胜出

常有大数据从业者以及投资人和我们探讨一个问题:大数据产业中,什么样的企业会最终胜出?这是一个很难回答的问题,而且即使回答了,三五年内可能都无法判断其正确性。但从“数据供应链”中的各个环节来分析,还是可以得出一些具有参考价值的结论。

1) 数据供应。在互联网没有流行的时代,企业做数据仓库、商业智能、数据挖掘等系统时采用的数据基本都来自于企业内部,企业几乎无法获取外部数据,所以很少有专业的数据供应商。互联网改变了这一局面,将来会有专业的数据供应商。但既然是因为互联网的出现导致了数据供应商的出现,那么反过来数据供应商就必须具有很强的互联网基因;

2) 数据整合与挖掘。数据挖掘工具供应商在非互联网时代就早已存在。但互联网时代使得企业的数据量激增、数据类型发生极大变化(不同于传统的来自于单一领域的结构化数据,互联网数据以跨域的非结构化数据为主),传统的数据挖掘工具供应商的技术和方法已经很难适应。要跟上时代的变化,数据挖掘技术与工具应用商必须具备互联网公司的海量数据处理和挖掘的能力;

3) 数据应用。具体的行业应用与传统行业的业务关系密切,要做好行业应用,最好需要有服务传统行业的经验,了解传统行业的内部运作模式。这时候仅仅具有2C经验的互联网基因的公司又稍显不足。

综合起来看,如果一家大数据从业公司同时兼备互联网数据获取能力、互联网技术、互联网执行力,又有做2B服务的经验,那么这家公司将比较容易取得领先优势。这个结论其实一点也不奇怪:如本文开篇所述,大数据本来就是互联网与传统产业碰撞时的产物。

用“方兴未艾”这个词来形容大数据产业的发展阶段都还为时过早,目前的大数据产业只能说是小荷才露尖尖角。国内企业在第1代IT产业(硬件和软件产业)中是明显落后国外企业的;在第2代IT产业(互联网产业)中,国内企业已经与国外企业差距不大甚至在很多方面超过了国外企业;希望在第3代IT产业(云计算和大数据)浪潮中,国内企业能够完全赶上并且超过国外企业,我们也认为这是很有可能的。

相关文章

基于EA的数据库建模
数据流建模(EA指南)
“数据湖”:概念、特征、架构与案例
在线商城数据库系统设计 思路+效果
 
相关文档

Greenplum数据库基础培训
MySQL5.1性能优化方案
某电商数据中台架构实践
MySQL高扩展架构设计
相关课程

数据治理、数据架构及数据标准
MongoDB实战课程
并发、大容量、高性能数据库设计与优化
PostgreSQL数据库实战培训
 
分享到
 
 


MySQL索引背后的数据结构
MySQL性能调优与架构设计
SQL Server数据库备份与恢复
让数据库飞起来 10大DB2优化
oracle的临时表空间写满磁盘
数据库的跨平台设计
更多...   


并发、大容量、高性能数据库
高级数据库架构设计师
Hadoop原理与实践
Oracle 数据仓库
数据仓库和数据挖掘
Oracle数据库开发与管理


GE 区块链技术与实现培训
航天科工某子公司 Nodejs高级应用开发
中盛益华 卓越管理者必须具备的五项能力
某信息技术公司 Python培训
某博彩IT系统厂商 易用性测试与评估
中国邮储银行 测试成熟度模型集成(TMMI)
中物院 产品经理与产品管理
更多...