AI产品经理,如何面对数据挖掘?

本文分别先从AI产品需求发现阶段、再从AI产品需求设计制造阶段对数据挖掘的利用,然后落地到数据挖掘具体的案例解析,最后得出AI产品大数据观点。

经过多年互联网和移动互联网的飞猛发展,科技网络产品发展到焦虑的时间节点。一方面流量成本高到几乎没有投入产出比可言,另外一方面产品和企业同质化竞争激烈。

接下来的趋势有两股同方向的产品力量,将是产品经理和企业产品创新的机会点:

  • 第一是:利用PC和移动互联网积累的大数据做打破数据孤岛类的产品和数据挖掘,数据分析类的产品。
  • 第二是:在大数据的肩旁上,深度结合业务供应链场景设计10倍于以往产品体验的AI算法产品、AI赋能的智能软硬件产品。

本文分别先从AI产品需求发现阶段、再从AI产品需求设计制造阶段对数据挖掘的利用,然后落地到数据挖掘具体的案例解析,最后得出AI产品大数据观点。

一、数据挖掘用于AI产品需求发现

需求的发现是产品经理和企业产品创新取得成功的关键,数据信息在产品的创新设计与制造中发挥越来越重要的作用,充分利用数据挖掘技术从产品市场需求发现、需求设计中提取相应的需求,从而控制和改善下一代产品的设计与制造。

目前,AI赋能的智能软硬件整体产品的研制周期长,市场反应能力弱,创新度不够等一系列因素控制了产品制造企业的生存和发展,不论是万亿市值的苹果还是国内的华为小米一年旗舰智能手机只有一款。这个现象背后正是因为AI赋能的软硬一体产品,在需求发现到产品设计上有其特殊性。

因此,如何在最短的时间内开发出质量高、价格能被用户接受的AI产品,已成为产品经理市场竞争的焦点。数据挖掘技术已经成为分析和发现需求,提供决策十分有效的工具,而需求发现速度快起来后可以给需求设计制造更多时间,所以必将有力地支持AI产品的创新设计和制造过程。

数据挖掘(Data Mining,简称DM)就是从大量的、不完全的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和需求的过程。

根据产品发现需求的不同,数据挖掘的任务主要分为以下 6 类:

(1)关联分析需求,揭示隐藏在数据之间相互关系的一项挖掘潜在需求的数据挖掘任务。

例子:“尿布与啤酒”的故事。

在一家超市里,有一个有趣的现象:尿布和啤酒竟然摆在一起出售。但是,这种奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛超市的真实案例,并一直为商家所津津乐道。

沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物需求进行了深层分析,想了解顾客经常一起购买的商品都有哪些。沃尔玛数据仓库里集中了其各门店的详细的原始交易数据,在这些原始交易数据的基础上,沃尔玛利用关联规则对这些数据进行分析和挖掘,得出了一个令人意外的发现:“跟尿布一起被购买最多的商品竟是啤酒!”

经过大量实际调查和分析,揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种需求模式:在美国,一些年轻的父亲下班以后要经常到超市去买婴儿尿布,而他们中有30%~40%的人同时也会为自己买一些啤酒。

产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。

按照常规思维模式,尿布与啤酒风马牛不相及,若不是借助关联规则进行挖掘和分析,沃尔玛是不可能发现数据之间存在的这一有价值的需求。

以前企业的信息管理系统由于缺乏数据挖掘功能,最多只能统计一些数据,从表面上似乎合理,但实际上根本不能反映出本质的情况。例如:通过传统的信息管理系统,我们得出某一种红酒在超市的销售额排名倒数第一位,按照以往的做法,该红酒肯定会停止销售,但是通过对所有销售数据进行关联分析,我们会发现消费额最高的客户中有25%常常买这种红酒,如果停止出售这种红酒,必然会引起这些高端客户的不满。

关联分析就是发现交易数据库中不同商品之间的内在的联系,利用关联规则找出顾客购买行为模式,如购买了某一商品对其它商品的影响。例如:它能发现数据库中如“90%的顾客在一次购买活动中购买商品X的同时购买商品Y”之类的问题,发现这样的规则可以应用于商品货架设计、库存安排以及根据购买模式对用户进行需求分析等。

用于关联规则发现的主要对象是事务型数据库,其中针对的应用则是商品销售数据。如果对这些历史数据进行分析,则可以对顾客的购买行为提供极有价值的信息。例如:可以帮助商家如何摆放货架上的商品,如何帮助商家规划市场等。

总之,从事务数据中发现关联规则,对于改进商业活动的决策非常重要。

(2)序列发现需求,是指确定数据之间与时间相关的序列模式,利用该模式可对未来的相关行为进行预测。

例子:数据挖掘中序列发现的需求分析应用比如顾客购买行为分析、网络访问模式的分析。对一家完善的大型零售企业来说,往往拥有固定会员。会员可以购买较低价格商品,享受更加优惠的售后服务等等。

会员应是经常在某一家店铺购物的消费者,因此经历较长时间的会员其购物成为按时间的购物序列,而不同会员就可能存在相同的购物序列。比如:两个都喜欢购买新科技产品的会员,销售记录中就会记录他们每次购买的科技产品,从而可以将个人的喜好推荐给另一个人,这也形成交叉销售。

(3)聚类分析需求,是指依赖样本间关联的量度标准将其自动分成几个群组,且使同一群组内的样本相似,而属于不同群组的样本相异的一组方法。

例子:基于数据挖掘的聚类分析,可以借助大数据的优势,发现数据背后的需求。利用起点学院“成为AI产品经理”在线开放课程学习者的网络学习过程记录,采用数据挖掘工具对网络学习者行为进行聚类分析,研究发现:根据学习特征,网络学习者可以分为高沉浸性型、较高沉浸性型、中沉浸性型、低沉浸性型四种群体。

学习行为与学习效果密切相关,沉浸性高的学习者学习效果往往较好。笔者作为《成为AI产品经理》课程老师借助技术工具,对学习者进行不断更新、实时、循环的聚类分析,及时发现学习者的个体及群体学习特征,因材施教,推送适应性的个性化服务,并给予及时的学习预警与恰当的教学干预。

(4)分类,是指找出一个类别的概念描述,它代表了这个类别数据的整体信息,一般用规则或决策树模式表示。

例子:分类发现需求,首先应该将分类与聚类分开。很多数据产品经理在学习数据方法之初,容易将聚类和分类搞混淆。其实聚类属于无监督学习范畴(unsupervised learning),也可称作观察式学习过程,与分类不同,分类依赖已有既定的先验知识。

例如:我们成年后,很清楚世界是由男人和女人组成的,所以我们在建厕所的时候,会把厕所分为男厕所和女厕所,这就是“分类”。而当我们刚生下来,我们并不知道什么是男人,什么是女人,通过后天对生活的观察,我们发现有一类人他们有胡子,而有一类人她们头发比较长(当然,我的这个举例已经显然不符合当今世界的发展了,你们明白就行)。于是我们就把有胡子的人分为一类人,把长头发的分为另一类人。

然后“研究”发现:原来有胡子的叫男人,有长头发的叫女人,这个过程就是“聚类”。

(5)偏差检测,就是从数据分析中发现某些异常情况是否重要,从而获得有用的需求。

例子:一批数据中的异常值值得关注,忽视异常值的存在是十分危险的,不加剔除地把异常值包括进数据的计算分析过程中,对结果会带来不良影响;重视异常值的出现,分析其产生的原因,常常成为发现需求进而改进决策的契机。

例如:A君是机车爱好者骑摩托不带安全帽,他会说他周围的朋友都不带安全帽,更刺激更能感受空气触感而且周围朋友都很安全,相反某某著名机车选手带了安全帽损失性命的例子。

大数据挖掘样本是基于从大样本的数据来看,不带安全帽骑机车比带安全帽整体不安全。下论断要从统计整体上来看,揪住一个异常需求没有意义。数据产品经理知道这一点以后,就可以在诸如非金融财产型产品需求里对某些异常需求可以缓一些解决。

(6)预测,就是利用历史数据找出变化规律,建立模型,并用此模型来预测未来需求等。

例子:通过数挖得到预测的例子非常多,这里从行业方面举几个例子,例如:电力行业通过数挖到不同行业在未来对电力的不同,进而更好的做好对各个行业电力需求的供应。例如:物流行业通过对库存需求的挖掘调配货运司机。例如:新零售企业通过数挖准备商家和商品备货等。

二、数据挖掘用于AI产品设计制造

在产品的设计与制造过程中,利用数据挖掘可得产品设计的创新,提高产品质量,加速产品的制造过程。

数据挖掘在AI产品设计与制造系统中的主要过程如下:

(1)模式发现

在产品的设计和制造系统数据中隐含了重要的模式,比如:购买次数较多的顾客特征,对促销感兴趣的顾客特征以及不购买顾客特征等分析,数据挖掘就是对隐含在数据中模式的深度分析。

(2)趋势预测

数据挖掘不仅能够提取静态的模式,也能预测动态的发展趋势,目前时间序列挖掘是一个研究的热点,动态的趋势能够反映顾客兴趣的改变,从而使企业对发展趋势做出相应的市场决策。

(3)数据的降维

数据的降维也叫做主成份分析,现代数据库中包含了交易信息的特征,不相关的数据条目和特征可以从数据集中消除,数据降维的主要作用是选择关键的数据进行分析。

(4)可视化产品制造

数据可视化主要旨在借助于图表、图、表格等形化手段,清晰有效地传达与沟通信息。

根据AI产品全生命周期考虑,产品设计与开发过程可划分为:产品需求分析(MRD)、概念设计(Featurelist设计)、详细设计(PRD设计)、工艺设计、样品试制、生产制造、销售与售后服务等阶段。

每个阶段和环节之间都存在着反馈和迭代过程,但其额度对不同设计类型有所不同 , 基于并行工程的AI产品设计与开发过程如下图 :

因为AI产品是站在传统产品肩旁上发展而来,尤其是基于移动互联网的发展累积的大数据的基础上而实现迅猛发展。故此仅针对上图中的两个跟传统产品不同的点进行讲解。

1)AI产品特别是软硬一体产品,一般是先进行上市及先用样品上市,看市场情况再进行批量制造。

这是AI产品制造的特点,传统的商业模式为先制造、后销售、再消费,企业为消费者提供产品,消费者则是被动的产品接受者。

但在AI赋能的时代背景下则呈现一种新型商业模式,即先个性化定制、再制造、后消费,用户先提出个性化需求,企业再为用户提供个性化服务,这样可以极大地提高用户的参与度,也能使得企业真正地去理解和思考用户的需求。

2)AI产品是为了更好地满足客户的需要,进而赢得市场,增加企业的竞争力。因此,比如在市场分析中考虑客户真正需要的产品特征、产品的那些特征最重要等,客户需求最好能与设计规划产品进行集成。另外,需求可以很好地帮助设计师采取适当的产品开发策略,开发出满足客户需要的AI产品。

AI时代工厂是智能制造的载体和集中体现,用户可以直接从智能工厂的用户交互定制平台定制产品,参与到产品的个性化定制过程中,全球任何地方的用户都可以根据自己的个性喜好,自由选择产品的款式,颜色和性能等。提交订单直接下达到工厂,智能工厂可以实现用户通过网络系统对定制生产的全流程实时互联互通,掌握供应链情况,知晓制造进度,追踪货物交付。

在AI制造的生产方式下,产品设计流程的主要步骤是:需求、设计、销售、生产,用户希望通过定制平台自行设计或是选择所需要的产品,不愿接受没有选择性的设计方案。

这一过程可以实现的基础在于三点:

  • 一是用户提出产品的设计需求,交由设计师来完成;
  • 二是用户根据设计师提供的产品设计方案,自行选择以满足设计需求;
  • 三是对成型的设计产品进行选择,获取设计方案。

用户通过企业的定制平台参与到产品的设计。生产和交付的全流程,通过对不同的产品模块进行选择与组合,构建出符合自己个性的特色产品,极大地简化了AI产品的设计过程。

(5)产品设计

产品设计是在有限的时空范围内,在特定的物质条件下,为了满足一定的需求而进行的一种创造性思维活动的实践过程,设计具有创造性、复杂性和不确定性,其中包括分析、综合和评价等过程,设计过程中的每一个行为都对应于这三维空间中的一个点,如下图所示:

基于数据挖掘的全息AI产品概念设计框架,主要考虑产品数据与环境数据之间的相互作用,发现其中隐含的需求。

数据挖掘运用遗传算法、决策树算法在新产品开发中。要在产品设计中进行创新,就要对过去的设计经验和数据信息进行总结、分解与组合,数据挖掘技术对设计知识的分析,有利于产品设计的创新,使之实现新的需求。

三、大数据挖掘方法案例解析

举例子:京东数据挖掘系统设计实现的例子。

产品经理或者产品运营人员提出需求,主要目的是获取给定商铺的url,通过系统分析,直接将商铺的商品信息,即评论中对商品评价的关键词直接呈现给消费者,使消费者对商品信息一目了然,从而节约消费者大量时间。

技术人员需要根据上述需求进行如下操作步骤:

  1. 性能需求评估。
  2. 然后搭建开发环境,例如:Python3.0+Pycharm5.7+Redis4.0+Window10。
  3. 数据库设计:在技术进行数据库设计的时候,产品经理最好配好技术人员进行表设计。例如:这个案例中的商品抓取表和商品分析结果表,因为商品抓取记录表中需要明确商品的字段,同理商品分析结果表中的字段和备注等。
  4. 数据爬取模块设计,一般采用分布式抓取。
  5. 数据爬取模块实现。
  6. 数据分析模块实现,以百富帝纯棉四件套商品为例,客户只需输入该商品的url,即可开始分析,该商品不同颜色购买数量关系、购买渠道占比、购买用户的等级分布。

至此数据数据挖掘完成,已将该商品的全部有用信息即商品评价、颜色销量、购买时间、购买渠道和用户等级分别展示给了用户。

除了京东的例子外数据挖掘的例子,还有如下:

(1)恶意软件的智能检测,在大数据时代下,在恶意软件检测中数据挖掘技术得到广泛的应用

恶意软件严重损害到网络和计算机,恶意软件的检查依赖于签名数据库(signature atabase,SD),通过SD,对文件进行比较和检查,如果字节数相等,则可疑文件将被识别为恶意文件。

有些基于有标签的恶意软件检测的主题,集中在一个模糊的环境下,进而无法进行恶意软件行为的动态修改,无法识别隐藏的恶意软件。相反地,基于行为的恶意软件检测就可以找到恶意文件的真实行为。而如果采用基于数据挖掘技术的分类方法,就可以根据每个恶意软件的特征和行为进行检测,从而检测到恶意软件的存在。

(2)信用卡的违约预测

金融产品经理有很多创新性产品是围绕着信用卡或者类信用卡类产品来做产品的,例如:花呗、京东白条等。

在办理这类信用卡之前,银行或者企业首先需要对申请人进行细致调查,根据申请人的实际情况判断是否有能力来偿还所贷金额。AI产品采用灰狼优化算法计算神经网络的初始权值和阈值,一种改进的模糊神经网络的AI算法,通过建立的信用卡客户的违约预测模型,与目前其他的预测方法进行比较,得到较好的预测结果。进一步,验证了模糊神经网络在信用卡客户的预测上具有较好的鲁棒性、准确性和高效性。

采用有效的数据挖掘技术,针对信用卡类客户属性和消费行为的海量数据进行分析,可以更好的维护优质客户,消除违约客户的风险行为,为信用卡等金融业务价值的提升提供了技术上的保障。

(3)AI医疗诊断

乳腺癌的诊断。乳腺肿瘤是女性恶性肿瘤中最常见的肿瘤,影响妇女的身体和精神健康,甚至威胁生命。20世纪以来,全世界范围内乳腺癌的患病率均有所增加,特别是欧洲和北美地区,分别占欧洲和北美女性恶性肿瘤发病率的第一和第二位。

目前,世界女性乳腺癌在癌症中的发病率最高,据美国疾病预防中心统计,早期乳腺癌的治愈率可高达97%,进展期的治愈率仅为40%。因此,越早发现乳腺癌,治愈效果越好,即“早发现,早治疗”。

在大数据时代下,医疗方面的数据呈现出数量大、类型多、处理方法复杂等特点,数据挖掘技术对这些问题的处理起到了至关重要的作用。威斯康星大学医院Wolberg提供的乳腺肿瘤分析结果显示,乳腺肿瘤的特征可以由9 个参数来表示。

针对疾病的智能诊断,数据挖掘具有4个应用角度:在医院信息系统中的应用、在疾病助诊断中的应用、在药物开发中的应用、在遗传学方面的应用。

(4)教育大数据的挖掘,前两年,南京理工大学的“暖心饭卡工程”受到来自各界的关注。南京理工大学教育发展基金会工作人员对学生在日常生活中的数据进行了调查和数据的采集,该项调查涉及的共有16000余名南京理工大学当前在校学习的本科生,采集的数据为在9月中旬至11月中旬期间学生的饭卡刷卡记录,将每个月平均在食堂消费60次以上,消费总额不足420元的学生确立为补助对象,不需要学生申报,直接将补助打入学生的饭卡。

这次针对学生生活行为的数据挖掘,不仅在教育大数据的基础上实现了“精准扶贫”,而且对学生真正做到了“人文关怀”,体现出了数据的价值性。

四、大数据挖掘的数据获取方法

大公司已经积累了大量的数据,目前是打通数据孤岛和挖掘数据,然后分析和应用,而没有数据的公司适合优先发力研究稀疏数据下的AI认知能力的开发。例如:绿色AI的技术,通过稀疏数据小样本和算法的精妙设计而实现精准的需求判断和高效的产品设计制造。

随着AI赋能制造时代的到来,95后、00后,正在成为消费新主张的群体,他们对个性消费、智能消费、体验消费越来越重视,消费终端的变化必然会带来消费趋势的显著变化。

为了获取消费者需求就需要运用数据挖掘。如何在保护消费者隐私要求越来越严谨同时,自己公司又缺乏大数据的情况下进行数据获取呢?

方法如下:

(1)产品外部大数据分析

随着大数据的急速膨胀,其对于企业越来越重要,现代企业需要具有大数据思维,对外界的相关大数据进行提取、存储和分析。例如:卡夫食品公司通过大数据分析工具,对上亿条社交网站帖子上的相关话题进行内容分析,研究得出顾客的主要关注点在于健康、素食和安全。通过分析研制,最后生产出全新的产品打开了孕妇消费者市场,创造了新的业绩。

(2) 企业内部数据挖掘分析

可以对企业内部的客户,产品数据库进行整理分析,有效地分析客户信息,产品信息以及行为数据,进而得到客户的需求信息。也可以在公司网站或是APP上建立留言区,使得用户对产品有任何的意见和建议都能发表在上面,进而企业可以获取有价值的客户信息。

例如:企业可以利用内部网站数据分析,在活动前期预测本店热销产品,从而能确保产品的供应和物流的快速运转。

(3)企业定制平台获取(网站+移动终端)

企业可以开发产品定制的交互平台,用户在企业的定制平台上可以浏览所需产品的外形信息和功能信息,可以根据个人喜好自由选择产品的外观和部件等,通过选定可以看到最终产品的展示效果图,确定后提交个性化需求信息。企业还可以开设个性定制的智能门店,用户通过产品导购介绍,根据自己喜好选择不同零部件组合,和产品导购确定后,提交个性化定制订单。

这样可以使企业能快速的响应客户的个性需求,同时也让客户能参与到自己的产品定制设计过程中来。

五、AI产品大数据观

AI产品经理首先要有数据挖掘需求思维,然后在AI产品设计制造中巩固对大数据的落地运用,并明白数据挖掘是数据分析最常用的手段,而在数据挖掘的过程中会有新的需求的发现。

人工智能的构建基础是大数据。在此基础之上,才是自然语言算法组件、知识图谱组件与机器学习组件的算法平台建设。

AI时代的产品经理得先明白技术的原理,然后协同技术共同打造优秀的AI产品。

未来是AI时代,AI是站在大数据的肩膀上的!