数据分析方法培训.pdf
http://www.100md.com
2019年12月27日
![]() |
| 第1页 |
![]() |
| 第10页 |
![]() |
| 第13页 |
![]() |
| 第29页 |
![]() |
| 第32页 |
参见附件(2087KB,40页)。
数据分析方法培训包含了对数据的分析,描述性统计分析的方法,推断统计分析,数据挖掘的方法,数据质量的评估,常见的几种分析模式等等。

统计方法的三大特性
1、实用性:除了实情,数据能证明一切;
2、丰富性:统计就像比基尼,漏出来的部分固然诱人,没漏出来的部分才是最要命的;
3、公平性:我们相信上帝,其他人请用数据说话。
数据挖掘方法分类
统计方法
机器学习方法
神经网络方法
数据库方法
数据提取注意事项
经分数据
boss数据
网管中心数据
crm数据
一经数据
第三方调查数据
数据分析方法培训截图


数据分析方法培训 目录
数据分析前的思考
案例分享
深层次数据分析 数据分析前,我们需要思考
3 >
《孙子兵法〃谋攻篇》:故上兵伐谋,其次伐交,其次伐兵,其下攻城;攻城之法为不得已。
像一场战役的总指挥影响着整个战役的胜败一样,数据分析
师的思想对于整体分析思路,甚至分析结果都有着关键性的
作用。 4 >
问题
分析结
果呈现
分析思
路与方
法
数据选取
数据分析前,我们怎么去思考?
每一个步骤可能面临的问题以及需要准备的东西??? 分析问题和解决问题的思路
5 >
定义问题
第一步
· 首先,要搞清
问题的实质,准确、完整、真实地表达问
题。
· 其次,弄清楚
为什么要解决
这个问题?
· 最后,解决这
个问题的意义
何在?是必须
解决还是无关
紧要,或是需
要马上解决还
是不太着急。
第二步
收集整理
信息
· 搜集、整理
关于要解决
问题的历史
资料、类似
情况和现状。
例如,从现
有的报表数
据中就能够
看到当前问
题点的数据
情况或者一
段时间的趋
势;
第三步
选取分析
方法
· 分析涉及到
的主要维度,为后面提取
数据需求作
准备;
· 选取的分析
软件以及分
析方法(统
计学相关方
法)。
第四步
数据提取
整理
· 根据分析内
容以及分析
方法,提出
分析所需的
数据需求;
· 对于反馈回
来的数据,需要进行部
分加工,以
便更能反应
所要分析的
问题。
第五步
分析结果
及结论
· 根据分析的
结果,得出
一些当前问
题产生的一
些结论。这
里注意分析
的方法以及
维度,结果
的展示方式
等。
· 结论需要求
足够的数据
做支撑。
第六步
实施及建
议措施
· 针对数据分
析结论,给
出当前问题
的解决建议
措施。
· 一方面从业
务层面进行
建议措施,另一方面,可以就问题
点进行更深
层次分析,给出数据挖
掘层面的解
决措施。
第七步
实施效果评
估及报告整理
· 根据措施实
施效果进行
实际评估,将完成的分
析过程,结
果以及评估
整理报告,为以后出现
问题提供经
验教训。
· 对于本次没
有完全解决
的问题,进
行说明。
两个重点步骤 精确的陈述问题
Where----哪里存在问题?
What------存在的问题是什么?
Why-------原因在哪里?
When-----什么时候开始出现这样的问题?
Who------与什么对象有关?
How many-----发生的次数和数量?
How much------损失有多大?
爱因斯坦说:“精确的陈述问题比解決问题还来得重要”
5W2H法:
5W:What,When,Where,Who,Why;
2H:How及How many;
使用这
个方法
阿根廷队世界杯
输球了,如果你
是马拉多纳,你
怎么去思考?
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 问题展现方式
7 >
问题的结构如同这座冰山
问题现状
直接原因
最终原因
初步的问题分析
深层次的问题分析
问题结构是由现状、直接原因以及最终原因构成的。针对直接原因进行的叫初步
问题分析,针对最终原因进行分析的叫深层次问题分析。
治标
治本
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 问题分解
8 >
问题陈述
问题假设1
问题假设2
问题假设3
分支问题
分支问题
分支问题
分支问题
分支问题
分支问题
为什么使用逻辑树?
1.将问题分成几个部分使
·解决问题的工作可以分成智力上能够解
决的几个部分
·不同部分可按轻重缓急区分
·工作责任能分派到各人
2.保证问题获得完整地解决
·将问题的各个部分解决好,即可解决整
个问题
·所分问题的各个部分各不相同,而且包
括了各个方面(即没有重叠没有遗漏)
3.使项目小组共同了解解决问题的框架
4.协助重点使用组织框架及理论
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 分析方法
9 >
统计方法的三大特性,用三句话来简单概括一下:
· 实用性:除了实情,数据能证明一切;
· 丰富性:统计就像比基尼,露出来的部分固然诱人,没露出来的部分才是最要命
的;
· 公平性:我们相信上帝,其它人请用数据说话。
反应客观现象
的数据
描述性统计
(包括统计数据的收
集、整理、显示和分
析)
概率论
(包括分布理论、大数定律和中心极
限定理)
推断统计
(利用样本信息和概率论对总体
的数量特征进行估计和检验等)
总体内在的数量
规律性
样本数据
总体数据
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 描述性统计分析
10 >
“五点法”:最小值,14分位数,均值,34分位数,最大值
“两度”:峰度,偏度
六西格玛:
检验统计量的取值空间
6 ∑
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 推断统计分析
11 >
回归分析是统计分析思想中最基础、最集中的一个领域。
高斯、高尔顿
相关分析回归分析
-3 -2 -1 0 1 2
-2 -1 0 1 2
(a)
x
y
-2 -1 0 1 2
-2 -1 0 1 2
(b)
x
y
-2 -1 0 1 2
-2 -1 0 1 2
(c)
x
y
-3 -2 -1 0 1 2 3
0 2 4 6 8
(d)
x
y
不相关 正相关
负相关 相关但非线性相关
变量的选取;
预测推断;
P值:回归分析就是放“P”,放
得好,就合格。
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 变量分析方法选取
12 >
对
象
变
量
的
关
系
类
型
因
变
量
-
自
变
量
预
测
和
解
释
变
量
的
个
数
变
量
的
相
互
关
系
变
量
的
结
构
关
系
多 因
变 量 与 自
变 量
存 在
多 重 关 系
多 因
变 量 与 自
变 量
存 在
单 一 关 系
单
一 变
量 存
在 多
重
关 系
变
量
样
本
结构方程式模式
因
变
量
测
量
尺
度
数
量
型
非
数
量
型
因
变
量
尺
度
测
量
数
量
型
非
数
量
型
自
变
量
尺
度
测
量
数
量
型
非
数
量
型
典型相关分析
多元方差分析
多元回归
分析
结合分析
多元判别分析
Logistic回归
离散选择模型
CHAID
因子分析主成分析
聚类分析 变
量
测
量
尺
度
数
量
型
非
数
量
型
多维尺度分析
对应分析
一张简单的图胜过千言万语!!!!
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 数据挖掘分析
13 >
按挖掘方法分类:包括统计方法,机器学习方法,神经网络方法和数据库方法,其中:
· 统计方法可分为:判别分析(贝叶斯判别、费歇尔判别、非参数判别等),聚类分
析(系统聚类、动态聚类等),探索性分析(主成分分析等)等。
· 机器学习方法可分为:归纳学习方法(决策树、规则归纳等),基于范例学习,遗
传算法等。
· 神经网络方法可以分为:前向神经网络(BP算法等),自组织神经网络(自组织特
征映射、竞争学习等)。
· 数据库方法分为:多为数据分析和OLAP技术,此外还有面向属性的归纳方法。
关联规则
关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事
物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其
他事物预测到。
Ps: 多元统计分析中的聚类分析有个阈值,用于确定分类的一个临界值,平时会遇到把
它读成fá,误以为它是“阀”字。正确的应该是阈(念yù)值,而不是阀值.
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 14 >
· 经分数据
· BOSS数据
· 网管中心数据
· CRM数据
· 一经数据
· 第三方调查数据
· ……
海量的数据
eg
数据提取时注意的几点问题。
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理
选取分析所需的相关数据 制定数据提取需求
15 >
·性别
·年龄
·户藉
·职业
·婚姻状况
·教育程度
·收入
·……
·通话时段
·繁忙和非繁忙通话
量
·漫游服务
·方便程度
·行为方式的变化
·… …
·高利润率
·中等利润率
·低利润率
·负利润率
·… …
·形象
·价值观
·生活方式
·心理因素
·… …
人口统计 行为方式 客户价值 态度
客户
· 办理时间地点
· 办理的渠道
· 办理的业务种类
· 生效和失效时间
· 地址、电话、email、籍贯等
· 语言、行业
· 手机相关信息
· 网络状况
· 性格和爱好
· 反感的业务
· 家庭情况
· 缴费方式
· 购买行为
· 消费行为
· 沟通记录
· 销售概率
· 使用的产品
· 使用的服务功能
· 接受的营销offer
· 享受的客户服务
· 帐单信息
· 使用清单
· 缴费记录
· 分群特征
· 离网概率
· 离网原因
· 客户交互概况
· 整合的投诉历史
· 整合的咨询历史
· 主动联络客户历史
服务与产品
· 渠道偏好
· 联络时间偏好
· 服务内容偏好
客户偏好
帐户信息
高级资料
行为信息
基本资料
业务办理信息
客户分析信息
客户交互信息
客户
· 办理时间地点
· 办理的渠道
· 办理的业务种类
· 生效和失效时间
· 地址、电话、email、籍贯等
· 语言、行业
· 手机相关信息
· 网络状况
· 性格和爱好
· 反感的业务
· 家庭情况
· 缴费方式
· 购买行为
· 消费行为
· 沟通记录
· 销售概率
· 使用的产品
· 使用的服务功能
· 接受的营销offer
· 享受的客户服务
· 帐单信息
· 使用清单
· 缴费记录
· 分群特征
· 离网概率
· 离网原因
· 客户交互概况
· 整合的投诉历史
· 整合的咨询历史
· 主动联络客户历史
服务与产品
· 渠道偏好
· 联络时间偏好
· 服务内容偏好
客户偏好
帐户信息
高级资料
行为信息
基本资料
业务办理信息
客户分析信息
客户交互信息
注意数据提取粒度
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 数据质量的评估
16 >
· 在现实社会中,存在着大量的“脏”数
据
> 不完整性(数据结构的设计人员、数据采集
设备和数据录入人员)
– 缺少感兴趣的属性
– 感兴趣的属性缺少部分属性值
– 仅仅包含聚合数据,没有详细数据
> 噪音数据(采集数据的设备、数据录入人员、数据传输)
– 数据中包含错误的信息
– 存在着部分偏离期望值的孤立点
> 不一致性(数据结构的设计人员、数据录入人
员)
– 数据结构的不一致性
– Label的不一致性
– 数据值的不一致性
业务角度对于数据质量进行
初步评估!!!
> 数据类型冲突
· 性别:string(Male、Female)、Char(M、 F)、Interger(0、1)
· 日期:Date、DateTime、String
> 数据标签冲突:解决同名异义、异名同
义
· 学生成绩、分数
> 度量单位冲突
· 学生成绩
· 百分制:100 ~ 0
· 五分制: A 、B、C、D、E
· 字符表示:优、良、及格、不及格
> 概念不清
· 最近交易额:前一个小时、昨天、本周、本
月?
> 聚集冲突:根源在于表结构的设计
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 数据质量的评估
17 >
技术角度进行数据质量评估
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 数据的清洗处理
18 >
主要任务:
补充缺失数据
识别孤立点,平滑噪音数据
处理不一致的数据
处理方法:
分箱(Binning)的方法:
聚类方法:
检测并消除异常点
线性回归:
对不符合回归的数据进行平滑处理
人机结合共同检测:
由计算机检测可疑的点,然后由用户确认… …
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 19 >
·指标分析与政策分析并重;
·反应重点问题、实事求是;
·材料、数据要真实,论据要有说服力。
切记……
·分析角度:缺乏分析中心思想或主干线
·文字表达:“一图二表三文字”
·逻辑结构:论点、论据、论证
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理
怎样将分析的结果呈现出来? 定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理
分析结果呈现基本原则
20 >
确定表达的主题
·使用图形的目的:
将思想和观点形
象化的表达,加
深读者或听众的
印象。
·使用图表时,必
须明确通过图表
要表达的信息是
什么。
确定对比关系
· 同一类别不同项目间
的对比
· 不同类别不同项目间
的对比
· 时间对比:把时间作
为项目分类的标准
· 频率对比:以部分占
整体的百分比为项目
分类的标准
· 相关性对比:按照项
目之间的函数关系作
为项目分类的标准
· 其他对比:逻辑关系
的对比(因果,时间序
列……)
选择图形
· 饼图
· 柱状图
· 百分比柱状图
· 堆积柱状图
· 线形图
· 雷达图
· 面积图
· 点图
· 气泡图
· 矩阵图
· 逻辑图
数据分析结果呈现准备工作: 定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 如何用图来表示数据? 定量数据的图表示
·对于一个定量变量;
·用图形来表示这个数据,使人们能够看出这个数据的大体分布或
“形状”的一个办法是画直方图(histogram)。
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 定性数据的图表示
定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶
图,但可以描绘出它们各类的比例。
丌同页面内容访问量和累计访问量
大众化网页
· 单类网页访问次数占
比大于10%;
· 累积网页访问次数占
比达81.05%;
· 单类网页访问次数占
比5~10%;
· 累积网页访问次数占
比达15.41%;
· 单类网页访问次数占
比小于5%;
· 累积网页访问次数占
比丌足10%;
个性化网页 小众化网页
44.60%
81.05%
96.42%
0%
20%
40%
60%
80%
100%
0
10
20
30
40
50
60
博
客
娱
乐
体
育
游
戏
女
性
星 座
金 融
笑
话
音
乐
彩
票
搜
索
微
博
视
频
x 10000
页面访问量 累计占比
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 常见的分析模式
24 >
内容决定形式,形式服务于内容,当形式经过实践考验被
普遍接受后就固化成一种模式。
分析报告的模式主要包括:
· 金字塔式;
· 综合式;
· 三步曲;
· 专题式;
· 通报;
· 简报式;
· 工作汇报式.
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 25 >
数据分析
现状及问题
分析总结
总结
针对问题1
建议措施
针对问题2
建议措施
针对问题3
建议措施
建议措施分类
·业务层面
·数据挖掘
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理
分析总结及建议措施 26 >
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理
实施效果评估及报告整理
·营销活动效果反馈数据,分析对于问题的解决程度;
·活动历史响应数据的积累;
·活动流程固化;
·… …
·业务模型优化提升;
·对比组,显示模型本身的优越性;
·营销活动数据对于模型的提升情况;
·… … 回顾一下
27 >
分析前的思考???? 目录
数据分析前的思考
案例分享
深层次数据分析 手机上网当前遇到的问题——“一高两低”
29
四大套餐沉默率高 非沉默用户人均流量低
占套餐用户总人数80.55%的
5元套餐沉默率为39.44%,高于当前套餐沉默率指标30
%。其它套餐虽然沉默率
低,但总人数也低,故降低5
元套餐沉默率是当前急需解
决的问题。
四大套餐非沉默用户人均流
量均远低于套餐包含的标准
流量,而人数最多的5元套
餐(含30MGPRS流量)人
均流量也只有10.72M,是
套餐可使用量的35.73%。
怎
样
降
低
套
餐
沉
默
率
怎
样
提
升
套
餐
均
流
量
按沉默用户和非沉默用户分析
沉默用户
注:沉默用户指套餐沉默用户,由于2元、5元、10元、20元这四大套餐用户占总套餐用户的85%(5月数据),故取四大套
餐为研究对象。各套餐人数占比=套餐用户数四大套餐用户总数;套餐使用率=人均套餐使用量套餐包含的标准流量。
非沉默用户 手机上网问题分解及用户定义
30
查找潜在用户
扩大手机上网用户规
模,提升普及率
查找可激发的套餐沉
默用户
激活沉默用户,降低套
餐沉默率
查找可提升流量用户
增强营销,提升手机上
网流量
普及率偏低,提升缓慢
套餐沉默率偏高
套餐流量利用率偏低
部分用户套餐需要升级 寻找到超量用户 套餐升级 相关分析数据字段提取
31 >
·手机号码
· 品牌
· 付费类型
·imei号
·终端是否支GPRS
·入网时间
·年龄
·性别
·ARPU
·点对点短信上行条数
· 梦网短信条数
·点对点彩信上行量
·短信计费量
·新业务费用
·是否是转转赢用户
·是否是大赢家用户
·是否飞信用户
·是否无线音乐高级会员
·定制手机报类型
· 彩铃主动下载次数
·是否使用手机搜索
·GPRS套餐类型
·GPRS流量
·GPRS费用
·CMWAP流量
·CMNET流量
·cmwap登陆次数
·cmnet登陆次数
·语音业务费用
· 本地通话时长
·本地通话次数
·总打入号码数
·总打出号码数
基本属性
数据业务 GPRS 语音业务 32
查找潜在用户(略去) 沉默用户流量提升分析总结及建议措施
33 >
· 手机上网整体普及率较低,仅33%;
· 近半年多来手机上网普及率提升较
慢;
· 动感地带品牌对于手机上网接受程度
最高;
· 手机上网业务粘性较差;
· 手机上网与特定业务订购有很强关联
性;
· 5元套餐是提升重点;
分析总结
手上网潜在用户查找建议措施:
·较低的普及率为手机上网潜在用户查找
提供了上升的空间;
·上月或上上月是手机上网活跃用户;
·使用特定业务的手机上网沉默用户;
·加强手机上网业务体验营销和手机上网
助手业务的宣传;
·加强手机上网用户主动偏好需求研究。
建议措施
对于不满足建议查找条件的非手机上网用户,利用数据挖掘技术进行查找。 手机上网潜在活跃用户查找
34
手机上网套
餐沉默用户
查
找
潜在手机上
网活跃用户
结
果
查找思路
潜在手机
上网活跃
用户
20.8%
非手机上
网营销目
标用户:
79.2%
目标用户提取规则 目录
数据分析前的思考
案例分享
深层次数据分析 这样的客户需求,我们怎么处理?
36 >
用户和需求:对于复杂现象的简单结论
·市场-谁将会购买这个产品?
·预测-我们将面临何种需求?
·忠诚度 -谁最有可能流失?
·信用-哪一类人群不还款的倾向严重?
·欺诈-什么时候会发生?
当然这些问题,从业务角度,能够有
一定的回答,但是,如果有更深层次
的分析,会得到比业务层面更好的效
果!!! 数据分析与数据挖掘的关系
37 >
数据呈现
数据分析
数据挖掘
· 简单的呈现一样当
前的一些数据
· 描述性的统计分析
方法
·不同维度交叉分析
·回归统计,多元统
计分析方法
·更深层次分析
·数据挖掘模型
·相关算法 更深层次的分析
38 >
基于数据分析之上的数
据挖掘
·数据挖掘的重点和难点是什么?
数据挖掘是数据分析的一个环节,同时是解决实际问题的一
个环节,当然,数据挖掘的应用就能体现出来!!!! 39
数据挖掘过程
竞争优越性
数据准备
数据探索
商业理解
数据收集
经营分析支持
耗用时间
模型部署
业务模型
模型开发准备
模型数据转换
70% 时间用于数据处理
模型开发期
Scoring ADS
Modeling ADS Thank-you ......
数据分析前的思考
案例分享
深层次数据分析 数据分析前,我们需要思考
3 >
《孙子兵法〃谋攻篇》:故上兵伐谋,其次伐交,其次伐兵,其下攻城;攻城之法为不得已。
像一场战役的总指挥影响着整个战役的胜败一样,数据分析
师的思想对于整体分析思路,甚至分析结果都有着关键性的
作用。 4 >
问题
分析结
果呈现
分析思
路与方
法
数据选取
数据分析前,我们怎么去思考?
每一个步骤可能面临的问题以及需要准备的东西??? 分析问题和解决问题的思路
5 >
定义问题
第一步
· 首先,要搞清
问题的实质,准确、完整、真实地表达问
题。
· 其次,弄清楚
为什么要解决
这个问题?
· 最后,解决这
个问题的意义
何在?是必须
解决还是无关
紧要,或是需
要马上解决还
是不太着急。
第二步
收集整理
信息
· 搜集、整理
关于要解决
问题的历史
资料、类似
情况和现状。
例如,从现
有的报表数
据中就能够
看到当前问
题点的数据
情况或者一
段时间的趋
势;
第三步
选取分析
方法
· 分析涉及到
的主要维度,为后面提取
数据需求作
准备;
· 选取的分析
软件以及分
析方法(统
计学相关方
法)。
第四步
数据提取
整理
· 根据分析内
容以及分析
方法,提出
分析所需的
数据需求;
· 对于反馈回
来的数据,需要进行部
分加工,以
便更能反应
所要分析的
问题。
第五步
分析结果
及结论
· 根据分析的
结果,得出
一些当前问
题产生的一
些结论。这
里注意分析
的方法以及
维度,结果
的展示方式
等。
· 结论需要求
足够的数据
做支撑。
第六步
实施及建
议措施
· 针对数据分
析结论,给
出当前问题
的解决建议
措施。
· 一方面从业
务层面进行
建议措施,另一方面,可以就问题
点进行更深
层次分析,给出数据挖
掘层面的解
决措施。
第七步
实施效果评
估及报告整理
· 根据措施实
施效果进行
实际评估,将完成的分
析过程,结
果以及评估
整理报告,为以后出现
问题提供经
验教训。
· 对于本次没
有完全解决
的问题,进
行说明。
两个重点步骤 精确的陈述问题
Where----哪里存在问题?
What------存在的问题是什么?
Why-------原因在哪里?
When-----什么时候开始出现这样的问题?
Who------与什么对象有关?
How many-----发生的次数和数量?
How much------损失有多大?
爱因斯坦说:“精确的陈述问题比解決问题还来得重要”
5W2H法:
5W:What,When,Where,Who,Why;
2H:How及How many;
使用这
个方法
阿根廷队世界杯
输球了,如果你
是马拉多纳,你
怎么去思考?
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 问题展现方式
7 >
问题的结构如同这座冰山
问题现状
直接原因
最终原因
初步的问题分析
深层次的问题分析
问题结构是由现状、直接原因以及最终原因构成的。针对直接原因进行的叫初步
问题分析,针对最终原因进行分析的叫深层次问题分析。
治标
治本
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 问题分解
8 >
问题陈述
问题假设1
问题假设2
问题假设3
分支问题
分支问题
分支问题
分支问题
分支问题
分支问题
为什么使用逻辑树?
1.将问题分成几个部分使
·解决问题的工作可以分成智力上能够解
决的几个部分
·不同部分可按轻重缓急区分
·工作责任能分派到各人
2.保证问题获得完整地解决
·将问题的各个部分解决好,即可解决整
个问题
·所分问题的各个部分各不相同,而且包
括了各个方面(即没有重叠没有遗漏)
3.使项目小组共同了解解决问题的框架
4.协助重点使用组织框架及理论
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 分析方法
9 >
统计方法的三大特性,用三句话来简单概括一下:
· 实用性:除了实情,数据能证明一切;
· 丰富性:统计就像比基尼,露出来的部分固然诱人,没露出来的部分才是最要命
的;
· 公平性:我们相信上帝,其它人请用数据说话。
反应客观现象
的数据
描述性统计
(包括统计数据的收
集、整理、显示和分
析)
概率论
(包括分布理论、大数定律和中心极
限定理)
推断统计
(利用样本信息和概率论对总体
的数量特征进行估计和检验等)
总体内在的数量
规律性
样本数据
总体数据
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 描述性统计分析
10 >
“五点法”:最小值,14分位数,均值,34分位数,最大值
“两度”:峰度,偏度
六西格玛:
检验统计量的取值空间
6 ∑
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 推断统计分析
11 >
回归分析是统计分析思想中最基础、最集中的一个领域。
高斯、高尔顿
相关分析回归分析
-3 -2 -1 0 1 2
-2 -1 0 1 2
(a)
x
y
-2 -1 0 1 2
-2 -1 0 1 2
(b)
x
y
-2 -1 0 1 2
-2 -1 0 1 2
(c)
x
y
-3 -2 -1 0 1 2 3
0 2 4 6 8
(d)
x
y
不相关 正相关
负相关 相关但非线性相关
变量的选取;
预测推断;
P值:回归分析就是放“P”,放
得好,就合格。
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 变量分析方法选取
12 >
对
象
变
量
的
关
系
类
型
因
变
量
-
自
变
量
预
测
和
解
释
变
量
的
个
数
变
量
的
相
互
关
系
变
量
的
结
构
关
系
多 因
变 量 与 自
变 量
存 在
多 重 关 系
多 因
变 量 与 自
变 量
存 在
单 一 关 系
单
一 变
量 存
在 多
重
关 系
变
量
样
本
结构方程式模式
因
变
量
测
量
尺
度
数
量
型
非
数
量
型
因
变
量
尺
度
测
量
数
量
型
非
数
量
型
自
变
量
尺
度
测
量
数
量
型
非
数
量
型
典型相关分析
多元方差分析
多元回归
分析
结合分析
多元判别分析
Logistic回归
离散选择模型
CHAID
因子分析主成分析
聚类分析 变
量
测
量
尺
度
数
量
型
非
数
量
型
多维尺度分析
对应分析
一张简单的图胜过千言万语!!!!
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 数据挖掘分析
13 >
按挖掘方法分类:包括统计方法,机器学习方法,神经网络方法和数据库方法,其中:
· 统计方法可分为:判别分析(贝叶斯判别、费歇尔判别、非参数判别等),聚类分
析(系统聚类、动态聚类等),探索性分析(主成分分析等)等。
· 机器学习方法可分为:归纳学习方法(决策树、规则归纳等),基于范例学习,遗
传算法等。
· 神经网络方法可以分为:前向神经网络(BP算法等),自组织神经网络(自组织特
征映射、竞争学习等)。
· 数据库方法分为:多为数据分析和OLAP技术,此外还有面向属性的归纳方法。
关联规则
关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事
物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其
他事物预测到。
Ps: 多元统计分析中的聚类分析有个阈值,用于确定分类的一个临界值,平时会遇到把
它读成fá,误以为它是“阀”字。正确的应该是阈(念yù)值,而不是阀值.
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 14 >
· 经分数据
· BOSS数据
· 网管中心数据
· CRM数据
· 一经数据
· 第三方调查数据
· ……
海量的数据
eg
数据提取时注意的几点问题。
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理
选取分析所需的相关数据 制定数据提取需求
15 >
·性别
·年龄
·户藉
·职业
·婚姻状况
·教育程度
·收入
·……
·通话时段
·繁忙和非繁忙通话
量
·漫游服务
·方便程度
·行为方式的变化
·… …
·高利润率
·中等利润率
·低利润率
·负利润率
·… …
·形象
·价值观
·生活方式
·心理因素
·… …
人口统计 行为方式 客户价值 态度
客户
· 办理时间地点
· 办理的渠道
· 办理的业务种类
· 生效和失效时间
· 地址、电话、email、籍贯等
· 语言、行业
· 手机相关信息
· 网络状况
· 性格和爱好
· 反感的业务
· 家庭情况
· 缴费方式
· 购买行为
· 消费行为
· 沟通记录
· 销售概率
· 使用的产品
· 使用的服务功能
· 接受的营销offer
· 享受的客户服务
· 帐单信息
· 使用清单
· 缴费记录
· 分群特征
· 离网概率
· 离网原因
· 客户交互概况
· 整合的投诉历史
· 整合的咨询历史
· 主动联络客户历史
服务与产品
· 渠道偏好
· 联络时间偏好
· 服务内容偏好
客户偏好
帐户信息
高级资料
行为信息
基本资料
业务办理信息
客户分析信息
客户交互信息
客户
· 办理时间地点
· 办理的渠道
· 办理的业务种类
· 生效和失效时间
· 地址、电话、email、籍贯等
· 语言、行业
· 手机相关信息
· 网络状况
· 性格和爱好
· 反感的业务
· 家庭情况
· 缴费方式
· 购买行为
· 消费行为
· 沟通记录
· 销售概率
· 使用的产品
· 使用的服务功能
· 接受的营销offer
· 享受的客户服务
· 帐单信息
· 使用清单
· 缴费记录
· 分群特征
· 离网概率
· 离网原因
· 客户交互概况
· 整合的投诉历史
· 整合的咨询历史
· 主动联络客户历史
服务与产品
· 渠道偏好
· 联络时间偏好
· 服务内容偏好
客户偏好
帐户信息
高级资料
行为信息
基本资料
业务办理信息
客户分析信息
客户交互信息
注意数据提取粒度
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 数据质量的评估
16 >
· 在现实社会中,存在着大量的“脏”数
据
> 不完整性(数据结构的设计人员、数据采集
设备和数据录入人员)
– 缺少感兴趣的属性
– 感兴趣的属性缺少部分属性值
– 仅仅包含聚合数据,没有详细数据
> 噪音数据(采集数据的设备、数据录入人员、数据传输)
– 数据中包含错误的信息
– 存在着部分偏离期望值的孤立点
> 不一致性(数据结构的设计人员、数据录入人
员)
– 数据结构的不一致性
– Label的不一致性
– 数据值的不一致性
业务角度对于数据质量进行
初步评估!!!
> 数据类型冲突
· 性别:string(Male、Female)、Char(M、 F)、Interger(0、1)
· 日期:Date、DateTime、String
> 数据标签冲突:解决同名异义、异名同
义
· 学生成绩、分数
> 度量单位冲突
· 学生成绩
· 百分制:100 ~ 0
· 五分制: A 、B、C、D、E
· 字符表示:优、良、及格、不及格
> 概念不清
· 最近交易额:前一个小时、昨天、本周、本
月?
> 聚集冲突:根源在于表结构的设计
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 数据质量的评估
17 >
技术角度进行数据质量评估
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 数据的清洗处理
18 >
主要任务:
补充缺失数据
识别孤立点,平滑噪音数据
处理不一致的数据
处理方法:
分箱(Binning)的方法:
聚类方法:
检测并消除异常点
线性回归:
对不符合回归的数据进行平滑处理
人机结合共同检测:
由计算机检测可疑的点,然后由用户确认… …
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 19 >
·指标分析与政策分析并重;
·反应重点问题、实事求是;
·材料、数据要真实,论据要有说服力。
切记……
·分析角度:缺乏分析中心思想或主干线
·文字表达:“一图二表三文字”
·逻辑结构:论点、论据、论证
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理
怎样将分析的结果呈现出来? 定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理
分析结果呈现基本原则
20 >
确定表达的主题
·使用图形的目的:
将思想和观点形
象化的表达,加
深读者或听众的
印象。
·使用图表时,必
须明确通过图表
要表达的信息是
什么。
确定对比关系
· 同一类别不同项目间
的对比
· 不同类别不同项目间
的对比
· 时间对比:把时间作
为项目分类的标准
· 频率对比:以部分占
整体的百分比为项目
分类的标准
· 相关性对比:按照项
目之间的函数关系作
为项目分类的标准
· 其他对比:逻辑关系
的对比(因果,时间序
列……)
选择图形
· 饼图
· 柱状图
· 百分比柱状图
· 堆积柱状图
· 线形图
· 雷达图
· 面积图
· 点图
· 气泡图
· 矩阵图
· 逻辑图
数据分析结果呈现准备工作: 定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 如何用图来表示数据? 定量数据的图表示
·对于一个定量变量;
·用图形来表示这个数据,使人们能够看出这个数据的大体分布或
“形状”的一个办法是画直方图(histogram)。
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 定性数据的图表示
定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶
图,但可以描绘出它们各类的比例。
丌同页面内容访问量和累计访问量
大众化网页
· 单类网页访问次数占
比大于10%;
· 累积网页访问次数占
比达81.05%;
· 单类网页访问次数占
比5~10%;
· 累积网页访问次数占
比达15.41%;
· 单类网页访问次数占
比小于5%;
· 累积网页访问次数占
比丌足10%;
个性化网页 小众化网页
44.60%
81.05%
96.42%
0%
20%
40%
60%
80%
100%
0
10
20
30
40
50
60
博
客
娱
乐
体
育
游
戏
女
性
星 座
金 融
笑
话
音
乐
彩
票
搜
索
微
博
视
频
x 10000
页面访问量 累计占比
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 常见的分析模式
24 >
内容决定形式,形式服务于内容,当形式经过实践考验被
普遍接受后就固化成一种模式。
分析报告的模式主要包括:
· 金字塔式;
· 综合式;
· 三步曲;
· 专题式;
· 通报;
· 简报式;
· 工作汇报式.
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理 25 >
数据分析
现状及问题
分析总结
总结
针对问题1
建议措施
针对问题2
建议措施
针对问题3
建议措施
建议措施分类
·业务层面
·数据挖掘
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理
分析总结及建议措施 26 >
定义问题
收集整理
信息
选取分析
方法
数据提取
整理
分析结果
及结论
实施及建
议措施
实施效果评
估及报告整理
实施效果评估及报告整理
·营销活动效果反馈数据,分析对于问题的解决程度;
·活动历史响应数据的积累;
·活动流程固化;
·… …
·业务模型优化提升;
·对比组,显示模型本身的优越性;
·营销活动数据对于模型的提升情况;
·… … 回顾一下
27 >
分析前的思考???? 目录
数据分析前的思考
案例分享
深层次数据分析 手机上网当前遇到的问题——“一高两低”
29
四大套餐沉默率高 非沉默用户人均流量低
占套餐用户总人数80.55%的
5元套餐沉默率为39.44%,高于当前套餐沉默率指标30
%。其它套餐虽然沉默率
低,但总人数也低,故降低5
元套餐沉默率是当前急需解
决的问题。
四大套餐非沉默用户人均流
量均远低于套餐包含的标准
流量,而人数最多的5元套
餐(含30MGPRS流量)人
均流量也只有10.72M,是
套餐可使用量的35.73%。
怎
样
降
低
套
餐
沉
默
率
怎
样
提
升
套
餐
均
流
量
按沉默用户和非沉默用户分析
沉默用户
注:沉默用户指套餐沉默用户,由于2元、5元、10元、20元这四大套餐用户占总套餐用户的85%(5月数据),故取四大套
餐为研究对象。各套餐人数占比=套餐用户数四大套餐用户总数;套餐使用率=人均套餐使用量套餐包含的标准流量。
非沉默用户 手机上网问题分解及用户定义
30
查找潜在用户
扩大手机上网用户规
模,提升普及率
查找可激发的套餐沉
默用户
激活沉默用户,降低套
餐沉默率
查找可提升流量用户
增强营销,提升手机上
网流量
普及率偏低,提升缓慢
套餐沉默率偏高
套餐流量利用率偏低
部分用户套餐需要升级 寻找到超量用户 套餐升级 相关分析数据字段提取
31 >
·手机号码
· 品牌
· 付费类型
·imei号
·终端是否支GPRS
·入网时间
·年龄
·性别
·ARPU
·点对点短信上行条数
· 梦网短信条数
·点对点彩信上行量
·短信计费量
·新业务费用
·是否是转转赢用户
·是否是大赢家用户
·是否飞信用户
·是否无线音乐高级会员
·定制手机报类型
· 彩铃主动下载次数
·是否使用手机搜索
·GPRS套餐类型
·GPRS流量
·GPRS费用
·CMWAP流量
·CMNET流量
·cmwap登陆次数
·cmnet登陆次数
·语音业务费用
· 本地通话时长
·本地通话次数
·总打入号码数
·总打出号码数
基本属性
数据业务 GPRS 语音业务 32
查找潜在用户(略去) 沉默用户流量提升分析总结及建议措施
33 >
· 手机上网整体普及率较低,仅33%;
· 近半年多来手机上网普及率提升较
慢;
· 动感地带品牌对于手机上网接受程度
最高;
· 手机上网业务粘性较差;
· 手机上网与特定业务订购有很强关联
性;
· 5元套餐是提升重点;
分析总结
手上网潜在用户查找建议措施:
·较低的普及率为手机上网潜在用户查找
提供了上升的空间;
·上月或上上月是手机上网活跃用户;
·使用特定业务的手机上网沉默用户;
·加强手机上网业务体验营销和手机上网
助手业务的宣传;
·加强手机上网用户主动偏好需求研究。
建议措施
对于不满足建议查找条件的非手机上网用户,利用数据挖掘技术进行查找。 手机上网潜在活跃用户查找
34
手机上网套
餐沉默用户
查
找
潜在手机上
网活跃用户
结
果
查找思路
潜在手机
上网活跃
用户
20.8%
非手机上
网营销目
标用户:
79.2%
目标用户提取规则 目录
数据分析前的思考
案例分享
深层次数据分析 这样的客户需求,我们怎么处理?
36 >
用户和需求:对于复杂现象的简单结论
·市场-谁将会购买这个产品?
·预测-我们将面临何种需求?
·忠诚度 -谁最有可能流失?
·信用-哪一类人群不还款的倾向严重?
·欺诈-什么时候会发生?
当然这些问题,从业务角度,能够有
一定的回答,但是,如果有更深层次
的分析,会得到比业务层面更好的效
果!!! 数据分析与数据挖掘的关系
37 >
数据呈现
数据分析
数据挖掘
· 简单的呈现一样当
前的一些数据
· 描述性的统计分析
方法
·不同维度交叉分析
·回归统计,多元统
计分析方法
·更深层次分析
·数据挖掘模型
·相关算法 更深层次的分析
38 >
基于数据分析之上的数
据挖掘
·数据挖掘的重点和难点是什么?
数据挖掘是数据分析的一个环节,同时是解决实际问题的一
个环节,当然,数据挖掘的应用就能体现出来!!!! 39
数据挖掘过程
竞争优越性
数据准备
数据探索
商业理解
数据收集
经营分析支持
耗用时间
模型部署
业务模型
模型开发准备
模型数据转换
70% 时间用于数据处理
模型开发期
Scoring ADS
Modeling ADS Thank-you ......
您现在查看是摘要介绍页, 详见PDF附件(2087KB,40页)。




