个人主页:在线OJ的阿川
大佬的支持和鼓励,将是我成长路上最大的动力
阿川水平有限,如有错误,欢迎大佬指正
数据分析概要前必看
Python初阶
Python–语言基础与由来介绍
Python–注意事项
Python–语句与众所周知
数据分析系列文章偏学术
数据分析—技术栈和开发环境搭建
数据分析—Numpy和Pandas库基本用法及实例
数据分析—三前奏:获取/ 读取/ 评估数据
数据分析—数据清洗操作及众所周知
数据分析—数据整理操作及众所周知
数据分析—统计学基础及Python具体实现
数据分析—数据可视化Python实现超详解
数据分析—推断统计学及Python实现
数据分析—线性及逻辑回归模型
数据分析—AI交互及爬虫
大数据导论知识
【大数据导论】—大数据序言
【大数据导论】—大数据、人工智能、云计算、物联网、区块链序言
【大数据导论】—大数据基础知识
数据
数值型数据
由数字组成的变量
类别型数据
由各种字符串和分组标签组成
只要是基于量化的信息提升生产力就是数据分析
基于业务
基于开发
基于算法
四大类
用数据去量化企业当前的经营现状或者业务事实
探究各种数据上的差距和异常,寻找背后的成因
搞清楚成因后给出具体的行动策略
方法
计算使当前策略投入产出比最高的过程参数
方法
其中思考问题
发现问题
定义问题
选择问题
确认问题
拆解问题
初学阶段:学习大量经典分析框架,再搭建自己的分析矩阵
成熟分析师:搭建起自己的分析矩阵,对问题全方位地拆解,高效地找到答案
量化问题
其中处理数据
爬虫常用工具:八爪鱼和后羿采集器或者Python中的爬虫工具包
处理数据
将各种脏数据通过筛选、清洗和计算处理成干净数据
制作图表
将清洗过的标准数据借助工具处理成我们需要的各种图表
上传发布
将我们的图表发布成一个个可以访问的页面
输出结论
一句话一幅图
其中五大基础理论
一、大数定律
大量重复某一实验时最后的频率会无限接近于事件的概率,即数据的样本量越大,预测和计算的概率就越准确
启发:对小样本量的分析结果保持客观的怀疑与观察,并尽可能地在大样本量下进行分析
二、罗卡定律
凡有接触必有痕迹,不要放弃去挖掘更多数据
启发:用户的一切行为都会留下数据,尽可能的拿来分析,找到数据背后隐藏的价值
三、幸存者偏差
统计样本的覆盖,会很大程度上直接影响分析的结果,即各种分析对象能取全量尽量取全量
启发:分析时要提前检查取样偏差,分析的样本要越能代表整体越好
四、辛普森悖论
两组分别讨论都满足某一性质的数据,一旦合并计算会得出完全相反的结论
启发:确保数据在同一量级和权重下进行分析
五、帕累托最优
在进行资源分配中,不增加资源仅通过调整分配方式,使整体的效率最大化
启发:在不投入资源的情况下,也总有优化现状的方法
其中一法则四方法
MECE法则
要求拆解出的各个部分都要满足相互独立,完全穷尽
时间流程法
根据时间顺序对问题进行拆解
经典AARRR模型
A—获取
A—激活
R—留存
R—收益
R—传播
该模型可以根据公司的具体业务进行细分
经典两大框架
PDCA
强调做事情一定要先规划再执行
P—计划
D—执行
C—检查
A—处理
精益创业
强调根据想法快速构建产品,并基于数据反馈快速迭代创业
模型框架法
基于几个完全平行的维度,对问题进行划分
SWOT法
RFM法
根据不同的维度,对客户划分成8个区间
量化公式法
解决涉及到指标计算的问题
将问题量化成指标的步骤
常见的指标有三类
属性:描述分析对象有哪些特征
绝对值:衡量一件事最后的结果
转换率:衡量一个环节的完成度
穷尽要素法
将整体分为不同的构成部分
例如:电商平台将消费人群划分成八大人群
其中业务诊断
业务诊断通常用时间流程法、模型框架法、量化公式法、穷尽要素法四大分析方法一起上,对问题进行拆解、量化、取数、分析
其中业务增长
取数作图
可视化原理
经历的环节
数据工具
注意:若不灵活学习和使用新工具,最终都会限制自身的发展
数据表达
基于数据化的表、图、文说明事实表达观点,从而更好地说明现状阐述事实,使人能基于数据准确地知道到底发生了什么,用数据说服他人认同我们自己想表达的观点
数据表达的原则
数据表达的载体和形式
基于PPT的汇报总结
基于文档的专业分析
基于图文的沟通对话
表达格式:观点+数据+补充信息+图表
其中:
提炼文字观点
制作完善图表
根据问题和观点选择合适的图表类型
为图表准备数据
对观点拆解量化,然后梳理出数据,并且收集处理为数据库中的标准数据
通过工具制作图表
优化视觉图形组合
制作出有效信息密度更大的高效图表
图形总结:
比数字规模,上柱状图
多对象,上条形图
数据趋势,上折线图
多个对比对象,上多个折线图
各类占比分析,上饼图/环形图
多对象占比,上树图
两个度量上对比一个维度,上散点图
单一度量分布,上直方图
地理位置相关,上地图
即图表类型分类主要是从规模、趋势、占比、关系、分布
提出关键数据
在进行数据分析时,反复问自己三个问题:
一、输出结论是能不能理解
二、做出的图表够不够直观
三、给出的策略可不可执行
注意:在数据分析领域中面对众多方向先学自己用得上的技能和知识
数据分析与问题本身关系
注意:在解决问题中一定不能只看量化的数据,大量非量化的业务细节和信息,甚至连一线执行时的情绪都是不可忽略的,它们往往才是最终决定你的分析和策略是否能真正落地实现价值的关键
好的,到此为止啦,祝您变得更强
想说的话
学习来源B站戴师兄(反反复复学习了3遍哈并且做了相应的笔记/相应的练习 然后才进行的这篇博客的书写)实不相瞒,写的这篇博客要写八个小时以上(加上自己学习和纸质笔记,共十小时吧),很累,希望大佬支持一下
道阻且长 行则将至 |
---|
个人主页:在线OJ的阿川![]() ![]() |