第十四章 大数据和数据科学
创始人
2024-11-12 10:36:31
0

  • 信息收敛三角

  • 数据科学

    数据科学将数据挖掘、统计分析和机器学习与数据集成整合,结合数据建模能力,去构建预测模型、探索数据内容模式。

  • 分析对比

数仓和数据科学区别:

  1. 数据仓库主要用于描述性分析,提供事后的结论

  1. 数据科学侧重于预测性和规范性分析,旨在为未来提供预测和决策支持。

  2. 数据仓库关注已发生事情的总结,而数据科学强调对未来的洞察和预见。

数据科学:

  • 预测性分析,洞察,未来可能会发生什么

  • 规范性分析,预见,我们该做什么才能保证事情发生

  • 数据科学的过程阶段

2. 业务驱动因素

  • 从多种流程生成的数据集中发现的商机

3. 大数据

  • 早期,人们通过3 V来定义大数据含义的特征:数据量大 (Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)(Laney,2001)。随着越来越多的组织开始深挖大数据的潜力,已经不止于以上三个V。

V列表有了更多的扩展:

  • 1)数据量大(Volume)。大数据通常拥有上千个实体或数十亿个记录中的元素。

  • 2)数据更新快(Velocity)。指数据被捕获、生成或共享的速度。大数据通常实时地生成、分发及进行分析。

  • 3)数据类型多样/可变(Variety/Variability)。指抓取或传递数据的形式。大数据需要多种格式储存。通常,数据集内或跨数据集的数据结构是不一致的。

  • 4)数据黏度大(Viscosity)。指数据使用或集成的难度比较高。

  • 5)数据波动性大(Volatility)。指数据更改的频率,以及由此导 致的数据有效时间短。

  • 6)数据准确性低(Veracity)。指数据的可靠程度不高。

总结:

  • 数据量大(Volume)

  • 数据更新快(Velocity)

  • 数据更新快(Velocity)

  • 数据黏度大(Viscosity)

  • 数据波动性大(Volatility)

  • 数据准确性低(Veracity)

2.1 大数据的来源?

    1. 结构化的数据(数仓)

    2. 非结构化的数据(进数据湖)

3. 数据湖

数据湖是一种可以提取,存储,评估和分析不同类型和结构海量数据的环境可供多种场景使用,例如:

  • 1)数据科学家可以挖掘和分析数据的环境。

  • 2)原始数据的集中存储区域,只需很少量的转换(如果需要的 话)。

  • 3)数据仓库明细历史数据的备用存储区域。

  • 4)信息记录的在线归档。

  • 5)可以通过自动化的模型识别提取流数据的环境。

数据湖的风险在于:它可能很快会变成数据沼泽——杂乱、不干 净、不一致。为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要。

4. 基于服务的架构(Lambda架构)

  • SBA架构

    • 批处理层(Batch Layer)

    • 加速层(Speed Layer)

    • 服务层(Serving Layer)

5. 机器学习(需要理解)

  • 算法分类

    • 监督学习(Supervised learning)

      基于通用规则(如将SPAM邮件与非SPAM邮件分开)

      (对于可能性的结果是可知的,比如预测一下明年的销售额比今年多还是少)

    • 无监督学习(Unsupervised learning)

      基于找到的那些隐藏的规律(数据挖掘)

      (无监督学习可能性结果未知,比如预测一下明年的销售额是多少)

    监督学习关注已发生动作的预测,无监督学习关注无限可能性。

    • 强化学习(Reinforcement learning)

      基于目标的实现(如在国际象棋中击败对手)

      (前面那一次的结果会作为下面这一次的一个输入,所以它是不断的越来越好,越来越好的这么一个过程)

6. 语义分析 NLP(自然语言分析)

7. 数据和文本挖掘

  • 剖析(Profiling)

  • 数据缩减(Data reduction)

  • 关联(Association)

  • 聚类(Clustering)

  • 自组织映射(Self-organizing maps)

8. 规范分析

  • 规范分析(Prescriptive Analytics)比预测分析更进一步,它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果

9.数据可视化

  • 通过使用图片或图形表示来解释概念、想法和事实的过程。

10. 活动

10.1 大数据战略评估标准
  • 1)组织试图解决什么问题,需要分析什么

  • 2)要使用或获取的数据源是什么

  • 3)提供数据的及时性和范围

  • 4)对其他数据结构的影响以及与其他数据结构的相关性

  • 5)对现有建模数据的影响

11. 工具

  • MPP无共享技术和架构

  • 基于分布式文件的数据库

  • 数据库内算法

  • 大数据云解决方案

  • 统计计算和图形语言

  • 数据可视化工具集

12. 度量指标

  • 数据使用指标

  • 响应和性能指标

  • 和扫描指标

  • 学习和故事场景

相关内容

热门资讯

实测交流!好友赣南斗牛外 挂(... 实测交流!好友赣南斗牛外 挂(辅助挂)外挂透明挂辅助app(2021已更新)(哔哩哔哩)1、好友赣南...
wepoke作弊器!nzt德州... wepoke作弊器!nzt德州果真真的有挂,微扑克ai辅助器苹果版规律1、进入到微扑克ai辅助器苹果...
玩家交流!中至都昌讨赏有挂吗(... 玩家交流!中至都昌讨赏有挂吗(辅助挂)竟然真的是有挂(2024已更新)(哔哩哔哩)1)中至都昌讨赏有...
二分钟介绍!天天斗地主修改器,... 二分钟介绍!天天斗地主修改器,星悦云南麻将有没有假(果然有挂);1、完成星悦云南麻将有没有假的残局,...
二分钟发现!多乐第三方辅助器,... 二分钟发现!多乐第三方辅助器,同城上饶棋牌确实有挂,存在挂教程(有挂机密);1、游戏颠覆性的策略玩法...
重大通报!宁波竞技馆有挂吗(透... 重大通报!宁波竞技馆有挂吗(透视辅助)外挂透视辅助app(2021已更新)(哔哩哔哩)1、打开软件启...
wepoke辅助技巧!poke... wepoke辅助技巧!pokenow其实是真的有挂,德州ai辅助神器黑科技1、超多福利:超高返利,海...
分享开挂内幕!天天开心王国十三... 分享开挂内幕!天天开心王国十三水有没有外 挂(辅助挂)一贯真的是有挂(2020已更新)(哔哩哔哩)1...
五分钟方法!全民牛牛怎么提升胜... 五分钟方法!全民牛牛怎么提升胜率,白金岛辅助工具(一直有挂)1、全民牛牛怎么提升胜率机器人多个强度级...
玩家必看教程!!钱塘十三水输赢... 玩家必看教程!!钱塘十三水输赢概率(透明挂)外挂透明挂辅助软件(2020已更新)(哔哩哔哩)钱塘十三...