基于泰坦尼克号生还数据进行 Spark 分析
创始人
2025-01-15 13:05:22
0

基于泰坦尼克号生还数据进行 Spark 分析

在这篇博客中,我们将展示如何使用 Apache Spark 分析著名的泰坦尼克号数据集。通过这篇教程,您将学习如何处理数据、分析乘客的生还情况,并生成有价值的统计信息。

数据解析

• PassengerId : 乘客编号。
• Survived : 是否存活,0表示未能存活,1表示存活。
• Pclass : 描述乘客所属的等级,总共分为三等,用1、2、3来描述:1表示高等;2表示中等;3表示低等。
• Name : 乘客姓名。
• Sex : 乘客性别。
• Age : 乘客年龄。
• SibSp : 与乘客同行的兄弟姐妹(Siblings)和配偶(Spouse)数目。
• Parch : 与乘客同行的家长(Parents)和孩子(Children)数目。
• Ticket : 乘客登船所使用的船票编号。
• Fare : 乘客上船的花费。
• Cabin : 乘客所住的船舱。
• Embarked : 乘客上船时的港口,C表示Cherbourg;Q表示Queenstown;S表示Southampton。

在这里插入图片描述

环境设置

首先,我们需要设置 Spark 环境并创建 SparkSession 对象。以下是代码片段:

    val conf = new SparkConf().setMaster("local[*]").setAppName("practice1")     val spark = SparkSession.builder()       .config(conf)       .getOrCreate()      // 导入隐式转换相关依赖     import spark.implicits._          // 读取 CSV 文件生成 DataFrame 对象     val df = spark.read.format("csv")       .option("header", "true")       .option("mode", "DROPMALFORMED")       .load("titanic.csv") 

数据预处理

在分析之前,我们需要对数据进行预处理,包括数据类型转换和缺失值处理。

修改字段数据类型

我们将字段转换为适当的数据类型:

    val md_df = df.withColumn("Pclass", df("Pclass").cast(IntegerType))       .withColumn("Survived", df("Survived").cast(IntegerType))       .withColumn("Age", df("Age").cast(DoubleType))       .withColumn("SibSp", df("SibSp").cast(IntegerType))       .withColumn("Parch", df("Parch").cast(IntegerType))       .withColumn("Fare", df("Fare").cast(DoubleType))  

删除不必要的字段

删除不需要的字段,以简化数据集:

    val df1 = md_df.drop("PassengerId").drop("Name").drop("Ticket").drop("Cabin")  

处理缺失值

统计缺失值,并填充缺失数据:

    val columns: Array[String] = df1.columns     val missing_cnt: Array[Long] = columns.map(field => df1.select(col(field)).where(col(field).isNull).count())     val tuples: Array[(Long, String)] = missing_cnt.zip(columns)     val result_df: DataFrame = spark.sparkContext.parallelize(tuples).toDF("missing_cnt", "column_name")     result_df.show() 

在这里插入图片描述

    def meanAge(dataFrame: DataFrame): Double = {       dataFrame.select("Age")         .na.drop()         .agg(round(mean("Age"), 0))         .first()         .getDouble(0)     }      val df2 = df1.na.fill(Map("Age" -> meanAge(df1), "Embarked" -> "S"))     df2.show() 

在这里插入图片描述

数据分析

1. 生还人数统计

统计生还人数,并保存结果:

    val survived_count: DataFrame = df2.groupBy("Survived").count()     survived_count.show()     survived_count.coalesce(1).write.option("header", "true").csv("output/practice1/survived_count.csv")  

在这里插入图片描述

2. 不同上船港口生还情况

val survived_embark = df2.groupBy("Embarked", "Survived").count() survived_embark.show() survived_embark.coalesce(1).write.option("header", "true").csv("data/practice1survived_embark.csv") 

在这里插入图片描述

3. 存活/未存活的男女数量及比例

val survived_sex_count = df2.groupBy("Sex", "Survived").count() val survived_sex_percent = survived_sex_count.withColumn("percent", format_number(col("count").divide(functions.sum("count").over()).multiply(100), 5)) survived_sex_percent.show() survived_sex_percent.coalesce(1).write.option("header", "true").csv("data/practice1/survived_sex_percent.csv") 

在这里插入图片描述

4. 不同级别乘客生还人数和占总生还人数的比例

val survived_df = df2.filter(col("Survived") === 1) val pclass_survived_count = survived_df.groupBy("Pclass").count() val pclass_survived_percent = pclass_survived_count.withColumn("percent", format_number(col("count").divide(functions.sum("count").over()).multiply(100), 5)) pclass_survived_percent.show() pclass_survived_percent.coalesce(1).write.option("header", "true").csv("data/practice1/pclass_survived_percent.csv") 

在这里插入图片描述

5. 有无同行父母/孩子的生还情况

val df4 = df2.withColumn("Parch_label", when(df2("Parch") > 0, 1).otherwise(0)) val parch_survived_count = df4.groupBy("Parch_label", "Survived").count() parch_survived_count.show() parch_survived_count.coalesce(1).write.option("header", "true").csv("data/practice1/parch_survived_count.csv") 

在这里插入图片描述

6. 按照年龄分类的生还情况

val df3 = survived_df.withColumn("Age_label", when(df2("Age") <= 18, "minor").when(df2("Age") > 18 && df2("Age") <= 35, "young").when(df2("Age") > 35 && df2("Age") <= 55, "middle").otherwise("older")) val age_survived = df3.groupBy("Age_label", "Survived").count() age_survived.show() age_survived.coalesce(1).write.option("header", "true").csv("data/practice1/age_survived.csv") 

在这里插入图片描述

7. 提取乘客等级和上船费用信息

val sef = Seq("Pclass", "Fare") val df5 = df2.select(sef.head, sef.tail: _*) df5.show(5) df5.coalesce(1).write.option("header", "true").csv("data/practice1/pclass_fare.csv") 

在这里插入图片描述

总结

通过上述步骤,我们使用 Spark 对泰坦尼克号数据进行了全面的分析,从数据预处理到统计分析。希望这篇博客能帮助您更好地理解如何使用 Spark 进行数据处理和分析。

如有遇到问题可以找小编沟通交流哦。另外小编帮忙辅导大课作业,学生毕设等。不限于MapReduce, MySQL, python,java,大数据,模型训练等。 hadoop hdfs yarn spark Django flask flink kafka flume datax sqoop seatunnel echart可视化 机器学习等
在这里插入图片描述

相关内容

热门资讯

一分钟内幕!科乐吉林麻将系统发... 一分钟内幕!科乐吉林麻将系统发牌规律,福建大玩家确实真的是有挂,技巧教程(有挂ai代打);所有人都在...
一分钟揭秘!微扑克辅助软件(透... 一分钟揭秘!微扑克辅助软件(透视辅助)确实是有挂(2024已更新)(哔哩哔哩);1、用户打开应用后不...
五分钟发现!广东雀神麻雀怎么赢... 五分钟发现!广东雀神麻雀怎么赢,朋朋棋牌都是是真的有挂,高科技教程(有挂方法)1、广东雀神麻雀怎么赢...
每日必看!人皇大厅吗(透明挂)... 每日必看!人皇大厅吗(透明挂)好像存在有挂(2026已更新)(哔哩哔哩);人皇大厅吗辅助器中分为三种...
重大科普!新华棋牌有挂吗(透视... 重大科普!新华棋牌有挂吗(透视)一直是有挂(2021已更新)(哔哩哔哩)1、完成新华棋牌有挂吗的残局...
二分钟内幕!微信小程序途游辅助... 二分钟内幕!微信小程序途游辅助器,掌中乐游戏中心其实存在有挂,微扑克教程(有挂规律)二分钟内幕!微信...
科技揭秘!jj斗地主系统控牌吗... 科技揭秘!jj斗地主系统控牌吗(透视)本来真的是有挂(2025已更新)(哔哩哔哩)1、科技揭秘!jj...
1分钟普及!哈灵麻将攻略小,微... 1分钟普及!哈灵麻将攻略小,微信小程序十三张好像存在有挂,规律教程(有挂技巧)哈灵麻将攻略小是一种具...
9分钟教程!科乐麻将有挂吗,传... 9分钟教程!科乐麻将有挂吗,传送屋高防版辅助(总是存在有挂)1、完成传送屋高防版辅助透视辅助安装,帮...
每日必看教程!兴动游戏辅助器下... 每日必看教程!兴动游戏辅助器下载(辅助)真是真的有挂(2025已更新)(哔哩哔哩)1、打开软件启动之...