大数据处理(选修)实验课:实验二 Spark Streaming实验
创始人
2024-11-18 05:34:05
0
1. 创建code源文件的文件夹

   终端中输入如下命令

cd /usr/local/spark/mycode		 mkdir streaming cd streaming mkdir -p src/main/scala cd src/main/scala 

  注意:这一步需要提前创建mycode文件夹,否则如果直接全文复制之后回车会导致后面的指令全部无效!

2. 编写WordCount的scala代码

  用vim打开一个scala文件:

vim TestStructuredStreaming.scala 

  在该文件输入以下内容:

import org.apache.spark.sql.functions._ import org.apache.spark.sql.SparkSession  object WordCountStructuredStreaming{  def main(args: Array[String]){      val spark = SparkSession.builder.appName("StructuredNetworkWordCount"). getOrCreate()      import spark.implicits._      val lines = spark.readStream.format("socket").option("host","localhost"). option("port",9999).load()      val words = lines.as[String].flatMap(_.split(" "))      val wordCounts = words.groupBy("value").count()      val query = wordCounts.writeStream.outputMode("complete"). format("console").start()      query.awaitTermination()  } }  

  以上是WordCount的scala代码,阅读代码可以知道这里用的端口是9999,记住它,后面要用。

3. 安装sbt

  sbt是用来打包scala的工具。由于前文并没有讲解sbt 的用法(甚至没教怎么安装orz,感觉是任务书被阉割导致的,实验一的spark安装中包含了这一部分,但很容易被忽略),先补充一下sbt的配置步骤(参考了大数据原理与应用 第十六章 Spark 学习指南 (xmu.edu.cn))

  • 官网下载地址:Download | sbt (scala-sbt.org) 我在这里下载了1.10的tgz版本,方便在linux中解压和安装。

  • 下载完成之后,将压缩包解压。利用以下指令直接解压到/usr/local/文件夹中(这样做的前提是命令行在压缩包所在的文件夹处):

    tar -zxvf sbt-1.10.0.tgz -C /usr/local    # 解压到/usr/local中 
  • 在 /usr/local/sbt 中创建 sbt 脚本(vim ./sbt),添加如下内容(记得路径要改成自己的路径):

    #!/bin/bash SBT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=256M" java $SBT_OPTS -jar /usr/local/sbt/bin/sbt-launch.jar "$@" 
  • 保存退出后,为./bat文件增加读写权限(注意在对应目录下完成该步骤):

    chmod u+x ./sbt 
  • 最后运行如下命令,检查sbt是否可用:

    ./sbt sbtVersion 

    若结果如下,则可用。

sbt_version

4. 创建bat文件,编辑编译相关内容
  • 在/usr/lcoal/spark/mycode/streaming目录下创建simple.sbt文件:

    cd /usr/local/spark/mycode/streaming vim simple.sbt 
  • 输入以下内容:

    name := "Simple Project" version := "1.0" scalaVersion := "2.12.17" libraryDependencies += "org.apache.spark" %% "spark-sql" % "3.4.3" 

  注意,这里需要指定scala和spark的版本,这是需要和你安装的版本统一的。在上面的配置信息中,scalaVersion用来指定scala的版本,sparkcore用来指定spark的版本,这两个版本信息都可以在之前的启动 Spark shell 的过程中,从屏幕的显示信息中找到。示例如下:

spark&scala_version

  • 执行sbt打包编译:

    cd /usr/local/spark/mycode/streaming /usr/local/sbt/sbt package 

  如果打包编译成功,会显示如下信息:

package_sucess

5. 启动程序
  • 启动程序的shell指令(这里也有要注意的,不要直接跟着任务书抄,这里的文件目录和名称是和scala版本有关系的,需要检查你的文件的具体情况):
cd /usr/local/spark/mycode/streaming /usr/local/spark/bin/spark-submit --class "WordCountStructuredStreaming" ./target/scala-2.12/simple-project_2.12-1.0.jar 

​ 然而如果直接这样执行,会发现出现报错后直接退出。报错信息大致如下:

error_localhost

  这是因为没有启动端口。还记得前文要记住的9999端口吗?现在它有用了。你需要在另外一个命令行(终端)窗口执行下面的指令:

 nc -lk 9999 

  通过这条指令,你成功启动了9999号端口,也就可以在终端输入相关的信息让你的程序来读取和实现功能了。两个终端都不要关闭,接下来回到streaming目录的终端,重新执行启动程序的shell指令:

/usr/local/spark/bin/spark-submit --class "WordCountStructuredStreaming" ./target/scala-2.12/simple-project_2.12-1.0.jar >out.txt 

  “>out.txt"是为了将输出单独放到out.txt文件夹中,方便查看。执行完这条指令后等待命令行的输出显示不再更新,切换到9999端口的终端输入你想检测的内容(以任务书中的”hello world, hello Beijing, hello world“为例),等再一次命令行输出显示不再更新,程序就进行完成了,输出的结果就可以在out.txt中查看了。终端输入待检测内容可以重复进行,直到按下Ctrl+C结束程序。示例输出如下:

在这里插入图片描述
  至此,实验二完成:)

相关内容

热门资讯

重大消息!wepoke有漏洞的... 重大消息!wepoke有漏洞的(有辅助挂)好友跑得快软件黑科技(有挂引领);科技详细教程小薇《136...
七分钟秒懂!德州wepoker... 七分钟秒懂!德州wepoker德州作弊有的(作弊透视)德州wepoker其实是有猫腻的(有挂技巧);...
玩家攻略!微扑克辅助是真的的(... 玩家攻略!微扑克辅助是真的的(有辅助)葫芦娃捉鸡有挂的(有挂方式)科技教程也叫必备教程,这是一款功能...
发现一款!微扑克小程序辅助器(... 1、不需要AI权限,帮助你快速的进行微扑克计算辅助教程,沉浸在游戏的游玩之中。2、里面整个微扑克黑科...
6分钟辅助!私人局wepoke... 1、让任何用户在无需AI插件第三方神器的情况下就能够完成在私人局wepoker下的调试。2、直接的在...
揭秘几款!微扑克小程序辅助器(... 揭秘几款!微扑克小程序辅助器(有科技)中至万年麻将挂在哪里(有挂手段);玩家必备必赢加哟《43936...
8分钟了解!WePOker德州... 8分钟了解!WePOker德州软件在哪买(透视插件)WePOker其实真的有挂的(有挂辅导);人气非...
科普常识!wepoke外挂(有... 科普常识!wepoke外挂(有辅助挂)广西星悦跑胡子软件(有挂攻略);wepoke软件透明挂最近人气...
揭秘内幕!微扑克脚本代写(软件... 【福星临门,好运相随】;揭秘内幕!微扑克脚本代写(软件透明挂)星悦云南麻将有假(有挂辅导);暗藏猫腻...
十分钟了解!wpk德州透视软件... 十分钟了解!wpk德州透视软件在哪买(作弊辅助挂)wpk原来真的是有挂的(有挂辅导)科技教程也叫必备...