admin管理员组

文章数量:1794759

Spark SQL  基础学习 【一】命令行操作DataFrame

Spark SQL 基础学习 【一】命令行操作DataFrame

1.上传文件到hdfs vi student.txt 内容: 1,dayu,23 2,wangbaoqiang,28 3,xuzheng,30 将文件上传到hdfs hadoop fs -put student.txt / 2.读取数据并分割

在Spark shell执行下面命令,读取数据,将每一行的数据使用列分隔符分割

val rdd=sc.textFile("hdfs://hadoop01:9000/student.txt").map(_.split(","))

3.定义case class case class student (id:Long ,name: String,age: Int) 4.将RDD和case class关联 val studentRDD=rdd.map(x=>student(x(0).toLong,x(1),x(2).toInt)) 5.将RDD转换成DataFrame val df=studentRDD.toDF 6.将DataFrame注册成表

如果想使用SQL风格的语法,需要将DataFrame注册成表

df.registerTempTable("t_student")

7.测试使用

sqlContext.sql("").show模板

sqlContext.sql("select * from t_student").show

本文标签: 命令行操作基础sparkSQL