admin管理员组文章数量:1794759
Spark SQL 基础学习 【一】命令行操作DataFrame
1.上传文件到hdfs vi student.txt 内容: 1,dayu,23 2,wangbaoqiang,28 3,xuzheng,30 将文件上传到hdfs hadoop fs -put student.txt / 2.读取数据并分割
在Spark shell执行下面命令,读取数据,将每一行的数据使用列分隔符分割
val rdd=sc.textFile("hdfs://hadoop01:9000/student.txt").map(_.split(",")) 3.定义case class case class student (id:Long ,name: String,age: Int) 4.将RDD和case class关联 val studentRDD=rdd.map(x=>student(x(0).toLong,x(1),x(2).toInt)) 5.将RDD转换成DataFrame val df=studentRDD.toDF 6.将DataFrame注册成表如果想使用SQL风格的语法,需要将DataFrame注册成表
df.registerTempTable("t_student") 7.测试使用sqlContext.sql("").show模板
sqlContext.sql("select * from t_student").show版权声明:本文标题:Spark SQL基础学习 【一】命令行操作DataFrame 内容由林淑君副主任自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.xiehuijuan.com/baike/1687062721a130875.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论