当前位置:Gxlcms > 数据库问题 > Spark SQL的官网解释

Spark SQL的官网解释

时间:2021-07-01 10:21:17 帮助过:24人阅读

一.官网位置

1.位置

技术图片

2.解释

  1. <code>官网位置 DataSet1.6出现的
  2. SchemaRDD < 1.3 1.3版本前叫 SchemaRDD 1.3以后 叫DataFrame
  3. DataSet支持 Scala , JAVA 不支持python
  4. DataFrame 支持四种 JAVA,Scala.Python,R
  5. DataFrame:并不是spark sql独创的,原来就有的,从其他框架借鉴过来的
  6. </code>

二.DataFrame 注意事项

1.注意

  1. <code>分布式的数据集
  2. 按列进行组织的
  3. 就是等于关系型数据库总的一张表
  4. DataFrame=DataSet[Row] 类型是Row</code>

三.DataFram 与RDD的区别

1.定义层面

  1. <code>RDD定义里面有泛型 RDD[person ] RDD不知道Person里面有什么的
  2. DataFrame 不一样 ,里面是张表,所以暴露的信息多</code>

技术图片
技术图片

2.底层方面

  1. <code>RDD开发各种语言有各自的运行环境,所以性能不一样,差异很大,但是DataFrame 是统一都经
  2. 过计划,在执行,不用管语言开发,性能差不多</code>

技术图片

3.API方面

  1. <code>DataFrame 比RDD 更加丰富</code>

三.其余注意事项

1.注意点

  1. <code>Spark SQL入口点 2.0版本
  2. <2: SQLContext HiveContext
  3. >=2: SparkSession
  4. spark-shell 启动会默认启动sc,spark 两个 SparkContext,SparkSession
  5. spark.read.json() 不推荐
  6. 可以这样写
  7. spark.read.format("json").load(path)
  8. spark.read.format("text").load(path)</code>

技术图片

2.支持hive模式代码

  1. <code class="language-scala"> val spark = SparkSession.builder()
  2. .appName("Test")
  3. .master("local[2]")
  4. .enableHiveSupport() //支持hive
  5. .getOrCreate()</code>

Spark SQL的官网解释

标签:出现   shel   api   builder   oca   解释   不用   for   ext   

人气教程排行