python有spark库么-Python教程

资源魔 51 0
从这个名字pyspark就能够看进去,它是由python以及spark组合应用的.

置信你此时曾经电脑上曾经装载了hadoop,spark,python3.

Spark提供了一个Python_Shell,即pyspark,从而能够以交互的形式应用Python编写Spark顺序。(保举学习:Python视频教程)

pyspark里最外围的模块是SparkContext(简称sc),最首要的数据载体是RDD。RDD就像一个NumPy array或许一个Pandas Series,能够视作一个有序的item荟萃。只不外这些item其实不存正在driver真个内存里,而是被宰割成不少个partitions,每一个partition的数据存正在集群的executor的内存中。

引入Python中pyspark工作模块

import pyspark
from pyspark import SparkContext as sc
from pyspark import SparkConf
conf=SparkConf().setAppName("miniProject").setMaster("local[*]")
sc=SparkContext.getOrCreate(conf)
#任何Spark顺序都是SparkContext开端的,SparkContext的初始化需求一个SparkConf工具,SparkConf蕴含了Spark集群设置装备摆设的各类参数(比方主节点的URL)。初始化后,就能够应用SparkContext工具所蕴含的各类办法来创立以及操作RDD以及同享变量。Spark shell会主动初始化一个SparkContext(正在Scala以及Python下能够,但没有支持Java)。
#getOrCreate标明能够视状况新建session或行使已有的session

SparkSession是Spark 2.0引入的新概念。

SparkSession为用户提供了对立的切入点,来让用户学习spark的各项性能。 正在spark的晚期版本中,SparkContext是spark的次要切入点,因为RDD是次要的API,咱们经过sparkcontext来创立以及操作RDD。关于每一个其余的API,咱们需求应用没有同的context。

例如,关于Streming,咱们需求应用StreamingContext;关于sql,应用sqlContext;关于hive,应用hiveContext。然而跟着DataSet以及DataFrame的API逐步成为规范的API,就需求为他们建设接入点。以是正在spark2.0中,引入SparkSession作为DataSet以及DataFrame API的切入点。

SparkSession本质上是SQLContext以及HiveContext的组合(将来可能还会加之StreamingContext),以是正在SQLContext以及HiveContext上可用的API正在SparkSession上一样是能够应用的。SparkSession外部封装了SparkContext,以是较量争论其实是由SparkContext实现的。

更多Python相干技巧文章,请拜访Python教程栏目进行学习!

以上就是python有spark库么的具体内容,更多请存眷资源魔其它相干文章!

标签: Python python教程 python编程 python使用问题

抱歉,评论功能暂时关闭!