python有spark库么-Python教程

资源魔 2020-07-22 21:09:16 51 0

从这个名字pyspark就能够看进去,它是由python以及spark组合应用的.

置信你此时曾经电脑上曾经装载了hadoop,spark,python3.

Spark提供了一个Python_Shell，即pyspark，从而能够以交互的形式应用Python编写Spark顺序。（保举学习：Python视频教程）

pyspark里最外围的模块是SparkContext（简称sc）,最首要的数据载体是RDD。RDD就像一个NumPy array或许一个Pandas Series，能够视作一个有序的item荟萃。只不外这些item其实不存正在driver真个内存里，而是被宰割成不少个partitions，每一个partition的数据存正在集群的executor的内存中。

引入Python中pyspark工作模块

import pyspark
from pyspark import SparkContext as sc
from pyspark import SparkConf
conf=SparkConf().setAppName("miniProject").setMaster("local[*]")
sc=SparkContext.getOrCreate(conf)
#任何Spark顺序都是SparkContext开端的，SparkContext的初始化需求一个SparkConf工具，SparkConf蕴含了Spark集群设置装备摆设的各类参数(比方主节点的URL)。初始化后，就能够应用SparkContext工具所蕴含的各类办法来创立以及操作RDD以及同享变量。Spark shell会主动初始化一个SparkContext(正在Scala以及Python下能够，但没有支持Java)。
#getOrCreate标明能够视状况新建session或行使已有的session

SparkSession是Spark 2.0引入的新概念。

SparkSession为用户提供了对立的切入点，来让用户学习spark的各项性能。正在spark的晚期版本中，SparkContext是spark的次要切入点，因为RDD是次要的API，咱们经过sparkcontext来创立以及操作RDD。关于每一个其余的API，咱们需求应用没有同的context。

例如，关于Streming，咱们需求应用StreamingContext；关于sql，应用sqlContext；关于hive，应用hiveContext。然而跟着DataSet以及DataFrame的API逐步成为规范的API，就需求为他们建设接入点。以是正在spark2.0中，引入SparkSession作为DataSet以及DataFrame API的切入点。

SparkSession本质上是SQLContext以及HiveContext的组合(将来可能还会加之StreamingContext)，以是正在SQLContext以及HiveContext上可用的API正在SparkSession上一样是能够应用的。SparkSession外部封装了SparkContext，以是较量争论其实是由SparkContext实现的。

更多Python相干技巧文章，请拜访Python教程栏目进行学习！

以上就是python有spark库么的具体内容，更多请存眷资源魔其它相干文章！

标签： Python python教程 python编程 python使用问题