文章詳情頁

在python中使用pyspark讀寫Hive數據操作

瀏覽：3日期：2022-07-22 14:21:20

1、讀Hive表數據

pyspark讀取hive數據非常簡單，因為它有專門的接口來讀取，完全不需要像hbase那樣，需要做很多配置，pyspark提供的操作hive的接口，使得程序可以直接使用SQL語句從hive里面查詢需要的數據，代碼如下：

from pyspark.sql import HiveContext,SparkSession _SPARK_HOST = 'spark://spark-master:7077'_APP_NAME = 'test'spark_session = SparkSession.builder.master(_SPARK_HOST).appName(_APP_NAME).getOrCreate() hive_context= HiveContext(spark_session ) # 生成查詢的SQL語句，這個跟hive的查詢語句一樣，所以也可以加where等條件語句hive_database = 'database1'hive_table = 'test'hive_read = 'select * from {}.{}'.format(hive_database, hive_table) # 通過SQL語句在hive中查詢的數據直接是dataframe的形式read_df = hive_context.sql(hive_read)

2 、將數據寫入hive表

pyspark寫hive表有兩種方式：

（1）通過SQL語句生成表

from pyspark.sql import SparkSession, HiveContext _SPARK_HOST = 'spark://spark-master:7077'_APP_NAME = 'test' spark = SparkSession.builder.master(_SPARK_HOST).appName(_APP_NAME).getOrCreate() data = [ (1,'3','145'), (1,'4','146'), (1,'5','25'), (1,'6','26'), (2,'32','32'), (2,'8','134'), (2,'8','134'), (2,'9','137')]df = spark.createDataFrame(data, [’id’, 'test_id', ’camera_id’]) # method one，default是默認數據庫的名字，write_test 是要寫到default中數據表的名字df.registerTempTable(’test_hive’)sqlContext.sql('create table default.write_test select * from test_hive')

（2）saveastable的方式

# method two # 'overwrite'是重寫表的模式，如果表存在，就覆蓋掉原始數據，如果不存在就重新生成一張表# mode('append')是在原有表的基礎上進行添加數據df.write.format('hive').mode('overwrite').saveAsTable(’default.write_test’)

tips：

spark用上面幾種方式讀寫hive時，需要在提交任務時加上相應的配置,不然會報錯：

spark-submit --conf spark.sql.catalogImplementation=hive test.py

補充知識：PySpark基于SHC框架讀取HBase數據并轉成DataFrame

一、首先需要將HBase目錄lib下的jar包以及SHC的jar包復制到所有節點的Spark目錄lib下

二、修改spark-defaults.conf 在spark.driver.extraClassPath和spark.executor.extraClassPath把上述jar包所在路徑加進去

三、重啟集群

四、代碼

#/usr/bin/python#-*- coding:utf-8 ?*- from pyspark import SparkContextfrom pyspark.sql import SQLContext,HiveContext,SparkSessionfrom pyspark.sql.types import Row,StringType,StructField,StringType,IntegerTypefrom pyspark.sql.dataframe import DataFrame sc = SparkContext(appName='pyspark_hbase')sql_sc = SQLContext(sc) dep = 'org.apache.spark.sql.execution.datasources.hbase'#定義schemacatalog = '''{ 'table':{'namespace':'default', 'name':'teacher'}, 'rowkey':'key', 'columns':{ 'id':{'cf':'rowkey', 'col':'key', 'type':'string'}, 'name':{'cf':'teacherInfo', 'col':'name', 'type':'string'}, 'age':{'cf':'teacherInfo', 'col':'age', 'type':'string'}, 'gender':{'cf':'teacherInfo', 'col':'gender','type':'string'}, 'cat':{'cf':'teacherInfo', 'col':'cat','type':'string'}, 'tag':{'cf':'teacherInfo', 'col':'tag', 'type':'string'}, 'level':{'cf':'teacherInfo', 'col':'level','type':'string'} } }''' df = sql_sc.read.options(catalog = catalog).format(dep).load() print (’***************************************************************’)print (’***************************************************************’)print (’***************************************************************’)df.show()print (’***************************************************************’)print (’***************************************************************’)print (’***************************************************************’)sc.stop()

五、解釋

數據來源參考請本人之前的文章，在此不做贅述

schema定義參考如圖：

在python中使用pyspark讀寫Hive數據操作

六、結果

在python中使用pyspark讀寫Hive數據操作

以上這篇在python中使用pyspark讀寫Hive數據操作就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持好吧啦網。

Python 編程

上一條：python 解決mysql where in 對列表(list,,array)問題下一條：使用Python構造hive insert語句說明

相關文章：

1. asp讀取xml文件和記數2. PHP實現基本留言板功能原理與步驟詳解3. 每日六道java新手入門面試題,通往自由的道路第二天4. vue 驗證兩次輸入的密碼是否一致的方法示例5. python利用opencv實現顏色檢測6. CSS自定義滾動條樣式案例詳解7. 讓你的PHP同時支持GIF、png、JPEG8. 多個SpringBoot項目采用redis實現Session共享功能9. 簡體中文轉換為繁體中文的PHP函數10. JavaScript快速實現一個顏色選擇器

排行榜

					
					asp讀取xml文件和記數
PHP實現基本留言板功能原理與步驟詳解
python利用opencv實現顏色檢測
每日六道java新手入門面試題,通往自由的道路第二天
簡體中文轉換為繁體中文的PHP函數
多個SpringBoot項目采用redis實現Session共享功能
讓你的PHP同時支持GIF、png、JPEG
CSS自定義滾動條樣式案例詳解
vue 驗證兩次輸入的密碼是否一致的方法示例
Python如何實現感知器的邏輯電路
Python 有可能刪除 GIL 嗎？