文章詳情頁

python讀取hdfs上的parquet文件方式

瀏覽：7日期：2022-07-22 15:00:03

在使用python做大數據和機器學習處理過程中，首先需要讀取hdfs數據，對于常用格式數據一般比較容易讀取，parquet略微特殊。從hdfs上使用python獲取parquet格式數據的方法(當然也可以先把文件拉到本地再讀取也可以)：

1、安裝anaconda環境。

2、安裝hdfs3。

conda install hdfs3

3、安裝fastparquet。

conda install fastparquet

4、安裝python-snappy。

conda install python-snappy

5、讀取文件

##namenode mode:from hdfs3 import HDFileSystemfrom fastparquet import ParquetFile hdfs = HDFileSystem(host=IP, port=8020)sc = hdfs.open pf = ParquetFile(filename, open_with=sc)df = pf.to_pandas() ##返回pandas的DataFrame類型 ##HA mode:from hdfs3 import HDFileSystemfrom fastparquet import ParquetFile host = 'nameservice1'conf = { 'dfs.nameservices':'nameservice1', ......}hdfs = HDFileSystem(host = host, pars = conf)......

python訪問HDFS HA的三種方法

python訪問hdfs常用的包有三個，如下：

1、hdfs3

其實從安裝便捷性和使用上來說，并不推薦hdfs3，因為他的系統依賴和網絡要求較高，但是某些情況下使用hdfs3會比較方便，官網資料點這里。如上面介紹，IP直接訪問namenode：

from hdfs3 import HDFileSystemhdfs = HDFileSystem(host=namenode, port=8020)hdfs.ls(’/tmp’)

HA訪問：

host = 'nameservice1'conf = {'dfs.nameservices': 'nameservice1', 'dfs.ha.namenodes.nameservice1': 'namenode113,namenode188', 'dfs.namenode.rpc-address.nameservice1.namenode113': 'hostname_of_server1:8020', 'dfs.namenode.rpc-address.nameservice1.namenode188': 'hostname_of_server2:8020', 'dfs.namenode.http-address.nameservice1.namenode188': 'hostname_of_server1:50070', 'dfs.namenode.http-address.nameservice1.namenode188': 'hostname_of_server2:50070', 'hadoop.security.authentication': 'kerberos'}fs = HDFileSystem(host=host, pars=conf) ##或者下面這種配置host = 'ns1'conf = { 'dfs.nameservices':'ns1', 'dfs.ha.namenodes.ns1':'namenode122,namenode115', 'dfs.namenode.rpc-address.ns1.namenode122':'nnlab01:8020', 'dfs.namenode.servicerpc-address.ns1.namenode122':'nnlab01:8022', 'dfs.namenode.http-address.ns1.namenode122':'nnlab01:50070', 'dfs.namenode.https-address.ns1.namenode122':'nnlab01:50470', 'dfs.namenode.rpc-address.ns1.namenode115':'nnlab02:8020', 'dfs.namenode.servicerpc-address.ns1.namenode115':'nnlab02:8022', 'dfs.namenode.http-address.ns1.namenode115':'nnlab02:50070', 'dfs.namenode.https-address.ns1.namenode115':'nnlab02:50470',}hdfs = HDFileSystem(host = host, pars = conf)

2、hdfs

這種方法在使用的時候配置比較簡單，官網資料也比較豐富，但是需要注意的是該API可以模擬用戶訪問，權限較大。IP直接訪問：

import hdfsclient = hdfs.client.InsecureClient(url='http://namenode:50070', user='hdfs')

HA訪問：

import hdfsclient = hdfs.client.InsecureClient(url='http://namenode1:50070;http://namenode2:50070', user='hdfs')

3、pyhdfs

安裝命令：pip install PyHDFS

官網地址，直接訪問：

import pyhdfsclient = pyhdfs.HdfsClient(hosts='namenode:50070',user_name='hdfs')

HA訪問

import pyhdfsclient = pyhdfs.HdfsClient(hosts=['namenode1:50070','namenode2:50070'],user_name='hdfs')

補充知識：python spark中parquet文件寫到hdfs，同時避免太多的小文件（block小文件合并）

在pyspark中，使用數據框的文件寫出函數write.parquet經常會生成太多的小文件，例如申請了100個block，而每個block中的結果

只有幾百K，這在機器學習算法的結果輸出中經常出現，這是一種很大的資源浪費，那么如何同時避免太多的小文件（block小文件合并）？

其實有一種簡單方法，該方法需要你對輸出結果的數據量有個大概估計，然后使用Dataframe中的coalesce函數來指定輸出的block數量

即可，具體使用代碼如下：

df.coalesce(2).write.parquet(path,mode)

這里df是指你要寫出的數據框，coalesce(2)指定了寫到2個block中，一個block默認128M，path是你的寫出路徑，mode是寫出模式，常用的是

'overwrite'和'append'。

以上這篇python讀取hdfs上的parquet文件方式就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持好吧啦網。

Python 編程

上一條：Python API 操作Hadoop hdfs詳解下一條：Python連接HDFS實現文件上傳下載及Pandas轉換文本文件到CSV操作

相關文章：

1. 關于WPF WriteableBitmap類直接操作像素點的問題2. JavaScript前端中的偽類元素before和after使用詳解3. PHP JSAPI調支付API實現微信支付功能詳解4. asp取整數mod 有小數的就自動加15. 源碼分析MinimalApi是如何在Swagger中展示6. ThinkPHP5實現JWT Token認證的過程(親測可用)7. ASP基礎入門第一篇(ASP技術簡介)8. 熊海CMS代碼審計漏洞分析9. 表單中Readonly和Disabled的區別詳解10. PHP laravel實現基本路由配置詳解

排行榜

					
					js觀察者模式的介紹及使用
PHP常用字符串函數用法實例總結
js函數和this用法實例分析
js實現星星閃特效
PHP使用Http Post請求發送Json對象數據代碼解析
python用dataframe將csv中的0值數據轉化為nan缺失值字樣
PHP新版本10月出爐，跳過6直上PHP7？
詳解Python 中的 defaultdict 數據類型
JS實現網站樓層導航效果代碼實例
JS使用for in有序獲取對象數據
JavaScript中layim之整合右鍵菜單的示例代碼