色综合图-色综合图片-色综合图片二区150p-色综合图区-玖玖国产精品视频-玖玖香蕉视频

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

python讀取hdfs并返回dataframe教程

瀏覽:6日期:2022-07-22 15:11:05

不多說(shuō),直接上代碼

from hdfs import Clientimport pandas as pd HDFSHOST = 'http://xxx:50070'FILENAME = '/tmp/preprocess/part-00000' #hdfs文件路徑COLUMNNAMES = [xx’] def readHDFS():’’’讀取hdfs文件 Returns:df:dataframe hdfs數(shù)據(jù)’’’client = Client(HDFSHOST)# 目前讀取hdfs文件采用方式:# 1. 先從hdfs讀取二進(jìn)制數(shù)據(jù)流文件# 2. 將二進(jìn)制文件另存為.csv# 3. 使用pandas讀取csv文件with client.read(FILENAME) as fs:content = fs.read()s = str(content, ’utf-8’)file = open('data/tmp/data.csv', 'w')file.write(s)df = pd.read_csv('data/tmp/data.csv', names=COLUMNNAMES)return df

補(bǔ)充知識(shí):Python連接HDFS實(shí)現(xiàn)文件上傳下載及Pandas轉(zhuǎn)換文本文件到CSV

1. 目標(biāo)

通過(guò)hadoop hive或spark等數(shù)據(jù)計(jì)算框架完成數(shù)據(jù)清洗后的數(shù)據(jù)在HDFS上

爬蟲和機(jī)器學(xué)習(xí)在Python中容易實(shí)現(xiàn)

在Linux環(huán)境下編寫Python沒(méi)有pyCharm便利

需要建立Python與HDFS的讀寫通道

2. 實(shí)現(xiàn)

安裝Python模塊pyhdfs

版本:Python3.6, hadoop 2.9

讀文件代碼如下

from pyhdfs import HdfsClientclient=HdfsClient(hosts=’ghym:50070’)#hdfs地址res=client.open(’/sy.txt’)#hdfs文件路徑,根目錄/for r in res: line=str(r,encoding=’utf8’)#open后是二進(jìn)制,str()轉(zhuǎn)換為字符串并轉(zhuǎn)碼 print(line)

寫文件代碼如下

from pyhdfs import HdfsClientclient=HdfsClient(hosts=’ghym:50070’,user_name=’hadoop’)#只有hadoop用戶擁有寫權(quán)限str=’hello world’client.create(’/py.txt’,str)#創(chuàng)建新文件并寫入字符串

上傳本地文件到HDFS

from pyhdfs import HdfsClientclient = HdfsClient(hosts=’ghym:50070’, user_name=’hadoop’)client.copy_from_local(’d:/pydemo.txt’, ’/pydemo’)#本地文件絕對(duì)路徑,HDFS目錄必須不存在

3. 讀取文本文件寫入csv

Python安裝pandas模塊

確認(rèn)文本文件的分隔符

# pyhdfs讀取文本文件,分隔符為逗號(hào),from pyhdfs import HdfsClientclient = HdfsClient(hosts=’ghym:50070’, user_name=’hadoop’)inputfile=client.open(’/int.txt’)# pandas調(diào)用讀取方法read_tableimport pandas as pddf=pd.read_table(inputfile,encoding=’gbk’,sep=’,’)#參數(shù)為源文件,編碼,分隔符# 數(shù)據(jù)集to_csv方法轉(zhuǎn)換為csvdf.to_csv(’demo.csv’,encoding=’gbk’,index=None)#參數(shù)為目標(biāo)文件,編碼,是否要索引

以上這篇python讀取hdfs并返回dataframe教程就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持好吧啦網(wǎng)。

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 亚洲免费视频在线观看 | 亚洲三级成人 | 日韩99在线 | 在线免费观看日本视频 | 99视频国产热精品视频 | 欧美毛片aaa激情 | 特黄特色大片免费播放路01 | 国产精品国内免费一区二区三区 | 色站综合 | 国产精品嘿咻嘿咻在线播放 | aaa级毛片 | 中文字幕一区在线播放 | 天天看夜夜看 | 国产一级做性视频 | 人人草97| 古代级a毛片在线 | 性感美女视频免费网站午夜 | 怡红院成人网 | 不卡的毛片 | 久久久久依人综合影院 | 亚洲午夜在线观看 | 日韩一区二区三区在线 | 99久久精彩视频 | 亚欧成人中文字幕一区 | 久久精品国产欧美日韩亚洲 | 特黄特a级特别特级特毛片 特黄特黄 | 久久久久在线 | 欧美国产91 | 国产免费观看a大片的网站 国产免费黄色网址 | 国产萌白酱在线一区二区 | 久久久亚洲国产精品主播 | 欧美精品亚洲一区二区在线播放 | 国产最猛性xxxxxx69交 | 九色福利| 在线观看国产精成人品 | 2022国内精品免费福利视频 | 国产国语高清在线视频二区 | 毛片网站大全 | 美女131爽爽爽做爰中文视频 | 92看片淫黄大片看国产片 | 极品美女户外勾搭无套 |