文章詳情頁

Python讀取pdf表格寫入excel的方法

瀏覽：5日期：2022-06-29 13:18:40

背景

今天突然想到之前被要求做同性質(zhì)銀行的數(shù)據(jù)分析。媽耶！十幾個(gè)銀行，每個(gè)銀行近5年的財(cái)務(wù)數(shù)據(jù)，而且財(cái)務(wù)報(bào)表一般都是 pdf 的，我們將 pdf 中表的數(shù)據(jù)一個(gè)個(gè)的拷貝到 excel 中，再借助 excel 去進(jìn)行求和求平均等聚合函數(shù)操作，完事了還得把求出來的結(jié)果再統(tǒng)一 CV 到另一張表中，進(jìn)行可視化分析…

當(dāng)然，那時(shí)風(fēng)流倜儻的老Amy 還熟練的玩轉(zhuǎn)著 excel ，也是個(gè)秀兒~ 今天就思索著，如果當(dāng)年我會(huì) Python 是不是可以讓我成為班級最靚的崽！用技術(shù)占領(lǐng)高地，HHH，所以今天我來了，希望可以幫助大家解決同性質(zhì)的問題。

開始學(xué)習(xí)叭避免CV大法

pdf 文件的表格的數(shù)據(jù)可以復(fù)制，但是這是一項(xiàng)非常繁瑣的事情。所以我首先考慮的是，Python 可否幫助我們高效且規(guī)范地讀取 pdf 中的表格數(shù)據(jù)。所以一頓的檢索，發(fā)現(xiàn)了一個(gè)比較優(yōu)質(zhì)處理 pdf 的庫：pdfplumber，當(dāng)然這個(gè)庫需要大家 pip install pdfplumber 去進(jìn)行安裝。以及詳細(xì)使用可參考全球最大基友社區(qū)：https://github.com/jsvine/pdfplumber

步驟：導(dǎo)入 pdfplumber 庫通過 pdfplumber.open() 函數(shù) 獲取 mt2018.pdf 文件對象通過該對象.pages 獲取 pdf 每頁的對象，截取我們需要的頁對象即可通過頁對象.extract_tables() 獲取表格數(shù)據(jù)（若需要獲取文本：頁對象.extract_text()）

代碼實(shí)現(xiàn)：

import pdfplumber# 獲取 pdf 文件對象pdf_mt = pdfplumber.open('mt2018.pdf')# 因?yàn)槲倚枰@取的資產(chǎn)負(fù)債表在 51-53頁但是索引從0開始所以切片取 50-52即可for pdf_pg in pdf_mt.pages[50:53]: # 只提取當(dāng)前頁表格數(shù)據(jù) print(pdf_pg.extract_tables()) --------------------------------------------------------------------------結(jié)果比較多，截取一部分：[[[’項(xiàng)目’, ’附注’, ’期末余額’, ’期初余額’], [’流動(dòng)資產(chǎn)：’, ’’, ’’, ’’], [’貨幣資金’, ’1’, ’112,074,791,420.06’, ’87,868,869,913.34’], [’結(jié)算備付金’, ’’, ’’, ’’], [’拆出資金’, ’’, ’’, ’’], [’以公允價(jià)值計(jì)量且其變動(dòng)計(jì)入當(dāng)n期損益的金融資產(chǎn)’, ’’, ’’, ’’], [’衍生金融資產(chǎn)’, ’’, ’’, ’’], [’應(yīng)收票據(jù)及應(yīng)收賬款’, ’2’, ’563,739,710.00’, ’1,221,706,039.00’]]]將完整表保存到 csv 文件中

我們發(fā)現(xiàn)，返回的數(shù)據(jù)集是一個(gè)三維的列表。那么在我們平時(shí)處理的 excel 表格數(shù)據(jù)(行與列)都是二維的數(shù)據(jù)。那么，這多出的一維是什么呢？其實(shí)就是我們的夜[頁]~ 再來一個(gè)循環(huán)取出二維數(shù)據(jù)進(jìn)行保存即可

for pdf_pg in pdf_mt.pages[50:53]: for pdf_tb in pdf_pg.extract_tables(): print(pdf_tb) ------------------------------------------------------------------------------結(jié)果比較多，截取一部分：[[’項(xiàng)目’, ’附注’, ’期末余額’, ’期初余額’], [’流動(dòng)資產(chǎn)：’, ’’, ’’, ’’], [’貨幣資金’, ’1’, ’112,074,791,420.06’, ’87,868,869,913.34’], [’結(jié)算備付金’, ’’, ’’, ’’], [’拆出資金’, ’’, ’’, ’’], [’以公允價(jià)值計(jì)量且其變動(dòng)計(jì)入當(dāng)n期損益的金融資產(chǎn)’, ’’, ’’, ’’], [’衍生金融資產(chǎn)’, ’’, ’’, ’’], [’應(yīng)收票據(jù)及應(yīng)收賬款’, ’2’, ’563,739,710.00’, ’1,221,706,039.00’]]

但是，真的那么簡單嗎？這時(shí)，我們就需要細(xì)品我們的 pdf 了，如下圖

Python讀取pdf表格寫入excel的方法

我們發(fā)現(xiàn)，一張完整的資產(chǎn)負(fù)債表分布在多頁上。也就是說，每一頁的里面的表格數(shù)據(jù)都是一個(gè)三維的列表，所以我們保存數(shù)據(jù)的時(shí)候，需要讓其有共同的表頭(列索引)，并且進(jìn)行拼接。

那必須就要強(qiáng)推我們的 pandas 了，pandas.DataFrame() 非常完美的創(chuàng)建表格式的二維數(shù)組，以及指定列索引(表頭)。包括可以直接使用 df.append() 進(jìn)行共同表頭數(shù)據(jù)的堆疊拼接。

import pdfplumberimport pandas as pdimport numpy as np# 創(chuàng)建僅有表頭的 dataframe 數(shù)組pdf_df = pd.DataFrame(columns=[’項(xiàng)目’, ’附注’, ’期末余額’, ’期初余額’])# 獲取 pdf 文件對象pdf_mt = pdfplumber.open('mt2018.pdf')# 因?yàn)槲倚枰@取的資產(chǎn)負(fù)債表在 51-53頁但是索引從0開始所以切片取 50-52即可for pdf_pg in pdf_mt.pages[50:53]: # 獲取二維列表 for pdf_tb in pdf_pg.extract_tables():# 將其拼接 pdf_df = pdf_df.append(pd.DataFrame(np.array(pdf_tb),columns=[’項(xiàng)目’, ’附注’, ’期末余額’, ’期初余額’]))# 顯示后五條pdf_df.tail()

dataframe數(shù)據(jù)輸出如下：

Python讀取pdf表格寫入excel的方法

pdf 53頁如下：

Python讀取pdf表格寫入excel的方法

實(shí)際上，大家也發(fā)現(xiàn)，我們獲取的最后一頁的數(shù)據(jù)還有一部分是另一個(gè)表的，所以我們需要將其去除，并且有序的設(shè)置行索引，再保存到 csv 文件中。

# 去除后三行pdf_df = pdf_df.iloc[:-3,:]# 重置索引pdf_df = pdf_df.reset_index(drop=True)# 保存到 csv 文件中pdf_df.to_csv('mt_2018.csv')

Python讀取pdf表格寫入excel的方法

當(dāng)然，今天就到這里，其它的需求我們下次給大家完善。大家也可以自己將代碼封裝成函數(shù)，這樣就可以實(shí)現(xiàn)傳入 pdf文件名稱、頁數(shù)以及保存的文件名來復(fù)用代碼。如果大家再掌握了 pandas 就可以根據(jù)自己的需求，對各個(gè)表格數(shù)據(jù)進(jìn)行處理。再結(jié)合 seaborn 繪圖可視化，完爆 excel ~ 快學(xué)習(xí)起來叭，GOGOGO

以上就是Python讀取pdf表格寫入excel的方法的詳細(xì)內(nèi)容，更多關(guān)于Python讀取pdf表格寫入excel的資料請關(guān)注好吧啦網(wǎng)其它相關(guān)文章！

python

上一條：python 合并多個(gè)excel中同名的sheet下一條：python 基于UDP協(xié)議套接字通信的實(shí)現(xiàn)

相關(guān)文章：

1. IntelliJ IDEA設(shè)置默認(rèn)瀏覽器的方法2. idea自定義快捷鍵的方法步驟3. PHP腳本的10個(gè)技巧(8)4. IntelliJ IDEA調(diào)整字體大小的方法5. IntelliJ IDEA導(dǎo)出項(xiàng)目的方法6. python中復(fù)數(shù)的共軛復(fù)數(shù)知識點(diǎn)總結(jié)7. IntelliJ IDEA設(shè)置背景圖片的方法步驟8. IntelliJ IDEA配置Tomcat服務(wù)器的方法9. Django中如何使用Channels功能10. jsp網(wǎng)頁實(shí)現(xiàn)貪吃蛇小游戲

排行榜

					
					PHP腳本的10個(gè)技巧(8)
IntelliJ IDEA配置Tomcat服務(wù)器的方法
idea自定義快捷鍵的方法步驟
IntelliJ IDEA設(shè)置背景圖片的方法步驟
IntelliJ IDEA調(diào)整字體大小的方法
python中復(fù)數(shù)的共軛復(fù)數(shù)知識點(diǎn)總結(jié)
jsp網(wǎng)頁實(shí)現(xiàn)貪吃蛇小游戲
IntelliJ IDEA設(shè)置默認(rèn)瀏覽器的方法
Django中如何使用Channels功能
IntelliJ IDEA導(dǎo)出項(xiàng)目的方法
docker /var/lib/docker/aufs/mnt 目錄清理方法