PDF/OFD电子发票解析InvoiceParse

PDF/OFD电子发票解析InvoiceParse

版本:v1.5.1 最新版大小:15.3M

类别:财务软件系统:WinXP, Win7, Win8, Win10

立即下载
  • PDF/OFD电子发票解析InvoiceParse v1.5.1 最新版0

PDF/OFD电子发票解析InvoiceParse可以将OFD专用电子发票及PDF普通电子发票等发票信息提取至excel,让各位可以根据更加直观的图表的方式,来分析和计算发票上的数据内容,而无需一个个的点开文件,查看并记录,大大提高了工作效率!

软件简介

因工作原因需要转换电子发票,而且量大,上网搜索了很多,发现一个比较好用的,特来分享。

功能说明

输入PDF电子发票所在路径,程序遍历路径下所有PDF电子发票(可以存在目录),读取并把主要一些信息写入Excel中。

使用说明

1、下载后解压,得到一个文件和一个文件夹

InvoiceParse发票批量解析工具

2、直接运行exe文件(res文件夹中的内容不要动,res文件夹保留与exe文件在同一目录;Excel文件不要编辑,也不要删除,它是作为Excel样式模板而存在,没有这个文件会报错)

InvoiceParse发票批量解析工具

3、说明:此程序是在windows10下打包,不保证其他版本操作系统能够运行。

4、输入PDF电子发票所在路径

InvoiceParse发票批量解析工具

5、程序就会解析了(测试机上每秒解析3-4个)

InvoiceParse发票批量解析工具

6、去PDF文件目录下就可以找到生产的Excel文件了

InvoiceParse发票批量解析工具

7、打开Excel就可以看到提取到的信息了。提取的信息如下:

InvoiceParse发票批量解析工具

InvoiceParse发票批量解析工具

8、说明:1)、此程序仅在windows10下测试,其他操作系统很可能无法运行。2)、若某些电子发票存在限制复制内容,那么此程序无法读取其内容。

使用的程序语言

1)、python

2)、使用到的主要第三方包:

Excel读写:xlrd、xlutils、

PDF文件读取及信息提取:pdfplumber、re、matplotlib(调试时可视化用)

OFD文件读取及信息提取:zipfile、xml.dom.minidom

主要思路

1)、PDF发票提取

①、使用pdfplumber读取pdf文件中的txt,使用re匹配关键字,提取绝大部分字段的信息(各pdf发票格式差异较大,需要使用多种匹配方式去提取)

②、使用pdfplumber读取pdf中的lines、edges、curves等,算出pdf中的表格定位点(各pdf差异较大,需要去尝试多种方案),再通过定位点,在pdf中提取特定区域的文字(比如,备注,货物清单)

2)、OFD发票提取

①、OFD是压缩文件,使用zipfile解压

②、使用xml.dom.minidom读取解压后的Doc_0/Attachs/original_invoice.xml等xml文件,提取信息

3)、Excel写入

①、使用xlrd读取模板Excel文件,使用xlutils复制格式等

其他说明

1)、OFD发票测试样本太少,可能存在解析不了的

2)、部分字段可能存在提取不正确或缺失

3)、遇到提取失败或者部分字段提取失败的,可以联系我,并提交对应文件给我,我可以调试下。

4)、使用说明,请下载后看 使用说明.txt。

查看全部

更新时间:2021-01-16
厂商名称:
包名:
MD5:
权限须知点击查看
权限管理须知关闭
玩家评论 QQ群号:203046401
我要跟贴
    取消
    猜你喜欢
      同类推荐
      热门精品
      显示全部+最新应用