当前位置: 首页 > news >正文

云南建设厅网站安全员报名入口百度关键词搜索排名代发

云南建设厅网站安全员报名入口,百度关键词搜索排名代发,湖北省住房和城乡建设厅官方网站,广州seo网站靠谱解析PDF文件中的图片为文本 1 介绍 解析PDF文件中的图片,由两种思路,一种是自己读取PDF文件中的图片,然后用OCR解析,例如:使用PyMuPDF读取pdf文件,再用PaddleOCR或者Tesseract-OCR识别文字。另一种使用第…

解析PDF文件中的图片为文本

1 介绍

解析PDF文件中的图片,由两种思路,一种是自己读取PDF文件中的图片,然后用OCR解析,例如:使用PyMuPDF读取pdf文件,再用PaddleOCR或者Tesseract-OCR识别文字。另一种使用第三方框架,直接读取文字,例如:OCRmyPDF。

读取pdf的包PyMuPDF可以获取PDF中的文本、布局和图片等,并且内嵌了Tesseract-OCR需要独立安装Tesseract项目的tessdata,有兴趣可以试试。

# 开发文档
https://pymupdf.readthedocs.io/en/latest/# Github地址
https://github.com/pymupdf/PyMuPDF

此外,PDF转word用的pdf2docx就用到了PyMuPDF、生成word部分使用的是python-docx

# pdf2docx包
https://github.com/ArtifexSoftware/pdf2docx

OCRmyPDF是基于Tesseract-OCR框架使用Python实现的开源项目,主要解决扫描版的PDF文本识别,可以实现扫描版本的文件查询和解析。

# GitHub地址
https://github.com/ocrmypdf/OCRmyPDF# 开发文档
https://ocrmypdf.readthedocs.io/en/latest/index.html

2 安装环境

本文使用PyMuPDF和PaddleOCR识别pdf文件中的OCR。

# 安装PyMuPDF
pip install PyMuPDF -i https://pypi.tuna.tsinghua.edu.cn/simple# 安装paddlepaddle(我用的是cpu版本)
pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple# 安装paddleocr,注意版本问题
# 使用Python时,如果出现“NameError: name 'predict_system' is not defined”错误,请设置版本,我用的是2.7.2
pip install paddleocr -i https://mirror.baidu.com/pypi/simple# PaddleOCR模型下载地址
https://github.com/PaddlePaddle/PaddleOCR/blob/main/doc/doc_ch/models_list.md

3 源代码

import pymupdffrom paddleocr import PaddleOCRdef parse_img_2_text(img_path: str):# 'use_gpu=False'不用gpu,默认使用GPU# 'use_angle_cls=True'自动下载相关的包# 'lang="ch"'设置语言,支持中英文、英文、法语、德语、韩语、日语,参数依次为`ch`, `en`, `french`, `german`, `korean`, `japan`。# 离线使用时,设置模型的目录det_model_dir、rec_model_dir、cls_model_dir第一次联网模型会自动下载到model目录下ocr_model = PaddleOCR(use_gpu=False,use_angle_cls=True,det_model_dir="./model/ch_PP-OCRv4_det_infer/",rec_model_dir="./model/ch_PP-OCRv4_rec_infer/",cls_model_dir="./model/ch_ppocr_mobile_v2.0_cls_infer/")# 识别图片result = ocr_model.ocr(img_path, cls=True)for idx in range(len(result)):res = result[idx]# line是一个列表' [[文本框的位置],(文字,置信度)] 'for line in res:print(line)def parse_text(pdf_path: str):# 读取pdf文件doc = pymupdf.open(pdf_path)# 读取pdf中的页for page in doc:# 读取纯文本text = page.get_textpage().extractText()# 转化为UTF-8text = text.encode("gbk", errors="ignore").decode("utf-8", errors="ignore")print(text)def parse_pdf_2_img(pdf_path: str):# 读取pdf文件doc = pymupdf.open(pdf_path)# 读取pdf中的页for page in doc:# 读取图片,dpi可以调节图片的清晰度page_pix = page.get_pixmap(dpi=256)page_pix.save("E:/test/img/page-%i.png" % page.number)pdf_path_temp = "E:/test/test.pdf"
# parse_text(pdf_path_temp)parse_pdf_2_img(pdf_path_temp)
parse_img_2_text("E:/test/img/page-0.png")

执行截图
在这里插入图片描述

http://www.hyszgw.com/news/733.html

相关文章:

  • 常州今日头条新闻朝阳区seo搜索引擎优化怎么样
  • 做类似于彩票的网站犯法吗苏州百度推广公司地址
  • 网站建设费用计入哪个会计科目写软文用什么软件
  • 做模型的网站石家庄网络seo推广
  • 广州疫情流调桔子seo网
  • 苏州建网站需要什么网络营销事件
  • 建设网站 证件谷歌推广
  • 美工培训机构网站seo优化心得
  • 东莞网站建设(推荐乐云践新)十大经典营销案例
  • 可以做系统同步时间的网站百度搜索风云榜排名
  • 网站建设项目招标文件东莞seo外包公司
  • 3733手游网站在哪里做的湖南手机版建站系统开发
  • 企业网站源码推荐seo优化6个实用技巧
  • 怎么用手机黑网站网店推广营销方案
  • 银川网站建设阿里指数在哪里看
  • 网站百度收录是什么意思湖北网站seo设计
  • 网站建设可以入开发成本吗广州官方新闻
  • 设计素材网站酷p2024年8月爆发新的大流行病毒吗
  • 专业独立门户网站建设免费建站免费推广的网站
  • 帮别人做网站推广犯法吗利用搜索引擎营销成功的案例
  • 机械厂做网站到底有没有效果珠海百度关键字优化
  • 软件开发公司的成本有哪些百度ocpc如何优化
  • 广西政府网站政务新媒体建设调查怎样写营销策划方案
  • 做月季评分表的工程网站叫什么百度引流推广怎么收费
  • 网站建设公司业务培训福州seo优化
  • 肥西县重点工程建设管理局网站seo研究所
  • 多平台网站建设seo专员是什么职位
  • 自己做网站有何意义推广平台排名
  • 易旅游网站建设专业软文代写
  • 求推荐好的网站建设平台拉新app推广接单平台