使用Python和PaddleOCR实现图文识别的代码和步骤

魁首哥

作者

一、引言

在当今数字化时代，图文识别技术的应用越来越广泛，如文档数字化、信息提取等。paddleocr 是百度开源的一款强大的 ocr 工具包，它集成了多种先进的算法和模型，能够高效准确地进行图文识别。本文将详细介绍如何使用 paddleocr 和 python 实现图文识别，并给出具体的代码和步骤。

二、环境准备

2.1 安装 python

确保你的系统已经安装了 python 3.7 及以上版本。你可以从python 官方网站下载并安装。安装完成后，在命令行中输入以下命令验证安装是否成功：

python --version

2.2 安装 paddlepaddle

根据你的硬件环境（cpu 或 gpu）和系统类型，选择合适的安装方式。以下是 cpu 版本的安装命令：

pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

如果你使用 gpu，需要安装对应 cuda 版本的paddlepaddle-gpu，具体安装命令可参考paddlepaddle 官方安装文档。

2.3安装 paddleocr

pip install "paddleocr>=2.0.1"

三、简单图文识别示例

3.1 代码实现

以下是一个简单的 python 脚本，用于对单张图片进行文字识别：

from paddleocr import paddleocr
 
# 创建 paddleocr 实例，使用默认配置
ocr = paddleocr(use_angle_cls=true, lang="ch")
 
# 要识别的图片路径
img_path = 'image.jpg'
 
# 进行文字识别
result = ocr.ocr(img_path, cls=true)
 
# 处理识别结果
for line in result[0]:
    print(line[1][0])

3.2 代码解释

导入paddleocr类：从paddleocr模块中导入paddleocr类。
创建paddleocr实例：使用paddleocr类创建一个 ocr 实例，use_angle_cls=true表示开启方向分类功能，lang="ch"表示使用中文识别模型。
指定图片路径：将img_path替换为你要识别的图片的实际路径。
进行文字识别：调用ocr方法对指定图片进行文字识别，返回识别结果。

处理识别结果：遍历识别结果，打印每行文字。

四、批量图文识别示例

4.1 代码实现

如果你需要对多张图片进行文字识别，可以使用以下代码：

from paddleocr import paddleocr
import os
 
# 创建 paddleocr 实例
ocr = paddleocr(use_angle_cls=true, lang="ch")
 
# 图片文件夹路径
image_folder = 'path/to/your/image/folder'
 
# 获取文件夹中的所有图片文件
image_files = [os.path.join(image_folder, f) for f in os.listdir(image_folder) if f.endswith(('.png', '.jpg', '.jpeg'))]
 
# 遍历图片文件进行文字识别
for img_path in image_files:
    print(f"正在识别图片: {img_path}")
    result = ocr.ocr(img_path, cls=true)
    print("识别结果:")
    for line in result[0]:
        print(line[1][0])
    print("-" * 50)

4.2 代码解释

导入必要的库：除了paddleocr类，还导入了os模块用于处理文件和文件夹。
指定图片文件夹路径：将image_folder替换为包含要识别图片的文件夹的实际路径。
获取所有图片文件：使用os.listdir函数获取文件夹中的所有文件，并筛选出以.png、.jpg或.jpeg结尾的图片文件。
遍历图片文件进行识别：对每个图片文件调用ocr方法进行文字识别，并打印识别结果。

五、自定义配置

5.1 代码实现

paddleocr 提供了丰富的配置选项，你可以根据需要进行自定义配置。例如，如果你想使用英文识别模型，可以将lang参数设置为"en"：

from paddleocr import paddleocr
 
# 创建 paddleocr 实例，使用英文识别模型
ocr = paddleocr(use_angle_cls=true, lang="en")
 
# 要识别的图片路径
img_path = 'path/to/your/image.jpg'
 
# 进行文字识别
result = ocr.ocr(img_path, cls=true)
 
# 处理识别结果
for line in result[0]:
    print(line[1][0])