Extraire du texte sur un fichier PDF avec Python

Parfois, en tant que magicien Python, il nous est arrivé à l'idée de manipuler un fichier PDF...Si tu veux apprendre cet enchantement, voici un guide sur comment extraire du texte d'un PDF avec Python.

Vous allez adorer

Extraction de texte d'un PDF avec Python

Savoir extraire du texte de parchemins PDF est une compétence cruciale, surtout quand on jongle avec des CV ! Pour réaliser cet exploit, tu vas devoir invoquer un sort spécial appelé PyPDF2.

La formule magique pour ce sort est simple, il te suffit d'utiliser la commande magique pip dans ton chaudron(Terminal) :

pip install pypdf2

Une fois le sort lancé, tu seras prêt à découvrir les secrets cachés dans n'importe quel parchemin PDF. Voici comment tu peux procéder en utilisant le langage de programmation Python :


# Importer le module PyPDF2 qui permet de manipuler des fichiers PDF
import PyPDF2

# Ouvrir le fichier PDF en mode lecture binaire
parchemin = open("CodingTeam.pdf", "rb")

# Créer un lecteur PDF à partir du fichier ouvert
lecteur = PyPDF2.PdfFileReader(parchemin)

# Sélectionner la première page du document PDF
page = lecteur.getPage(0)

# Extraire et imprimer le texte de la page sélectionnée
print(page.extractText())

Cliquez sur ce bouton ci-dessous afin que le bot vous explique une aperçu général de ce code

Ce code ouvre un fichier PDF nommé "CodingTeam.pdf" à l'aide de la bibliothèque PyPDF2 en mode lecture binaire (rb). Ensuite, il crée un objet lecteur de fichier PDF en utilisant la fonction PdfFileReader de PyPDF2. Après cela, il extrait la première page du PDF et affiche le texte extrait de cette page.

Et voilà ! Dans la ligne 4 de ce sortilège, la fonction getPage() t'aidera à cibler la page spécifique d'où tu veux extraire le texte que tu cherches.