Com instal·lar Tesseract a Windows

Com Instal Lar Tesseract A Windows



Tesseract és una eina de reconeixement de text de codi obert disponible gratuïtament també coneguda com OCR (reconeixement òptic de caràcters). S'utilitza principalment per identificar i extreure text d'imatges. Llegirà el text de les dades d'imatge i escriurà la sortida en un fitxer .txt nou. Tesseract també treballa amb Python, ja que s'utilitza principalment per reconèixer l'escriptura a mà a partir d'imatges. S'utilitza el model LSTR (Memòria a llarg termini). Tesseract treballa sota la llicència Apache 2.0.

En aquest bloc explicarem el mètode per instal·lar Tesseract a Windows.







Així doncs, comencem!



Com instal·lar Tesseract a Windows?

El Tesseract és una eina de línia d'ordres que s'utilitza per a l'extracció de text d'imatges. Per instal·lar Tesseract a Windows, heu de seguir les instruccions que es donen a continuació.



Pas 1: descarregueu l'instal·lador de Tesseract





En primer lloc, aneu a l'enllaç que es proporciona a continuació i descarregueu l'instal·lador de Tesseract segons les especificacions del vostre sistema:

https: // github.com / UB-Mannheim / tesseract / setmana



Pas 2: executeu Tesseract Installer

Visiteu el ' Descàrregues ” directori on es baixa l'instal·lador de Tesseract. Per instal·lar Tesseract a Windows, executeu l'instal·lador de Tesseract fent-hi doble clic:

Pas 3: seleccioneu l'idioma

L'instal·lador de Tesseract admet molts idiomes. Per interactuar amb la interfície d'usuari de l'instal·lador, trieu “ Anglès ” com a idioma i feu clic a “ D'acord ”:

Pas 4: instal·leu Tesseract

En fer-ho, apareixerà l'assistent de configuració de Tesseract OCR a la pantalla. Per començar la instal·lació de Tesseract, premeu el botó “ Pròxim botó ”:

Per acceptar el ' Acord de llicència ”, feu clic a “ Estic dacord botó ”:

Seleccioneu el ' Instal · lar per a qualsevol persona que utilitza aquest equip ” i premeu el botó “ Pròxim botó ”:

Si voleu afegir dades d'script o incloure un altre idioma, marqueu les caselles de selecció corresponents i premeu el botó ' Pròxim botó ”. Com que no volem cap script o llenguatge de dades addicionals, continuarem amb les opcions seleccionades per defecte:

Trieu la ubicació d'instal·lació i feu clic a ' Pròxim botó ”:

Si no voleu crear una drecera al menú Inici, marqueu ' No facis accesos directes ” i premeu la casella “ Instal·lar botó ”:

Després d'això, s'iniciarà la instal·lació de Tesseract. Espereu fins que finalitzi la instal·lació i premeu el botó “ Pròxim botó ”:

Finalment, feu clic a ' Acabar botó ”:

Pas 5: establiu la variable d'entorn

Després de la instal·lació, heu d'establir la variable d'entorn del Tesseract. Per fer-ho, primer visiteu el directori on heu instal·lat el Tesseract i copieu el camí des del ' adreça 'barra:

Fes una cerca per ' Variables del mediambient ' a la ' Posada en marxa menú ' i obriu ' Editeu les variables d'entorn del sistema ”:

Dins de la configuració, navegueu fins a ' Avançat ” menú de configuració i feu clic a “ Variables del mediambient botó ”:

Escull el ' Camí ” Variable de la “ Variables del sistema ”, i premeu el botó “ Edita botó ”:

Després d'això ' Edita la variable d'entorn ” apareixerà a la pantalla. Premeu el botó ' Nou ” i enganxeu aquí la ruta del directori d'instal·lació de Tesseract copiada. Finalment, feu clic a ' D'acord botó ”:

Pas 6: verifiqueu la instal·lació de Tesseract

Per verificar la instal·lació de Tesseract, obriu l'indicador d'ordres de Windows cercant ' Símbol del sistema ' a la ' Posada en marxa 'menú:

Consulteu la versió de Tesseract mitjançant l'ordre proporcionada:

> tesseract --versió

La sortida a continuació indica que hem instal·lat correctament la versió de Tesseract ' v5.2.0 ” a Windows:

Anem endavant per comprovar com utilitzar Tesseract a Windows.

Com utilitzar Tesseract a Windows?

El Tesseract s'utilitza per llegir l'escriptura a mà o extreure text d'imatges. Vegem com funciona:

Pas 1: seleccioneu la imatge

Seleccioneu la imatge de la qual voleu extreure el text. Com hem escollit ' 1.png ”:

Pas 2: extreu text de la imatge

Un cop obert el CMD. Utilitzeu el ' cd ” comanda per canviar el directori on s'emmagatzema la imatge. A continuació, executeu el ' tesseract ” i definiu el nom del fitxer d'imatge tal com hem especificat “ 1.png ”. El ' Text ” El paràmetre mostra el nom del fitxer de sortida:

> cd C:\Usuaris\anuma\OneDrive\Pictures\Imatges desades
> tesseract 1 .png 'Text'

Pas 3: verifiqueu l'extracció de text

Per verificar l'extracció de text, navegueu pel directori on hi ha el fitxer d'imatge. Podeu veure que el fitxer de sortida ' Text ” també es guarda aquí. Feu doble clic al fitxer de sortida per comprovar si el tesseract ha extret el text de la imatge o no:

Podeu veure que hem extret el text amb èxit mitjançant l'eina de línia d'ordres Tesseract:

Hem demostrat la tècnica per instal·lar i utilitzar Tesseract a Windows.

Conclusió

Per instal·lar Tesseract a Windows, cal descarregar l'instal·lador de Tesseract. Per a això, seguiu la primera sessió d'aquest article. A continuació, configureu la variable d'entorn Path per utilitzar i accedir a Tesseract des del sistema d'ordres de Windows. A continuació, seleccioneu el fitxer d'imatge i utilitzeu el botó ' Tesseract ” comanda per reconèixer i extreure el text de la imatge. Aquí, heu après a instal·lar i a utilitzar el ' Tesseract ” a les finestres.