Com utilitzar els tokenitzadors a Hugging Face Transformers?

El processament del llenguatge natural (PNL) opera amb la forma bruta de les dades. Els models d'aprenentatge automàtic s'entrenen amb dades complexes, però no poden entendre les dades en brut. Aquesta forma bruta de dades ha de tenir algun valor numèric associat. Aquest valor determina el valor i la importància de la paraula a les dades i sobre aquesta base es fan els càlculs.

Aquest article ofereix una guia pas a pas sobre l'ús de Tokenizers a Hugging Face Transformers.

Què és un Tokenizer?

Tokenizer és un concepte important de la PNL, i el seu objectiu principal és traduir el text en brut a números. Hi ha diferents tècniques i metodologies presents per a aquest propòsit. No obstant això, val la pena assenyalar que cada tècnica té un propòsit específic.
Com utilitzar els tokenitzadors a Hugging Face Transformers?

Com utilitzar els tokenitzadors a Hugging Face Transformers?

La biblioteca del tokenizer s'ha d'instal·lar primer abans d'utilitzar-la i d'importar-ne les funcions. Després d'això, entreneu un model amb AutoTokenizer i, a continuació, proporcioneu l'entrada per dur a terme la tokenització.

Hugging Face introdueix tres categories principals de tokenització que es mostren a continuació:

Tokenitzador basat en paraules
Tokenitzador basat en caràcters
Tokenitzador basat en subparaules

Aquí teniu una guia pas a pas per utilitzar Tokenizers a Transformers:

Pas 1: instal·leu els transformadors
Per instal·lar transformadors, utilitzeu l'ordre pip a l'ordre següent:

! pip instal·lar transformadors

Pas 2: importa les classes
De transformadors, importació canonada , i AutoModelForSequenceClassification biblioteca per realitzar la classificació:

de la canalització d'importació de transformadors, AutoModelForSequenceClassification

Pas 3: importa el model
El ' AutoModelForSequenceClassification ” és un mètode que pertany a Auto-Class per a la tokenització. El des de_preentrenat() s'utilitza per retornar la classe de model correcta en funció del tipus de model.

Aquí hem proporcionat el nom del model a la ' nom del model ” variable:

nom del model = 'distilbert-base-uncased-finetuned-sst-2-anglés'
model pre_formació =AutoModelForSequenceClassification.from_pretrained ( nom del model )

Pas 4: importeu AutoTokenizer
Proporcioneu l'ordre següent per generar fitxes passant el ' nom del model ” com l'argument:

des de transformadors importar AutoTokenizer

el testimoni generat =AutoTokenizer.from_pretrained ( nom del model )

Pas 5: genera un testimoni
Ara, generarem fitxes en una frase “M'encanta el bon menjar” utilitzant el ' el testimoni generat ” variable:

paraules =generatetoken ( 'M'encanta el bon menjar' )
imprimir ( paraules )

La sortida es dóna de la següent manera:

El codi de l'anterior Google Co es dóna aquí.

Conclusió

Per utilitzar Tokenizers a Hugging Face, instal·leu la biblioteca mitjançant l'ordre pip, entreneu un model amb AutoTokenizer i, a continuació, proporcioneu l'entrada per dur a terme la tokenització. Mitjançant la tokenització, assigneu pesos a les paraules en funció de les quals s'ordenen per retenir el significat de la frase. Aquesta puntuació també determina el seu valor per a l'anàlisi. Aquest article és una guia detallada sobre com utilitzar Tokenizers a Hugging Face Transformers.

Com utilitzar els tokenitzadors a Hugging Face Transformers?

Què és un Tokenizer?

Com utilitzar els tokenitzadors a Hugging Face Transformers?

Conclusió

Categoria

Entrades Populars

Com convertir int en double a Java

Com crear art d'IA a Discord

Com validar una data en JavaScript

Inserció de variables a la cadena mitjançant JavaScript

Com passar dispositius USB a màquines virtuals (VM) Proxmox VE 8

Obteniu un nombre de columnes a R DataFrame

Ús del filtratge ActiveX a Internet Explorer 9: Winhelponline

Quina diferència hi ha entre la importació i la càrrega de Docker?

Com muntar una unitat USB a Rocky Linux 9

Com implementar HAProxy en un contenidor Docker

Git Copy File Preservant History

Què és el tipus de matriu a TypeScript i com es pot utilitzar?

Combina dues taules en SQL

Com bloquejar o permetre les finestres emergents a Chrome a Android

Matriu multidimensional en PHP: exemples

Executeu aplicacions en mode de compatibilitat a Windows 10

iTunes no s'obrirà a Windows 10? Aquí teniu 5 solucions per arreglar! 2022

Com funciona AWS Shield?

Com eliminar el triangle groc a la connexió de xarxa a Windows 10

Com aplicar el gruix de la decoració del text amb punts d'interrupció i consultes multimèdia