Com utilitzar els conjunts de dades d'Hugging Face

Com Utilitzar Els Conjunts De Dades D Hugging Face



L'aplicabilitat i la usabilitat dels models d'aprenentatge automàtic es prova en dades. La fiabilitat de les proves depèn en gran mesura de la quantitat i la qualitat de les dades sobre les quals s'apliquen aquests models. És una tasca completa en si mateixa crear, obtenir i netejar un conjunt de dades suficientment gran per provar el vostre ' Processament del llenguatge natural (PNL) ” Model d'aprenentatge automàtic.

Hugging Face ofereix una solució perfecta per a això amb la seva biblioteca excepcionalment gran de conjunts de dades per triar i trobar el que s'adapti perfectament als vostres requisits. Aquí, us mostrarem com trobar el conjunt de dades ideal i preparar-lo per provar adequadament el vostre model.







Com utilitzar els conjunts de dades d'Hugging Face?

Us mostrarem com utilitzar els conjunts de dades Hugging Face utilitzant l'exemple de ' TinyStories ” Conjunt de dades de Hugging Face.



Exemple

El conjunt de dades TinyStories té més de 2 milions de files de dades a la divisió del tren i té més de 2 mil descàrregues a la plataforma Hugging Face. L'utilitzarem al codi de Google Colab que es mostra a continuació:



! pip instal·lar transformadors
! pip instal·lar conjunts de dades

des de conjunts de dades import load_dataset

conjunt de dades = load_dataset ( 'roneneldan/TinyStories' )

TinyStories_Story = 3
example_string = conjunt de dades [ 'tren' ] [ TinyStories_Story ] [ 'text' ]

imprimir ( exemple_cadena )


En aquest codi, tingueu en compte els passos indicats a continuació:





Pas 01 : El primer pas és el ' instal·lació ” de conjunts de dades de transformadors.

Pas 02 : A continuació, importeu el conjunt de dades requerit, ' TinyStories ” al teu projecte.



Pas 03 : A continuació, carregueu el conjunt de dades seleccionat amb el botó “ load_dataset() ” funció.

Pas 04 : Ara, especifiquem el número de la història que volem del conjunt de dades de TinyStories. Hem especificat el número 03 al nostre exemple de codi.

Pas 05 : Finalment, utilitzarem el mètode “print()” per mostrar la sortida.

Sortida



Nota: El codi i la sortida també es poden veure directament al nostre Google Colab .

Conclusió

Conjunts de dades Hugging Face ” fan que sigui increïblement eficient per als usuaris provar els seus models d'aprenentatge automàtic mentre importen directament grans conjunts de dades de la seva biblioteca en línia. Com a resultat, l'aplicació d'algoritmes de PNL s'ha tornat més fàcil i ràpida, ja que els programadors poden provar els seus projectes amb un conjunt de dades amb qualitat i quantitat.