Com concatenar els conjunts de dades a Hugging Face

Com Concatenar Els Conjunts De Dades A Hugging Face



La biblioteca de 'conjunts de dades' d'Hugging Face ofereix una manera còmoda de treballar i manipular els conjunts de dades per a tasques de processament del llenguatge natural. Una funció útil que ofereix la biblioteca és concatenate_datasets() que us permet concatenar diversos conjunts de dades en un únic conjunt de dades. A continuació es mostra una breu visió general de la funció concatenate_datasets() i de com utilitzar-la.

concatenar_datasets()

Descripció:

La biblioteca de 'conjunts de dades' d'Hugging Face proporciona la funció concatenate_datasets(). S'utilitza per concatenar diversos conjunts de dades, combinant-los en un únic conjunt de dades al llarg d'un eix especificat. Aquesta funció és especialment útil quan teniu diversos conjunts de dades que comparteixen la mateixa estructura i voleu combinar-los en un conjunt de dades unificat per a un posterior processament i anàlisi.







Sintaxi:



des de conjunts de dades importar concatenar_datasets

conjunt de dades_concatenats = concatenar_datasets ( conjunts de dades , eix = 0 , informació = Cap )

Paràmetres:

conjunts de dades (llista de conjunts de dades): una llista de conjunts de dades que voleu concatenar. Aquests conjunts de dades haurien de tenir característiques compatibles, la qual cosa significa que tenen el mateix esquema, noms de columnes i tipus de dades.



eix (int, opcional, predeterminat=0): l'eix al llarg del qual s'ha de realitzar la concatenació. Per a la majoria de conjunts de dades de NLP, s'utilitza el valor predeterminat de 0, el que significa que els conjunts de dades es concatenen verticalment. Si establiu l'eix=1, els conjunts de dades es concatenen horitzontalment, assumint que tenen columnes diferents com a característiques.





informació (datasets.DatasetInfo, opcional): la informació sobre el conjunt de dades concatenat. Si no es proporciona, la informació es dedueix del primer conjunt de dades de la llista.

Devolucions:

conjunt de dades_concatenats (Conjunt de dades): el conjunt de dades resultant després de concatenar tots els conjunts de dades d'entrada.



Exemple:

# Pas 1: instal·leu la biblioteca de conjunts de dades

# Podeu instal·lar-lo amb pip:

# !pip instal·la conjunts de dades

# Pas 2: importa les biblioteques necessàries

des de conjunts de dades importar load_dataset , concatenar_datasets

# Pas 3: Carregueu els conjunts de dades de revisió de pel·lícules d'IMDb

# Utilitzarem dos conjunts de dades IMDb, un per a ressenyes positives

#i un altre per a crítiques negatives.

# Carregueu 2500 ressenyes positives

dataset_pos = load_dataset ( 'imdb' , dividir = 'tren[:2500]' )

# Carregueu 2500 comentaris negatives

dataset_neg = load_dataset ( 'imdb' , dividir = 'tren[-2500:]' )

# Pas 4: concatenar els conjunts de dades

# Concatenem els dos conjunts de dades al llarg de l'eix=0, tal com han fet

el mateix esquema ( mateixes característiques ) .

conjunt de dades_concatenats = concatenar_datasets ( [ dataset_pos , dataset_neg ] )

# Pas 5: analitzeu el conjunt de dades concatenat

# Per simplificar, comptem el nombre de positius i negatius

# revisions al conjunt de dades concatenat.

num_ressenyes_positives = suma ( 1 per etiqueta en

conjunt de dades_concatenats [ 'etiqueta' ] si etiqueta == 1 )

num_ressenyes_negatives = suma ( 1 per etiqueta en

conjunt de dades_concatenats [ 'etiqueta' ] si etiqueta == 0 )

# Pas 6: Mostra els resultats

imprimir ( 'Nombre de crítiques positives:' , num_ressenyes_positives )

imprimir ( 'Nombre de ressenyes negatives:' , num_ressenyes_negatives )

# Pas 7: imprimiu alguns exemples de ressenyes del conjunt de dades concatenat

imprimir ( ' \n Alguns exemples de comentaris:' )

per i en rang ( 5 ) :

imprimir ( f 'Revisió {i + 1}: {concatenated_dataset['text'][i]}' )

Sortida:

La següent és l'explicació del programa de biblioteca 'conjunts de dades' de Hugging Face que concatena dos conjunts de dades de revisió de pel·lícules IMDb. Això explica el propòsit del programa, el seu ús i els passos implicats en el codi.

Proporcionem una explicació més detallada de cada pas del codi:

# Pas 1: importa les biblioteques necessàries

des de conjunts de dades importar load_dataset , concatenar_datasets

En aquest pas, importem les biblioteques necessàries per al programa. Necessitem la funció 'load_dataset' per carregar els conjunts de dades de revisió de pel·lícules d'IMDb i 'concatenate_datasets' per concatenar-los més tard.

# Pas 2: Carregueu els conjunts de dades de revisió de pel·lícules d'IMDb

# Carregueu 2500 ressenyes positives

dataset_pos = load_dataset ( 'imdb' , dividir = 'tren[:2500]' )

# Carregueu 2500 comentaris negatives

dataset_neg = load_dataset ( 'imdb' , dividir = 'tren[-2500:]' )

Aquí, utilitzem la funció 'load_dataset' per obtenir dos subconjunts del conjunt de dades IMDb. El 'dataset_pos' conté 2.500 ressenyes positives i el 'dataset_neg' conté 2.500 ressenyes negatives. Utilitzem el paràmetre dividit per especificar el rang d'exemples a carregar que ens permet seleccionar un subconjunt de tot el conjunt de dades.

# Pas 3: concatenar els conjunts de dades

conjunt de dades_concatenats = concatenar_datasets ( [ dataset_pos , dataset_neg ] )

En aquest pas, concatenem els dos subconjunts del conjunt de dades IMDb en un únic conjunt de dades anomenat 'concatenated_dataset'. Utilitzem la funció 'concatenar_conjunts de dades' i la passem amb una llista que conté els dos conjunts de dades a concatenar. Com que tots dos conjunts de dades tenen les mateixes característiques, els concatenem al llarg de l'eix = 0, cosa que significa que les files s'apilen una sobre l'altra.

# Pas 4: analitzeu el conjunt de dades concatenat

num_ressenyes_positives = suma ( 1 per etiqueta en

conjunt de dades_concatenats [ 'etiqueta' ] si etiqueta == 1 )

num_ressenyes_negatives = suma ( 1 per etiqueta en

conjunt de dades_concatenats [ 'etiqueta' ] si etiqueta == 0 )

Aquí, realitzem una anàlisi senzilla del conjunt de dades concatenat. Utilitzem la comprensió de la llista juntament amb la funció 'suma' per comptar el nombre de ressenyes positives i negatives. Iterem a través del label' del 'concatenated_dataset' i incrementeu els recomptes sempre que ens trobem amb una etiqueta positiva (1) o una etiqueta negativa (0).

# Pas 5: Mostra els resultats

imprimir ( 'Nombre de crítiques positives:' , num_ressenyes_positives )

imprimir ( 'Nombre de ressenyes negatives:' , num_ressenyes_negatives )

En aquest pas, imprimim els resultats de la nostra anàlisi: el nombre de ressenyes positives i negatives al conjunt de dades concatenat.

# Pas 6: imprimiu uns quants exemples de ressenyes

imprimir ( ' \n Alguns exemples de comentaris:' )

per i en rang ( 5 ) :

imprimir ( f 'Revisió {i + 1}: {concatenated_dataset['text'][i]}' )

Finalment, mostrem alguns exemples de ressenyes del conjunt de dades concatenats. Repassem els cinc primers exemples del conjunt de dades i imprimim el seu contingut de text mitjançant la columna 'text'.

Aquest codi mostra un exemple senzill d'utilitzar la biblioteca de 'conjunts de dades' de Hugging Face per carregar, concatenar i analitzar els conjunts de dades de revisió de pel·lícules d'IMDb. Destaca la capacitat de la biblioteca per racionalitzar el maneig del conjunt de dades de PNL i mostra el seu potencial per construir models i aplicacions de processament del llenguatge natural més sofisticats.

Conclusió

El programa Python que utilitza la biblioteca de 'conjunts de dades' d'Hugging Face demostra amb èxit la concatenació de dos conjunts de dades de revisió de pel·lícules IMDb. En carregar els subconjunts de ressenyes positives i negatives, el programa els combina en un únic conjunt de dades mitjançant la funció concatenate_datasets(). A continuació, fa una anàlisi senzilla comptant el nombre de ressenyes positives i negatives del conjunt de dades combinat.

La biblioteca de 'conjunts de dades' simplifica el procés de manipulació i manipulació dels conjunts de dades de PNL, convertint-lo en una eina potent per a investigadors, desenvolupadors i professionals de PNL. Amb la seva interfície fàcil d'utilitzar i àmplies funcionalitats, la biblioteca permet un preprocessament, exploració i transformació de dades sense esforç. El programa que es mostra en aquesta documentació serveix com a exemple pràctic de com es pot aprofitar la biblioteca per agilitzar les tasques de concatenació i anàlisi de dades.

En escenaris de la vida real, aquest programa pot servir com a base per a tasques de processament del llenguatge natural més complexes, com ara l'anàlisi de sentiments, la classificació de textos i el modelatge del llenguatge. Mitjançant la biblioteca de 'conjunts de dades', els investigadors i els desenvolupadors poden gestionar de manera eficient els conjunts de dades a gran escala, facilitar l'experimentació i accelerar el desenvolupament de models de PNL d'última generació. En general, la biblioteca de 'conjunts de dades' Hugging Face és un actiu essencial per a la recerca dels avenços en el processament i la comprensió del llenguatge natural.