Com realitzar la neteja de dades amb Python i Pandas

Com Realitzar La Neteja De Dades Amb Python I Pandas



Aprendre a netejar les dades amb Python i Pandas és crucial per a qualsevol persona que treballi amb dades. La neteja de dades s'utilitza principalment per a l'anàlisi i el modelatge precisos eliminant els errors i les inconsistències. Aquesta guia explica el procés pas a pas pel qual ens mostra com gestionar les dades que falten i detectar o identificar els valors atípics. Amb Python i Pandas com a eines, podem transformar les dades desordenades en una informació neta i utilitzable. Aquesta guia també ens ajuda a millorar la qualitat de les nostres dades i preparar-les per a l'anàlisi i la presa de decisions.

Neteja de dades amb Python i Pandas

Les dades són com els elements bàsics de la presa de decisions actuals. Però imagineu-vos tenir un grup de blocs de diferents formes i mides d'aquesta col·lecció; és difícil construir qualsevol cosa que tingui sentit. Aquí és on la neteja de dades entra per ajudar.

Aquesta guia explora com netejar les dades mitjançant el marc de Python que és Pandas per a una millor presa de decisions. La neteja de dades també és essencial, tenint en compte que estem treballant amb una llista de registres de vendes per a una botiga. És possible que notem alguns números que falten, dates estranyes i elements repetits sense cap motiu a la llista. Si fem els càlculs o registres a partir d'aquesta informació, aquests problemes poden alterar els nostres càlculs i prediccions. La neteja de dades ajuda a solucionar aquests problemes, garantint que les nostres dades siguin precises i llestes per utilitzar-les.







La neteja de dades inclou gestionar les dades que falten i què fer quan falten algunes dades, eliminar els duplicats, desfer-se de les coses copiades, arreglar els tipus de dades, assegurar-se que tot estigui en el format adequat i tractar els valors atípics o manejar els números. que no encaixen. Aquests errors fan que les dades semblin iguals i estandarditzen com apareixen.



Per començar, primer assegureu-vos que tenim instal·lats Python i Pandas. Ho podem fer escrivint les ordres al terminal o al símbol d'ordres del nostre ordinador. Per implementar els codis que s'esmenten en aquesta guia, podem utilitzar l'IDE Python Pycharm que està instal·lat al nostre sistema o la plataforma Python en línia que és 'Google Colab' i instal·lar les ordres 'pip' per instal·lar les biblioteques importants.



Ara, importem Pandas i carreguem les nostres dades de mostra. Per a aquest exemple, utilitzem Google Colab per executar els codis. Per tant, primer importem Pandas introduint l'ordre següent:





! pip install pandas

importar pandes com pd

importar numpy com per exemple.

A continuació, carreguem el conjunt de dades que volem mostrar mitjançant el mètode pd.read() que pren la ruta del fitxer com a paràmetre d'entrada.

# Carregueu el conjunt de dades

dades = pd. llegir_csv ( '/content/sample_data/california_housing_test.csv' )

# Mostra les primeres files

imprimir ( dades. cap ( ) )



En el següent exemple, utilitzem les dades de vendes en una petita botiga. Per gestionar les dades que falten, de vegades falta la informació a les nostres dades. Anomenem aquestes parts que falten 'NaN' (que significa 'no és un número'). Per trobar aquests valors que falten a l'script de Python, primer carreguem el conjunt de dades tal com vam fer a l'exemple anterior. Aleshores, trobem els valors que falten al conjunt de dades mitjançant la funció 'missing_values ​​= data.isnull().sum()'. Aquesta funció troba tots els valors que falten al conjunt de dades. A continuació, els mostrem mitjançant la funció print ().

! pip install pandas
importar pandes com pd
importar numpy com per exemple.

# Carregueu el conjunt de dades
dades = pd. llegir_csv ( '/content/sample_data/california_housing_test.csv' )

# Mostra les primeres files
imprimir ( dades. cap ( ) )

# Comproveu els valors que falten
valors_falts = dades. és nul ( ) . suma ( )

# Mostra el recompte de valors que falten per columna
imprimir ( valors_falts )

Després de trobar les dades que falten a qualsevol fila que executi el codi que s'ha esmentat anteriorment, podem eliminar aquestes files ja que aquestes files no tenen gaires dades útils. Fins i tot podem endevinar aquests valors que falten i omplir els buits amb conjectures educades estimant les dades basades en el temps en funció de punts propers.

Ara, eliminem els duplicats que són còpies del mateix perquè poden confondre la nostra anàlisi. Per trobar els valors duplicats al conjunt de dades, utilitzem la funció 'duplicate_rows = data[data.duplicated()]'. Per eliminar aquests valors duplicats, anomenem la funció data.drop_duplicates(). Podem trobar-los i eliminar-los mitjançant el codi següent:

! pip install pandas
importar pandes com pd
importar numpy com per exemple.
# Carregueu el conjunt de dades
dades = pd. llegir_csv ( '/content/sample_data/california_housing_test.csv' )
# Mostra les primeres files
imprimir ( dades. cap ( ) )

# Comproveu si hi ha files duplicades
files_duplicades = dades [ dades. duplicat ( ) ]

# Elimina els duplicats
dades = dades. drop_duplicates ( )

# Mostra les primeres files després d'eliminar els duplicats
imprimir ( dades. cap ( ) )

Els tipus de dades decideixen quines dades es poden emmagatzemar per corregir els tipus de dades. És essencial tenir el tipus adequat per a cada tipus de dades. Per exemple, les dates haurien de tenir el tipus de dades de la data i l'hora, i els números haurien de tenir el tipus de dades com int, float, etc. Per comprovar els tipus de dades de les nostres dades, utilitzem la funció 'data.dtypes'. Aquesta funció es pot utilitzar de la següent manera:

! pip install pandas
importar pandes com pd
importar numpy com per exemple.
# Carregueu el conjunt de dades
dades = pd. llegir_csv ( '/content/sample_data/california_housing_test.csv' )
# Mostra les primeres files
imprimir ( dades. cap ( ) )
# Comproveu els tipus de dades de cada columna
tipus_dades = dades. tipus d

# Mostra els tipus de dades
imprimir ( tipus_dades )

Si trobem algun problema, podem canviar el tipus de dades mitjançant Pandas. Per exemple, podem convertir les dates en un format de data. L'atribut 'dtypes' d'un DataFrame proporciona informació sobre els tipus de dades de cada columna. Si trobem que el tipus de dades no coincideix, podem utilitzar la funció astype() de Pandas per convertir les columnes als tipus desitjats.

Després dels tipus de dades, de vegades ens trobem amb valors atípics que són valors molt diferents dels altres. Poden equivocar els nostres càlculs. Per fer front als valors atípics, definim una funció que utilitza la funció de puntuació z 'np.abs(stats.zscore(data))' que compara els valors que existeixen a les nostres dades amb el valor llindar. Qualsevol valor diferent de l'interval d'aquest llindar es considera atípic . Vegem com trobar i gestionar els valors atípics:

! pip install pandas
importar pandes com pd
importar numpy com per exemple.

# Carregueu el conjunt de dades
dades = pd. llegir_csv ( '/content/sample_data/california_housing_test.csv' )

# Mostra les primeres files
imprimir ( dades. cap ( ) )
des de scipy importar estadístiques

def detect_outliers ( dades ) :
z_scores = per exemple. abs ( estadístiques. zscore ( dades ) )
tornar per exemple. on ( z_scores > 3 )

# Detecteu i gestioneu els valors atípics a la columna 'Vendes'.
atípics = detect_outliers ( dades [ 'longitud' ] )
dades [ 'longitud' ] . lloc [ atípics ] = dades [ 'longitud' ] . mitjana ( )

# Detecteu i gestioneu els valors atípics a la columna 'Unitats venudes'.
atípics = detect_outliers ( dades [ 'latitud' ] )
dades [ 'latitud' ] . lloc [ atípics ] = dades [ 'latitud' ] . mitjana ( )

# Mostra les primeres files després de gestionar els valors atípics
imprimir ( dades. cap ( ) )

Utilitzem un mètode senzill per trobar i corregir els valors atípics del codi anterior. Implica substituir els valors extrems pel valor mitjà de les dades. Aquest codi utilitza el mètode de la puntuació Z per detectar els valors atípics a les columnes 'longitud' i 'latitud' del nostre conjunt de dades. Els valors atípics es substitueixen pels valors mitjans de les seves columnes respectives.

Perquè les dades semblin iguals, de vegades les dades poden semblar diferents encara que signifiquin el mateix. Per exemple, les dates es poden escriure en diversos formats. L'estandardització implica garantir un format i una representació de dades coherents. Això pot incloure donar format a les dates, convertir el text a minúscules o normalitzar els valors numèrics. Estandarditzem la columna 'Data' al nostre conjunt de dades i assegurem-nos que les nostres dades tinguin el mateix aspecte:

importar pandes com pd
importar numpy com per exemple. # Importa numpy

# Carregueu les dades
dades = pd. llegir_csv ( 'sales_data.csv' )

# Feu que la columna 'Data' sembli coherent
dades [ 'Data' ] = pd. to_datetime ( dades [ 'Data' ] )

# Mira com és ara
imprimir ( dades. cap ( ) )

En aquest exemple, estandarditzem el format de data del nostre conjunt de dades al format de data i hora de Python mitjançant la funció 'pd.to_datetime(data['Date'])'. En convertir la columna 'Data' al mateix format, facilitem el treball amb aquestes dades. La sortida mostra les primeres files del conjunt de dades amb la columna estandarditzada 'Data'.

Conclusió

En el nostre viatge per la neteja de dades amb Python i Pandas, vam aprendre a millorar les nostres dades per analitzar-les. Vam començar per entendre per què és tan important netejar les dades. Ens ajuda a prendre millors decisions. Hem explorat com tractar les dades que falten, eliminar els duplicats, corregir els tipus de dades, gestionar els valors atípics i fer que les nostres dades semblin iguals. Amb aquestes habilitats, estem més preparats per convertir dades desordenades en alguna cosa en què podem confiar i utilitzar-los per descobrir una informació important. La neteja de dades és un procés continu, com mantenir endreçada la nostra habitació, i fa que el nostre viatge d'anàlisi de dades sigui més reeixit.