Pandas Qcut

Pandas Qcut



'El 'Python' conté moltes biblioteques i, quan volem analitzar o manipular dades, fem servir aquestes biblioteques de 'Python', i els 'pandes' també n'és la biblioteca. La biblioteca 'pandas' s'utilitza en l'àmbit de les ciències de les dades, i també s'utilitza en activitats d'aprenentatge automàtic. El DataFrame 'pandas' ens ajuda a desar les dades. A 'pandas', quan volem agrupar dades, utilitzem el mètode 'qcut()'. El mètode 'qcut()' s'utilitza per convertir característiques contínues en categòriques. Podem afegir diferents tipus de paràmetres en aquest mètode 'qcut()' per obtenir diferents tipus de resultats. Aquest tutorial tracta sobre el mètode 'qcut()', i aquí explicarem amb tot detall el mètode 'qcut()'. En aquest tutorial us explicarem com fem el binning de dades amb l'ajuda de la funció 'qcut()' a 'pandas'.

Exemple #01

Aplicarem el mètode 'qcut()' en aquests codis, i farem aquests codis a l'aplicació 'Spyder'. Quan hem de treballar amb els 'pandes', només podem accedir a les seves funcions quan importem la biblioteca 'pandas' als nostres codis. Primer, posem 'importar' i després escrivim 'pandas com a pd'. Ara, hem d'aplicar el mètode 'qcut()', així que per a això, estem creant el DataFrame aquí. Construïm 'Random_df' que conté 'R_ID, R_name i R_age' com a columnes, i també a 'R_ID', col·loquem 'R_17, R_21, R_24, R_29, R_31, R_34, R_44, R_46, R_50, R_51, R_55, R_61, R_73 i R_81”. A continuació, afegim 'Theodore, Teddy, Noah, Leo, Ivy, Henry, Freddie, Evelyn, Ava, Willow, Theo, Oscar, Jacob i Harper' a la columna 'R_name'. Després d'això, inserim '21, 33, 12, 43, 22, 7, 21, 51, 72, 19, 10, 9, 37 i 40' a la columna 'R_age'. Ara, fem servir 'print(),' que conté 'Random_df' i ens ajudarà a representar el DataFrame 'Random_df'. Acabem de crear el DataFrame i encara no apliquem el mètode 'qcut()'.








La icona 'Executar' ens ajuda a executar els codis. Quan premem aquesta icona 'executar', llavors el resultat d'aquest codi es mostra al terminal de l'aplicació 'Spyder'. El DataFarme 'Random_df' es mostra com el resultat del codi que hem escrit en aquest exemple. Ara, aplicarem el mètode 'qcut()' i també mostrarem el seu resultat.




Estem agrupant les dades aquí. Estem agrupant la columna 'R_age' i col·locant el mètode 'pd.qcut()', que és el mètode de 'pandas' que ajuda a agrupar dades. En aquest mètode, inserim el nom del DataFrame i també el nom de la columna a la qual volem aplicar aquest mètode “qcut()”. També establim el valor de 'q' a '5' i s'utilitza per tallar les dades de la columna 'R_age' en cinc quantils iguals. Afegim el mètode 'qcut()' a 'print()', de manera que també mostrarà les dades de binning al terminal.




Aquí, es mostren les dades després de la binning i talla la 'R_age' en cinc quantils. També mostra les categories en què s'agrupen les dades de la columna 'R_age'. La sèrie categòrica representa els contenidors 'R_age'.






També podem ajustar l'etiqueta d'aquests contenidors. Afegim aquestes etiquetes de paperera perquè siguin fàcils d'interpretar. Afegim una columna 'R_age_qcut' a 'Random_df' en la qual afegim les etiquetes d'aquestes papereres. Tornem a utilitzar el mètode 'pd.qcut()' per etiquetar-los. Hi afegim les etiquetes que són 'poc, no tan petit, mediocre, alt i més alt'. A continuació, tornem a posar 'Random_df' a 'print()'.


Tots els contenidors estan etiquetats i presentats en aquest resultat. La columna 'R_age_qcut' es mostra en aquest DataFrame en la qual es mostren els contenidors etiquetats.



Exemple #02

Per crear el DataFrame, primer afegim 'qualificacions', que són '3, 6, 8, 7, 2, 5, 1, 9, 4, 7 i 8'. A continuació, afegim els noms dels estudiants a 'estudiants', que són 'Peter, Bromley, James, David, Allies, John, James, Samuel, William, Howard i Alexander'. Aleshores generem el 'Grades_df' on hem afegit el mètode 'pd.DataFrame()', i en aquest mètode, posem 'Std_name', que apareixerà com a nom de columna, i li assignem valors de 'estudiants'. A continuació, establim 'Students_grades' com el nom de columna del DataFrame i també assignem 'qualificacions' aquí, que hem creat més amunt. Després d'això, tenim el 'print()' en el qual afegim 'Grades_df' per imprimir.


El DataFrame que conté dues columnes es mostra al resultat d'aquest codi. Ara, aplicarem el mètode 'qcut()' a la columna 'Students_grades' per agrupar les dades dels valors d'aquesta columna.


Afegim una nova columna 'qualificació' aquí en la qual hem aplicat 'pd.qcut()' a la columna 'Notes_estudiants', i també, hem utilitzat '4' per al valor de la 'q', de manera que es retallarà les dades en quatre quantils iguals. Després d'això, especifiquem aquests quantils aquí col·locant valors a 'q', que són '0, .4, .8 i 1'. Aleshores, també mostrem això. Ara, estem etiquetant aquestes dades agrupades i les etiquetes que afegim aquí són 'D, C, A i B' i també s'emmagatzemen a la columna 'qualificació'.


Aquí, les dades després del binning es mostren aquí a la columna 'qualificació' i talla les dades de la columna 'Students_grades' en quatre quantils iguals.


El DataFrame que obtenim després d'aplicar el mètode 'qcut()' i especificar els quantils es mostra en aquest resultat.


Ara, després d'afegir les etiquetes a aquestes papereres, també es mostren en aquest resultat a la columna 'qualificació', i podeu veure que assigna les etiquetes segons els valors de la safata.

Exemple #03

També podem aplicar el mètode “qcut()” a les dades del fitxer CSV. Per a això, primer llegim les dades del fitxer CSV amb l'ajuda del mètode 'read_csv()'. Estem llegint les dades del fitxer 'office2.csv' i després les dades d'aquest fitxer es col·loquen a 'Office_df'. Aquest mètode convertirà les dades del fitxer 'office2' al DataFrame i les desarà a 'Office_df'. A continuació, també mostrem aquestes dades posant 'Office_df' a 'print()'. Després d'això, afegim una nova columna anomenada 'Unitats_qcut', a la qual apliquem la funció 'pd.qcut()' a la columna 'Unitats'.

A més, establim el valor de la variable 'q' a '5', que dividirà les dades en cinc quantils iguals. Les dades, després de tallar-les en 5 quantils iguals, s'emmagatzemen a la columna 'Units_qcut', i aquesta columna també s'afegeix a 'Office_df' i 'Office_df' que es representa aquí de nou amb 'print()'. Ara estem etiquetant aquestes dades agrupades, afegint les etiquetes al mètode 'qcut()', que són 'Unitat 1, Unitat 2, Unitat 3, Unitat 4 i Unitat 5' i també les emmagatzemem a la columna 'Etiquetes'. . També renderitzem aquest DataFrame en el qual s'afegeix la columna 'Etiquetes'.


Les dades que obtenim després de llegir el fitxer 'office2.csv' es mostren aquí en forma de DataFrame. A continuació, s'afegeix la columna 'Unitats_qcut', en la qual es mostren els valors agrupats de la columna 'Unitats'. Després d'això, també s'afegeix la columna 'Etiquetes', que assigna les etiquetes a aquests valors agrupats. Tot això es fa utilitzant el mètode 'qcut()' a 'pandas'.

Conclusió

Hem explicat detalladament el mètode 'qcut()' en aquest tutorial que ajuda a agrupar les dades en 'pandas'. Hem comentat que les dades s'agrupen segons el valor del quantil 'q' que hem afegit al mètode 'qcut()', i també hem ajustat les etiquetes a aquestes dades agrupades. Hem explorat el mètode 'qcut()' i hem aplicat aquest mètode a les columnes del DataFrame, i també hem aplicat aquest mètode 'qcut()' a les dades del fitxer CSV després de llegir els fitxers CSV. Hem presentat el resultat de tots els codis en aquest tutorial per explicar i mostrar clarament el resultat del mètode 'qcut()'.