Com analitzar dades de text a R: conceptes bàsics de la manipulació de cadenes

Com Analitzar Dades De Text A R Conceptes Basics De La Manipulacio De Cadenes



Les cadenes són el segon tipus de dades més popular en la programació R, i la manipulació de cadenes és una tasca crucial en R. L'operació de manipulació de cadenes en R consta de múltiples funcions per utilitzar i alterar les dades de text, inclosa l'alteració i l'anàlisi de les cadenes. En aquest article, ens endinsarem en algunes de les funcions que ens ajuden en la manipulació de cordes. Aquestes funcions estan integrades a R i s'utilitzen amb diversos propòsits per realitzar les tasques de cadena.

Exemple 1: obteniu la posició del patró de la cadena utilitzant la funció Grep() a R

Per extreure la posició del patró especificat de la cadena, s'utilitza la funció grep() de R.

grep('i+', c('arreglar', 'dividir', 'blat de moro n', 'pintar'), perl=TRUE, valor=FALSE)

Aquí, utilitzem la funció grep() on el patró '+i' s'especifica com a argument que s'ha de fer coincidir dins del vector de cadenes. Establem els vectors de caràcters que contenen quatre cadenes. Després d'això, establim l'argument 'perl' amb el valor TRUE que indica que R utilitza una biblioteca d'expressions regulars compatible amb Perl, i el paràmetre 'valor' s'especifica amb el valor 'FALSE' que s'utilitza per recuperar els índexs dels elements. en el vector que coincideix amb el patró.







La posició del patró '+i' de cada cadena de caràcters vectorials es mostra a la sortida següent:





Exemple 2: coincideix amb el patró mitjançant la funció Gregexpr() a R

A continuació, recuperem la posició de l'índex juntament amb la longitud de la cadena particular a R mitjançant la funció gregexpr().





char_vec <- c('PROGRAMMINGLANGUAGE','RSCRIPT')
gregexpr('GRAMM', char_vec, useBytes = TRUE)

Aquí, establim la variable 'char_vect' on les cadenes es proporcionen amb diferents caràcters. Després d'això, definim la funció gregexpr() que fa que el patró de cadena 'GRAMM' coincideixi amb les cadenes que s'emmagatzemen al 'char_vec'. A continuació, establim el paràmetre useBytes amb el valor 'TRUE'. Aquest paràmetre indica que la concordança s'ha d'aconseguir byte per byte en lloc de caràcter per caràcter.

La sortida següent que es recupera de la funció gregexpr() representa els índexs i la longitud de les dues cadenes vectorials:



Exemple 3: Compteu el total de caràcters de la cadena utilitzant la funció Nchar() a R

El mètode nchar() que implementem a continuació també ens permet determinar quants caràcters hi ha a la cadena:

Res <- nchar('Compta cada caràcter')
imprimir (Res)

Aquí, anomenem el mètode nchar() que s'estableix dins de la variable 'Res'. El mètode nchar() es proporciona amb la cadena llarga de caràcters que es compta amb el mètode nchar() i proporciona el nombre de caràcters comptadors de la cadena especificada. A continuació, passem la variable 'Res' al mètode print() per veure els resultats del mètode nchar().

El resultat es rep a la sortida següent que mostra que la cadena especificada conté 20 caràcters:

Exemple 4: extreu la subcadena de la cadena utilitzant la funció Substring() a R

Utilitzem el mètode substring() amb els arguments 'start' i 'stop' per extreure la subcadena específica de la cadena.

str <- subcadena('MATÍ', 2, 4)
imprimir(str)

Aquí, tenim una variable 'str' ​​on es crida el mètode substring(). El mètode substring() pren la cadena 'MATÍ' com a primer argument i el valor de '2' com a segon argument que indica que s'ha d'extreure el segon caràcter de la cadena, i el valor de l'argument '4' indica que el quart caràcter s'ha d'extreure. El mètode substring() extreu els caràcters de la cadena entre la posició especificada.

La sortida següent mostra la subcadena extreta que es troba entre la segona i la quarta posició de la cadena:

Exemple 5: concatenar la cadena utilitzant la funció Paste() a R

La funció paste() a R també s'utilitza per a la manipulació de cadenes que concatena les cadenes especificades separant els delimitadors.

msg1 <- 'Contingut'
msg2 <- 'Escrivint'

enganxa (msg1, msg2)

Aquí, especifiquem les cadenes a les variables 'msg1' i 'msg2', respectivament. A continuació, utilitzem el mètode paste() de R per concatenar la cadena proporcionada en una única cadena. El mètode paste() pren la variable cadenes com a argument i retorna la cadena única amb l'espai per defecte entre les cadenes.

Quan s'executa el mètode paste(), la sortida representa la cadena única amb l'espai.

Exemple 6: modifiqueu la cadena utilitzant la funció Substring() a R

A més, també podem actualitzar la cadena afegint la subcadena o qualsevol caràcter a la cadena mitjançant la funció substring() utilitzant el següent script:

str1 <- 'Herois'
subcadena(str1, 5, 6) <- 'ic'

cat('    Cadena modificada:', str1)

Establem la cadena 'Heroes' dins de la variable 'str1'. A continuació, implementem el mètode substring() on s'especifica 'str1' juntament amb els valors d'índex 'start' i 'stop' de la subcadena. El mètode substring() s'assigna amb la subcadena “iz” que es col·loca a la posició especificada dins de la funció per a la cadena donada. Després d'això, utilitzem la funció cat() de R que representa el valor de cadena actualitzat.

La sortida que mostra la cadena s'actualitza amb la nova utilitzant el mètode de subcadena ():

Exemple 7: Formateu la cadena utilitzant la funció Format() a R

Tanmateix, l'operació de manipulació de la cadena a R també inclou el format de la cadena en conseqüència. Per a això, utilitzem la funció format() on es pot alinear la cadena i establir l'amplada de la cadena específica.

placement1 <- format('Programes', amplada = 10, justificar = 'l')
placement2 <- format('Programes', amplada = 10, justificar = 'r')
placement3 <- format('Programes', amplada = 10, justificar = 'c')

imprimir (ubicació 1)
imprimir (ubicació 2)
imprimir (ubicació 3)

Aquí, establim la variable 'placement1' que es proporciona amb el mètode format(). Passem la cadena 'programes' a formatar al mètode format(). S'estableix l'amplada i l'alineació de la cadena s'estableix a l'esquerra mitjançant l'argument 'justificar'. De la mateixa manera, creem dues variables més, 'placement2' i 'placement2', i apliquem el mètode format() per formatar la cadena proporcionada en conseqüència.

La sortida mostra tres estils de format per a la mateixa cadena a la imatge següent, incloses les alineacions esquerra, dreta i central:

Exemple 8: transforma la cadena en minúscules i majúscules a R

A més, també podem transformar la cadena en minúscules i majúscules utilitzant les funcions tolower() i toupper() de la següent manera:

s1 <- 'BON ALIMENT BONA VIDA'
resultat1 <- inferior(s1)

imprimir (resultat 1)

s2 <- 'El llenguatge de programació r a '
resultat2 <- topper(s2)

imprimir (resultat2)

Aquí, proporcionem la cadena que conté els caràcters majúscules i minúscules. Després d'això, la cadena es manté a la variable 's1'. A continuació, cridem al mètode tolower() i passem la cadena 's1' dins d'ell per transformar tots els caràcters dins de la cadena en minúscules. A continuació, imprimim els resultats del mètode tolower() que s'emmagatzema a la variable 'resultat1'. A continuació, establim una altra cadena a la variable 's2' que conté tots els caràcters en minúscules. Apliquem el mètode toupper() a aquesta cadena 's2' per transformar la cadena existent en majúscules.

La sortida mostra les dues cadenes en el cas especificat a la imatge següent:

Conclusió

Vam aprendre les diferents maneres de gestionar i analitzar les cadenes que es coneix com a manipulació de cadenes. Hem extret la posició del personatge de la cadena, hem concatenat les diferents cadenes i hem transformat la cadena en el cas especificat. A més, hem format la cadena, hem modificat la cadena i aquí es realitzen diverses altres operacions per manipular la cadena.