Com crear un rastrejador per obtenir dades del cub S3?

Com Crear Un Rastrejador Per Obtenir Dades Del Cub S3



AWS Glue s'utilitza per descobrir dades, integrar dades, rastrejar dades i crear un catàleg de dades al núvol. L'usuari pot crear un rastrejador des d'AWS Glue que rastrejarà les dades de la font donada i després les emmagatzemarà al catàleg de dades per obtenir informació. L'usuari només ha d'executar el rastrejador i tota la resta serà realitzada pel rastrejador en pocs moments.

En aquesta guia s'explicarà com crear rastrejadors per obtenir dades del bucket S3.

Com crear un rastrejador per obtenir dades del cub S3?

Per crear un rastrejador a AWS, visiteu el ' AWS Glue ” servei del tauler d'Amazon:









Feu clic a ' Bases de dades ” de la secció Catàleg de dades per crear una base de dades:







Feu clic a ' Afegeix una base de dades ” per iniciar la configuració:



Introduïu el nom de la base de dades i deixeu-ho tot com a opcional abans de fer clic a ' Crea una base de dades botó ”:

La base de dades s'ha creat correctament:

Després d'això, simplement dirigiu-vos al ' Crawlers ” pàgina fent-hi clic des del panell esquerre:

Feu clic a ' Crea un rastrejador botó ”:

Escriviu el nom del rastrejador i feu clic a ' Pròxim botó ”:

Feu clic a ' Afegeix una font de dades ” per seleccionar la font de les dades:

Per comprovar el camí on s'emmagatzemen les dades, visiteu el servei S3:

Dirigiu-vos al cub S3 on es pengen les dades. L'usuari pot crear una galleda i carregar dades del tauler d'AWS S3:

Feu clic a ' Exploreu S3 ” per triar el camí de les dades:

Seleccioneu la carpeta que conté les dades i feu clic a ' Tria botó ”:

S'ha seleccionat la ruta S3, ara feu clic a ' Afegiu una font de dades S3 botó ”:

Un cop s'ha afegit la font de dades, només cal que feu clic a ' Pròxim botó ”:

Afegiu el rol IAM i feu clic a ' Pròxim botó ”:

Introduïu la base de dades de destinació creada anteriorment i, a continuació, escriviu el nom de la taula:

Seleccioneu la programació a demanda per al rastrejador i feu clic a ' Pròxim botó ”:

Reviseu el rastrejador i feu clic a ' Crea un rastrejador botó ”:

El rastrejador s'ha creat correctament, feu clic a ' Correr botó ” després de seleccionar-lo:

El rastrejador trigarà uns moments a executar-se i recuperarà dades i crearà una taula per emmagatzemar-les:

Dirigiu-vos a la ' Taules ” pàgina del tauler de control de Glue:

Seleccioneu la taula fent clic al seu nom:

S'han mostrat els detalls del conte que contenen les metadades de les dades obtingudes:

Desplaceu-vos cap avall per la pàgina i seleccioneu la secció per veure la taula que conté les dades:

Es tracta de crear un rastrejador per obtenir dades del cub S3.

Conclusió

Per crear un rastrejador per obtenir dades del bucket S3, creeu una base de dades a AWS Glue en la qual s'emmagatzemaran les dades rastrejades. Configureu el rastrejador des del tauler de control de Glue proporcionant la font de dades (cub S3) i la base de dades de destinació. Executeu el rastrejador i obteniu les dades del bucket S3 a la taula de la base de dades, tal com s'ha explicat a fons aquesta guia.