Què és Amazon Redshift Data Warehouse System Architecture?

Que Es Amazon Redshift Data Warehouse System Architecture



L'allotjament i la gestió de dades en bases de dades i magatzems de dades sempre ha estat una tasca agitada i problemàtica. Requereix molts recursos i potència computacional per donar sentit a les dades. Amazon Web Services té una solució única per a aquest propòsit. Té un servei anomenat Amazon Redshift que gestiona totalment els magatzems de dades dels usuaris.

En aquest article s'explicarà amb detall Amazon Redshift juntament amb la seva arquitectura de magatzem de dades. Tots els components de l'arquitectura del sistema de magatzem de dades de Redshift s'explicaran amb detall.







Què és Amazon Redshift?

IT és un servei d'emmagatzematge de dades proporcionat per Amazon. Gestiona i analitza de manera eficient grans conjunts de dades per a l'anàlisi i la generació d'informes. Està construït sobre un model d'emmagatzematge columnar. Utilitza grups de nodes de càlcul controlats per un node líder per proporcionar un processament de dades d'alt rendiment.



Pren dades de diferents fonts i les agrupa per fer un magatzem de dades. Ofereix diferents funcions, com ara compartir dades i analítiques en temps real. Vegeu la imatge següent per entendre les característiques i capacitats d'Amazon Redshift:







Anem a la seva arquitectura de sistema de magatzem de dades ara.

Què és Amazon Redshift Data Warehouse System Architecture?

Aquesta arquitectura del sistema té tres parts principals. Aquestes parts són:



  • Emmagatzematge
  • Acceleració
  • Càlcul

Entenem els seus propòsits:

Emmagatzematge
La part d'emmagatzematge tracta dels serveis d'emmagatzematge que té Redshift. Té la seva pròpia opció de servei d'emmagatzematge gestionat, així com una opció de cub S3.

Acceleració
La part d'acceleració depèn del servei d'emmagatzematge en ús i de la potència computacional emprada. L'emmagatzematge gestionat per Redshift és més ràpid en comparació amb altres opcions d'emmagatzematge

Càlcul
La part de càlcul tracta purament de la potència de càlcul en ús. El càlcul es fa amb clústers i els clústers tenen nodes. Els nodes al seu torn tenen rodanxes.

Per entendre millor tots els elements i components d'aquesta arquitectura, mireu la imatge següent:

Entenem els seus components un per un.

Quins són els components arquitectònics d'Amazon Redshift?

Els següents són els components arquitectònics d'Amazon Redshift:

  • Clústers
  • Nodes
  • Talls de nodes
  • Emmagatzematge
  • Xarxa interna
  • Bases de dades

Parlem d'aquests un per un:

Clústers
Un clúster és la unitat fonamental i bàsica. Comprèn una sèrie de nodes. Si un clúster consta de diversos nodes de càlcul, un node líder addicional intervé per coordinar les activitats d'aquests nodes de càlcul i gestionar la comunicació externa.

Nodes

Els nodes dels clústers són de dos tipus. Aquests són:

  • Node líder
  • Node de càlcul

Anem a entendre aquests per un:

Node líder
Gestiona la comunicació amb els programes client i coordina les interaccions amb els nodes de càlcul. El node líder té un paper vital en l'execució de consultes complexes. Compila codi basat en el pla d'execució que es distribueix als nodes de càlcul i assigna parts de dades a cada node de càlcul individual.

Node de càlcul
Els nodes de càlcul són la columna vertebral de l'arquitectura d'Amazon Redshift. Realitzen tant l'emmagatzematge com el tractament de dades. Aquests tenen recursos dedicats, com ara memòria i CPU.

Talls de nodes
Els nodes de càlcul es divideixen a més en seccions. Aquests segments funcionen conjuntament per processar les càrregues de treball assignades i aconseguir el paral·lelisme per millorar el processament de consultes.

Emmagatzematge
L'emmagatzematge de dades dins d'Amazon Redshift està gestionat per 'Redshift Managed Storage (RMS)'. Té la capacitat d'escalar l'emmagatzematge de manera independent mitjançant l'emmagatzematge 'Amazon S3'. RMS utilitza emmagatzematge local d'alt rendiment basat en SSD com a memòria cau de nivell 1 que optimitza el rendiment.

Xarxa interna
Aquesta xarxa interna d'Amazon Redshift ajuda a una comunicació ràpida i segura entre els nodes líders i els nodes de càlcul. Aquesta xarxa no és directament accessible per a les aplicacions client.

Bases de dades
Els clústers tenen una o més bases de dades. Les dades d'aquestes bases de dades es troben en nodes de càlcul. Les aplicacions client es comuniquen amb el node líder. El node de càlcul gestiona l'execució de consultes a través dels nodes de càlcul.

Això és tot sobre Amazon Redshift i els seus elements arquitectònics. Aquest article ha explicat de manera exhaustiva els components de treball d'Amazon Redshift

Conclusió

L'arquitectura d'Amazon Redshift és el motiu pel qual es basen les seves capacitats. El node líder controla i gestiona els nodes de càlcul i els segments de nodes ajuden en el processament paral·lel. Redshift Managed Storage utilitza emmagatzematge basat en SSD per millorar el rendiment. Aquest article ha explicat l'arquitectura del sistema de magatzem de dades d'Amazon Redshift.