Melde dich an für AWS Erstellen eines Data Warehouse mit Amazon Redshift Serverless Laden von Daten aus Amazon S3

Amazon Redshift Serverless

Wenn Sie Amazon Redshift Serverless zum ersten Mal verwenden, empfehlen wir Ihnen, die folgenden Abschnitte zu lesen, um Ihnen den Einstieg in die Verwendung von Amazon Redshift Serverless zu erleichtern. Der grundlegende Ablauf von Amazon Redshift Serverless besteht darin, Serverless-Ressourcen zu erstellen, eine Verbindung zu Amazon Redshift Serverless herzustellen, Beispieldaten zu laden und dann Abfragen für die Daten auszuführen. Bei Verwendung dieses Handbuchs haben Sie die Möglichkeit, Beispieldaten aus Amazon Redshift Serverless oder aus einem Amazon-S3-Bucket zu laden.

Melde dich an für AWS
Erstellen eines Data Warehouse mit Amazon Redshift Serverless
Laden von Daten aus Amazon S3

Wenn Sie noch kein AWS Konto haben, registrieren Sie sich für eines. Wenn Sie bereits ein Konto besitzen, können Sie diesen Schritt überspringen und Ihr vorhandenes Konto verwenden.

Öffnen Sie https://portal.aws.amazon.com/billing/signup.
Folgen Sie den Online-Anweisungen.

Wenn Sie sich für ein AWS Konto registrieren, wird ein Root-Benutzer für das AWS Konto erstellt. Der Root-Benutzer hat Zugriff auf alle AWS Dienste und Ressourcen im Konto. Als bewährte Methode zur Gewährleistung der Sicherheit sollten Sie den administrativen Zugriff einem administrativen Benutzer zuweisen und nur den Root-Benutzer verwenden, um Aufgaben auszuführen, die Root-Benutzerzugriff erfordern.

Erstellen eines Data Warehouse mit Amazon Redshift Serverless

Wenn Sie sich zum ersten Mal bei der Amazon-Redshift-Serverless-Konsole anmelden, werden Sie aufgefordert, auf die Informationen zu den ersten Schritten zuzugreifen, die Sie zum Erstellen und Verwalten von Serverless-Ressourcen verwenden können. In diesem Handbuch werden Sie Serverless-Ressourcen unter Verwendung der Standardeinstellungen von Amazon Redshift Serverless erstellen.

Wenn Sie Ihre Einrichtung genauer kontrollieren möchten, wählen Sie Customize settings (Einstellungen anpassen) aus.

So nehmen Sie die Konfiguration mit Standardeinstellungen vor:

Melden Sie sich bei der Amazon Redshift Redshift-Konsole an AWS Management Console und öffnen Sie sie unter https://console.aws.amazon.com/redshiftv2/.

Wählen Sie Testen Sie Amazon Redshift Serverless aus.
Wählen Sie unter Configuration (Konfiguration) die Option Use default settings (Standardeinstellungen verwenden) aus. Amazon Redshift Serverless erstellt einen Standard-Namespace mit einer zugeordneten Standardarbeitsgruppe. Wählen Sie Save configuration (Konfiguration speichern) aus.

Der folgende Screenshot zeigt die Standardeinstellungen für Amazon Redshift Serverless.
Nachdem die Einrichtung abgeschlossen ist, wählen Sie Continue (Weiter), um zu Serverless Dashboard zu wechseln. Wie Sie sehen, sind die Serverless-Arbeitsgruppe und der Serverless-Namespace verfügbar.

Laden von Beispieldaten

Nachdem Sie Ihr Data Warehouse mit Amazon Redshift Serverless eingerichtet haben, können Sie den Amazon Redshift Query Editor v2 verwenden, um Beispieldaten zu laden.

Um Query Editor v2 über die Amazon-Redshift-Serverless-Konsole zu starten, wählen Sie Daten abfragen aus. Wenn Sie den Abfrage-Editor v2 über die Amazon-Redshift-Serverless-Konsole aufrufen, wird er in einer neuen Browser-Registerkarte geöffnet. Der Abfrage-Editor v2 stellt eine Verbindung von Ihrem Clientcomputer mit der Amazon-Redshift-Serverless-Umgebung her.
Wenn Sie den Abfrage-Editor v2 zum ersten Mal starten, müssen Sie die AWS KMS Verschlüsselung konfigurieren, bevor Sie fortfahren können. Optional können Sie auch das URI für einen S3-Bucket angeben, um später Daten zu laden. Wählen Sie anschließend Konto konfigurieren aus.

Informationen zur Konfiguration von Query Editor v2, einschließlich der erforderlichen Berechtigungen, finden Sie unter Konfigurieren Ihres AWS-Konto im Amazon-Redshift-Verwaltungshandbuch.
Um eine Verbindung zu einer Arbeitsgruppe herzustellen, wählen Sie den Namen der Arbeitsgruppe im Strukturansichtsbereich aus.
Wenn Sie in Query Editor v2 zum ersten Mal eine Verbindung zu einer neuen Arbeitsgruppe herstellen, müssen Sie den Authentifizierungstyp auswählen, der für die Verbindung zur Arbeitsgruppe verwendet werden soll. Lassen Sie für diese Anleitung die Option Verbundbenutzer ausgewählt und wählen Sie Verbindung erstellen aus.

Sobald Sie verbunden sind, können Sie Beispieldaten aus Amazon Redshift Serverless oder aus einem Amazon-S3-Bucket laden.
Erweitern Sie unter der Standardarbeitsgruppe von Amazon Redshift Serverless die Datenbank sample_data_dev. Es gibt drei Beispielschemata, die drei Beispieldatensätzen entsprechen, die Sie in die Amazon-Redshift-Serverless-Datenbank laden können. Wählen Sie den Beispieldatensatz, den Sie laden möchten, und dann Beispiel-Notebooks öffnen aus.
Wenn Sie zum ersten Mal Daten laden, fordert Query Editor v2 Sie auf, eine Beispieldatenbank zu erstellen. Wählen Sie Erstellen.

Ausführen von Beispielabfragen

Nachdem Sie Amazon Redshift Serverless eingerichtet haben, können Sie einen Beispieldatensatz in Amazon Redshift Serverless verwenden. Amazon Redshift Serverless lädt den Beispieldatensatz, z. B. den Tickit-Datensatz, automatisch und Sie können die Daten sofort abfragen.

Sobald Amazon Redshift Serverless mit dem Laden der Beispieldaten fertig ist, werden alle Beispielabfragen in den Editor geladen. Sie können Alle ausführen auswählen, um alle Abfragen aus den Beispiel-Notebooks auszuführen.

Sie können die Ergebnisse auch als JSON- oder CSV-Datei exportieren oder die Ergebnisse in einem Diagramm anzeigen.

Sie können Daten auch aus einem Amazon-S3-Bucket laden. Weitere Informationen hierzu finden Sie unter Laden von Daten aus Amazon S3.

Laden von Daten aus Amazon S3

Nachdem Sie Ihr Data Warehouse erstellt haben, können Sie Daten aus Amazon S3 laden.

An diesem Punkt verfügen Sie über eine Datenbank namens dev. Als Nächstes legen Sie Tabellen in der Datenbank an, laden Daten in die Tabellen hoch und führen testweise eine Abfrage durch. Die Beispieldaten werden der Einfachheit halber in einem Amazon-S3-Bucket bereitgestellt.

Vor dem Laden von Daten aus Amazon S3 müssen Sie zunächst eine IAM-Rolle mit den erforderlichen Berechtigungen erstellen und Ihrem Serverless-Namespace anfügen. Wählen Sie dazu im Navigationsmenü die Option Namespace-Konfiguration und dann Sicherheit und Verschlüsselung. Wählen Sie IAM-Rollen verwalten.
Erweitern Sie das Menü IAM-Rollen verwalten und wählen Sie IAM-Rolle erstellen aus.
Wählen Sie die Ebene des S3-Bucket-Zugriffs aus, die Sie dieser Rolle gewähren möchten, und wählen Sie IAM-Rolle als Standard erstellen aus.
Wählen Sie Änderungen speichern aus. Sie können jetzt Beispieldaten aus Amazon S3 laden.

In den folgenden Schritten werden Daten in einem öffentlichen Amazon-Redshift-S3-Bucket verwendet, Sie können jedoch dieselben Schritte unter Verwendung Ihres eigenen S3-Buckets und eigener SQL-Befehle wiederholen.

Laden von Beispieldaten aus Amazon S3

Wählen Sie in Query Editor v2 „ hinzufügen“ und dann Notebook aus, um ein neues SQL-Notebook zu erstellen.
Wechseln Sie zur dev-Datenbank.

Erstellen Sie Tabellen.

Wenn Sie Query Editor v2 verwenden, kopieren Sie die folgenden Create-Table-Anweisungen und führen Sie sie aus, um Tabellen in der dev-Datenbank zu erstellen. Weitere Informationen zur Syntax finden Sie unter CREATE TABLE im Datenbankentwicklerhandbuch zu Amazon Redshift.


create table users(
userid integer not null distkey sortkey,
username char(8),
firstname varchar(30),
lastname varchar(30),
city varchar(30),
state char(2),
email varchar(100),
phone char(14),
likesports boolean,
liketheatre boolean,
likeconcerts boolean,
likejazz boolean,
likeclassical boolean,
likeopera boolean,
likerock boolean,
likevegas boolean,
likebroadway boolean,
likemusicals boolean);                        

create table event(
eventid integer not null distkey,
venueid smallint not null,
catid smallint not null,
dateid smallint not null sortkey,
eventname varchar(200),
starttime timestamp);

create table sales(
salesid integer not null,
listid integer not null distkey,
sellerid integer not null,
buyerid integer not null,
eventid integer not null,
dateid smallint not null sortkey,
qtysold smallint not null,
pricepaid decimal(8,2),
commission decimal(8,2),
saletime timestamp);

Erstellen Sie in Query Editor v2 eine neue SQL-Zelle in Ihrem Notebook.

Verwenden Sie nun den Befehl COPY in Query Editor v2, um große Datensätze aus Amazon S3 oder Amazon DynamoDB in Amazon Redshift zu laden. Weitere Informationen zur COPY-Syntax finden Sie unter COPY im Datenbankentwicklerhandbuch zu Amazon Redshift.

Sie können den Befehl COPY mit Beispieldaten ausführen, die in einem öffentlichen S3-Bucket verfügbar sind. Führen Sie die folgenden SQL-Befehle in Query Editor v2 aus.


COPY users 
FROM 's3://redshift-downloads/tickit/allusers_pipe.txt' 
DELIMITER '|' 
TIMEFORMAT 'YYYY-MM-DD HH:MI:SS'
IGNOREHEADER 1 
REGION 'us-east-1'
IAM_ROLE default;                    
                    
COPY event
FROM 's3://redshift-downloads/tickit/allevents_pipe.txt' 
DELIMITER '|' 
TIMEFORMAT 'YYYY-MM-DD HH:MI:SS'
IGNOREHEADER 1 
REGION 'us-east-1'
IAM_ROLE default;

COPY sales
FROM 's3://redshift-downloads/tickit/sales_tab.txt' 
DELIMITER '\t' 
TIMEFORMAT 'MM/DD/YYYY HH:MI:SS'
IGNOREHEADER 1 
REGION 'us-east-1'
IAM_ROLE default;

Erstellen Sie nach dem Laden der Daten eine weitere SQL-Zelle in Ihrem Notebook und probieren Sie einige Beispielabfragen aus. Weitere Informationen zur Verwendung des SELECT-Befehls finden Sie unter SELECT im Amazon-Redshift-Entwicklerhandbuch. Verwenden Sie Query Editor v2, um die Struktur und die Schemata der Beispieldaten zu verstehen.


-- Find top 10 buyers by quantity.
SELECT firstname, lastname, total_quantity 
FROM   (SELECT buyerid, sum(qtysold) total_quantity
        FROM  sales
        GROUP BY buyerid
        ORDER BY total_quantity desc limit 10) Q, users
WHERE Q.buyerid = userid
ORDER BY Q.total_quantity desc;

-- Find events in the 99.9 percentile in terms of all time gross sales.
SELECT eventname, total_price 
FROM  (SELECT eventid, total_price, ntile(1000) over(order by total_price desc) as percentile 
       FROM (SELECT eventid, sum(pricepaid) total_price
             FROM   sales
             GROUP BY eventid)) Q, event E
       WHERE Q.eventid = E.eventid
       AND percentile = 1
ORDER BY total_price desc;

Nachdem Sie nun Daten geladen und einige Beispielabfragen ausgeführt haben, können Sie andere Bereiche von Amazon Redshift Serverless erkunden. In der folgenden Übersicht erfahren Sie mehr über die Verwendungsmöglichkeiten von Amazon Redshift Serverless.

Sie können Daten aus einem Amazon-S3-Bucket laden. Weitere Informationen finden Sie unter Laden von Daten aus Amazon S3.
Sie können Query Editor v2 verwenden, um Daten aus einer lokalen zeichengetrennten Datei mit weniger als 5 MB zu laden. Weitere Informationen finden Sie unter Laden von Daten aus einer lokalen Datei.
Sie können eine Verbindung zu Amazon Redshift Serverless mit SQL-Tools von Drittanbietern mit dem JDBC- und ODBC-Treiber herstellen. Weitere Informationen finden Sie unter Verbinden mit Amazon Redshift Serverless.
Sie können die Amazon-Redshift-Daten-API auch verwenden, um eine Verbindung mit Amazon Redshift Serverless herzustellen. Weitere Informationen finden Sie unter Verwenden der Amazon-Redshift-Daten-API.
Sie können Ihre Daten in Amazon Redshift Serverless mit Redshift ML verwenden, um Machine-Learning-Modelle mit dem Befehl CREATE MODEL zu erstellen. Im Tutorial: Erstellen von Kundenabwanderungsmodellen erfahren Sie, wie Sie ein Redshift-ML-Modell erstellen.
Sie können Daten aus einem Amazon S3 Data Lake abfragen, ohne Daten in Amazon Redshift Serverless laden zu müssen. Weitere Informationen finden Sie unter Abfragen eines Data Lake.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Von Amazon Redshift bereitgestellte Cluster