Datensammlung

Der Datensatz "Brazilian E-Commerce Public Dataset by Olist" wurde auf der Plattform Kaggle zur Verfügung gestellt und enthält umfangreiche Informationen über 100.000 Bestellungen, die zwischen 2016 und 2018 auf verschiedenen brasilianischen Marktplätzen getätigt wurden sind. Dies sind echte kommerzielle Daten, sie wurden anonymisiert und Verweise auf die Unternehmen und Partner im Bewertungstext wurden durch die Namen der großen Häuser von Game of Thrones ersetzt.

Die Daten wurden in mehrere separate Datensätze aufgeteilt, um eine bessere Strukturierung und Organisation zu ermöglichen. Das Datenschema umfasst die folgenden Datensätze:

Auswahl der relevanten Datensätze

Für die Kundenanalyse von Olist wurden die folgenden Datensätze ausgewählt, da sie die benötigten Informationen für eine umfassende Untersuchung der Kundendemografie und des Kaufverhaltens bereitstellten:

  1. olist_customers_dataset.csv: Dieser Datensatz enthält grundlegende Informationen über die Kunden, wie Kunden-ID, eindeutige Kunden-ID, Postleitzahl und Stadt. Die Kenntnis dieser Informationen ermöglicht es, die geografische Verteilung der Kunden zu untersuchen und regionale Unterschiede im Kaufverhalten zu identifizieren.

  2. olist_orders_dataset.csv: In diesem Datensatz sind Informationen über die Bestellungen enthalten, wie Bestell-ID, Kunden-ID, Bestellstatus, Kaufdatum und Liefertermin. Mit diesen Informationen kann das Bestellverhalten der Kunden analysiert und wiederkehrende Kunden identifiziert werden.

  3. olist_order_items_dataset.csv: Hier finden sich detaillierte Informationen über die gekauften Produkte, wie Bestell-ID, Produkt-ID, Verkäufer-ID, Preis und Frachtkosten. Diese Daten ermöglichen es, die Popularität bestimmter Produkte und Kategorien zu untersuchen und mögliche Zusammenhänge zwischen demografischen Merkmalen und Produktpräferenzen zu erkennen.

  4. olist_order_payments_dataset.csv: Dieser Datensatz enthält Informationen über die Zahlungen der Bestellungen, wie Bestell-ID, Zahlungsart, Ratenzahlungen und Zahlungsbetrag. Anhand dieser Daten kann das Zahlungsverhalten der Kunden analysiert und mögliche Zusammenhänge zwischen demografischen Merkmalen und Zahlungsmethoden untersucht werden.

  5. olist_order_reviews_dataset.csv: In diesem Datensatz finden sich Kundenbewertungen für die Bestellungen, wie Bestell-ID, Bewertungstext, Bewertungsdatum und Bewertungsscore. Durch die Analyse dieser Daten kann Kundenzufriedenheit und -loyalität untersucht und wertvolle Erkenntnisse für die Verbesserung des Kundenservice gewonnen werden.

Datenbereinigung und -aufbereitung

In diesem Abschnitt werden die angewandten Methoden und Prozesse dargestellt, um die Olist-Daten für die Kundenanalyse vorzubereiten.

Zuerst wurden die benötigten Datensätze in einen konsolidierten Datensatz zusammengeführt. Dies beinhaltete das Verbinden von Informationen aus Bestell-, Kunden-, Artikel-, Zahlungs- und Bewertungsdatensätzen anhand der jeweiligen IDs.

Daraufhin erfolgte eine Analyse der fehlenden Werte in den Daten. Entscheidungen zum Umgang mit diesen Werten basierten auf der Art und Bedeutung der fehlenden Informationen. In manchen Fällen wurden fehlende Werte durch passende Schätzungen ersetzt, wie etwa das Ersetzen fehlender Lieferdaten durch geschätzte Lieferdaten. In anderen Fällen, bei denen fehlende Werte für die Analyse weniger relevant waren, blieben sie unverändert.

Zuletzt wurde Feature-Engineering durchgeführt, um zusätzliche Merkmale aus den vorhandenen Daten abzuleiten, die für die Analyse der Kunden demografischer und Verhaltensaspekte von Bedeutung sein könnten. Dies umfasste die Erstellung von aggregierten Merkmalen wie die Anzahl der Bestellungen und der durchschnittliche Bestellwert pro Kunde sowie die Berechnung der Lieferzeit.