Zurück zum Blog Python

Der Einstieg in Data Science mit Python

Von Julia Schmidt

2. Juni 2023

10 Min. Lesezeit

Warum Python für Data Science?

In der heutigen datengesteuerten Welt ist Data Science zu einem der gefragtesten Berufsfelder geworden. Unternehmen aller Branchen suchen nach Fachleuten, die aus großen Datenmengen wertvolle Erkenntnisse gewinnen können. Python hat sich dabei als die bevorzugte Programmiersprache für Data Scientists etabliert, und das aus gutem Grund.

Python bietet eine einfach zu erlernende Syntax, eine große und aktive Community sowie ein umfangreiches Ökosystem an leistungsstarken Bibliotheken speziell für Datenanalyse, maschinelles Lernen und Visualisierung. Ob Sie Ihre Karriere in eine neue Richtung lenken oder einfach nur Ihre Fähigkeiten erweitern möchten – Python ist der ideale Einstiegspunkt in die Welt der Data Science.

Die grundlegenden Werkzeuge einrichten

Bevor wir in die eigentliche Analyse eintauchen, benötigen wir eine geeignete Arbeitsumgebung. Die folgenden Tools sind für den Einstieg in die Datenanalyse mit Python unerlässlich:

Python-Installation

Zunächst müssen Sie Python auf Ihrem Computer installieren. Wir empfehlen die Verwendung von Python 3.x, da Python 2.x nicht mehr unterstützt wird. Sie können Python von der offiziellen Website herunterladen.

Anaconda-Distribution

Für Data-Science-Projekte ist die Anaconda-Distribution besonders empfehlenswert. Sie enthält nicht nur Python selbst, sondern auch die wichtigsten Bibliotheken für die Datenanalyse sowie Tools wie Jupyter Notebook und Spyder IDE. Anaconda können Sie von der Anaconda-Website beziehen.

Jupyter Notebooks

Jupyter Notebooks sind interaktive Dokumente, die lebendigen Code, Visualisierungen und erklärenden Text kombinieren. Sie sind das ideale Tool für explorative Datenanalyse und zum Teilen Ihrer Erkenntnisse.

Wenn Sie Anaconda installiert haben, können Sie Jupyter Notebook mit folgendem Befehl in der Kommandozeile starten:

jupyter notebook

Die wichtigsten Python-Bibliotheken für Data Science

Das Python-Ökosystem bietet eine Vielzahl spezialisierter Bibliotheken für Data Science. Hier sind die wichtigsten, die Sie kennen sollten:

NumPy

NumPy (Numerical Python) ist die Grundlage für numerische Berechnungen in Python. Es bietet Unterstützung für große, mehrdimensionale Arrays und Matrizen sowie eine große Sammlung von mathematischen Funktionen, um mit diesen Arrays zu arbeiten.

Beispiel für die Verwendung von NumPy:

import numpy as np

# Erzeugen eines NumPy-Arrays
arr = np.array([1, 2, 3, 4, 5])
print(arr)

# Grundlegende Operationen
print("Mittelwert:", np.mean(arr))
print("Standardabweichung:", np.std(arr))
print("Summe:", np.sum(arr))

Pandas

Pandas ist eine leistungsstarke Bibliothek für Datenanalyse und -manipulation. Es bietet Datenstrukturen wie DataFrames, die das Arbeiten mit strukturierten Daten einfach und intuitiv machen.

Beispiel für die Verwendung von Pandas:

import pandas as pd

# Erstellen eines DataFrames
data = {
    'Name': ['Anna', 'Bernd', 'Clara', 'David'],
    'Alter': [28, 34, 29, 42],
    'Stadt': ['Berlin', 'München', 'Hamburg', 'Köln']
}
df = pd.DataFrame(data)
print(df)

# Grundlegende Datenexploration
print(df.describe())
print(df.info())

Matplotlib

Matplotlib ist die grundlegende Bibliothek für Datenvisualisierung in Python. Sie ermöglicht die Erstellung von statischen, animierten und interaktiven Visualisierungen.

Beispiel für die Verwendung von Matplotlib:

import matplotlib.pyplot as plt

# Einfache Liniengrafik
x = [1, 2, 3, 4, 5]
y = [10, 20, 25, 30, 45]

plt.figure(figsize=(10, 6))
plt.plot(x, y, marker='o', linestyle='-', color='b')
plt.title('Einfache Liniengrafik')
plt.xlabel('X-Achse')
plt.ylabel('Y-Achse')
plt.grid(True)
plt.show()

Seaborn

Seaborn baut auf Matplotlib auf und bietet eine höhere Ebene der Abstraktion für die Erstellung ansprechender und informativer statistischer Grafiken.

Beispiel für die Verwendung von Seaborn:

import seaborn as sns
import numpy as np

# Erstellen eines Beispieldatensatzes
tips = sns.load_dataset('tips')

# Verschiedene Visualisierungen
plt.figure(figsize=(12, 10))

plt.subplot(2, 2, 1)
sns.histplot(tips['total_bill'], kde=True)
plt.title('Verteilung der Rechnungsbeträge')

plt.subplot(2, 2, 2)
sns.scatterplot(x='total_bill', y='tip', data=tips)
plt.title('Trinkgeld vs. Rechnungsbetrag')

plt.subplot(2, 2, 3)
sns.boxplot(x='day', y='total_bill', data=tips)
plt.title('Rechnungsbeträge nach Wochentag')

plt.subplot(2, 2, 4)
sns.violinplot(x='day', y='total_bill', hue='sex', data=tips, split=True)
plt.title('Rechnungsbeträge nach Wochentag und Geschlecht')

plt.tight_layout()
plt.show()

Scikit-learn

Scikit-learn ist eine Bibliothek für maschinelles Lernen in Python. Sie bietet einfache und effiziente Tools für Datenanalyse und Mining, die für jeden zugänglich sind.

Beispiel für die Verwendung von Scikit-learn:

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

# Laden des Iris-Datensatzes
iris = load_iris()
X, y = iris.data, iris.target

# Aufteilen in Trainings- und Testdaten
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Trainieren eines Random Forest Classifiers
clf = RandomForestClassifier(n_estimators=100, random_state=42)
clf.fit(X_train, y_train)

# Vorhersagen und Auswertung
y_pred = clf.predict(X_test)
print("Genauigkeit:", accuracy_score(y_test, y_pred))
print("\nKlassifikationsbericht:\n", classification_report(y_test, y_pred))

Ein einfaches Data-Science-Projekt: Vom Anfang bis zum Ende

Um Ihnen einen praktischen Einblick in den Data-Science-Workflow zu geben, werden wir ein einfaches Projekt von Anfang bis Ende durchführen. Wir werden den berühmten Titanic-Datensatz verwenden, um vorherzusagen, welche Passagiere die Schiffskatastrophe überlebt haben.

Schritt 1: Daten laden und erkunden

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Laden des Titanic-Datensatzes
titanic_data = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')

# Erste Blick auf die Daten
print(titanic_data.head())
print("\nInformationen über den Datensatz:")
print(titanic_data.info())
print("\nStatistische Zusammenfassung:")
print(titanic_data.describe())

Schritt 2: Datenvisualisierung

# Überlebensrate nach Geschlecht
plt.figure(figsize=(10, 6))
sns.countplot(x='Sex', hue='Survived', data=titanic_data)
plt.title('Überlebensrate nach Geschlecht')
plt.show()

# Überlebensrate nach Passagierklasse
plt.figure(figsize=(10, 6))
sns.countplot(x='Pclass', hue='Survived', data=titanic_data)
plt.title('Überlebensrate nach Passagierklasse')
plt.show()

# Altersverteilung
plt.figure(figsize=(12, 6))
sns.histplot(titanic_data['Age'].dropna(), kde=True, bins=30)
plt.title('Altersverteilung der Titanic-Passagiere')
plt.show()

# Korrelationsmatrix
plt.figure(figsize=(12, 10))
numeric_features = titanic_data.select_dtypes(include=[np.number])
sns.heatmap(numeric_features.corr(), annot=True, cmap='coolwarm')
plt.title('Korrelationsmatrix der numerischen Merkmale')
plt.show()

Schritt 3: Datenvorverarbeitung

# Umgang mit fehlenden Werten
# Fehlende Alterswerte mit dem Median füllen
titanic_data['Age'].fillna(titanic_data['Age'].median(), inplace=True)

# Entfernen weniger relevanter Spalten
titanic_data.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)

# Kategorische Variablen in numerische umwandeln
titanic_data['Sex'] = titanic_data['Sex'].map({'male': 0, 'female': 1})
titanic_data['Embarked'].fillna('S', inplace=True)  # Häufigste Kategorie
titanic_data['Embarked'] = titanic_data['Embarked'].map({'S': 0, 'C': 1, 'Q': 2})

print(titanic_data.head())

Schritt 4: Modelltraining und -vorhersage

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Features und Zielvariable definieren
X = titanic_data.drop('Survived', axis=1)
y = titanic_data['Survived']

# Aufteilen in Trainings- und Testdaten
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Random Forest Classifier trainieren
rf_classifier = RandomForestClassifier(n_estimators=100, random_state=42)
rf_classifier.fit(X_train, y_train)

# Vorhersagen
y_pred = rf_classifier.predict(X_test)

# Modellbewertung
print("Genauigkeit:", accuracy_score(y_test, y_pred))
print("\nKlassifikationsbericht:\n", classification_report(y_test, y_pred))

# Konfusionsmatrix visualisieren
plt.figure(figsize=(8, 6))
sns.heatmap(confusion_matrix(y_test, y_pred), annot=True, fmt='d', cmap='Blues')
plt.title('Konfusionsmatrix')
plt.xlabel('Vorhergesagte Werte')
plt.ylabel('Tatsächliche Werte')
plt.show()

# Feature-Wichtigkeit visualisieren
feature_importance = pd.DataFrame({
    'Feature': X.columns,
    'Importance': rf_classifier.feature_importances_
}).sort_values('Importance', ascending=False)

plt.figure(figsize=(10, 6))
sns.barplot(x='Importance', y='Feature', data=feature_importance)
plt.title('Feature-Wichtigkeit')
plt.show()

Weiterführende Themen und Ressourcen

Die Data Science mit Python umfasst weit mehr als das, was wir in diesem Artikel behandeln konnten. Hier sind einige fortgeschrittene Themen, mit denen Sie sich als Nächstes beschäftigen könnten:

Fortgeschrittene Themen

Deep Learning mit TensorFlow und PyTorch - Für komplexe Aufgaben wie Bild- und Spracherkennung
Natürliche Sprachverarbeitung (NLP) - Mit Bibliotheken wie NLTK und spaCy
Zeitreihenanalyse - Für die Vorhersage von Aktienpreisen, Wettertrends usw.
Big Data Verarbeitung - Mit Frameworks wie Apache Spark (PySpark)
Datenvisualisierung mit interaktiven Bibliotheken - Wie Plotly und Bokeh

Empfohlene Ressourcen

Um Ihre Python-Data-Science-Fähigkeiten weiter zu verbessern, empfehlen wir folgende Ressourcen:

Bücher:
- "Python für Data Science für Dummies" von John Paul Mueller und Luca Massaron
- "Einführung in Machine Learning mit Python" von Andreas C. Müller und Sarah Guido
- "Python Data Science Handbook" von Jake VanderPlas
Online-Kurse:
- TrageMe Rod's "Data Science mit Python" Kurs
- Coursera: "Applied Data Science with Python" (University of Michigan)
- edX: "Python for Data Science" (UC San Diego)
Websites:
- Kaggle.com - Für praktische Übungen und Wettbewerbe
- DataCamp.com - Interaktive Tutorials
- TowardsDataScience.com - Aktuelle Artikel zu Data Science

Fazit

Python hat sich als die Sprache der Wahl für Data Science etabliert, und das aus gutem Grund. Seine einfache Syntax, leistungsstarken Bibliotheken und aktive Community machen es zum idealen Werkzeug für Einsteiger und erfahrene Datenanalysten gleichermaßen.

In diesem Artikel haben wir die grundlegenden Werkzeuge und Bibliotheken kennengelernt, die Sie für den Einstieg in Data Science mit Python benötigen. Wir haben gesehen, wie man Daten lädt, bereinigt, visualisiert und ein einfaches Vorhersagemodell trainiert. Dies ist jedoch nur der Anfang. Das Feld der Data Science ist riesig und ständig in Bewegung, mit immer neuen Techniken und Anwendungsbereichen.

Egal, ob Sie eine Karriere in der Datenanalyse anstreben oder einfach nur Ihre Fähigkeiten erweitern möchten – die Beherrschung von Python für Data Science ist eine wertvolle Investition in Ihre Zukunft. Beginnen Sie mit kleinen Projekten, vertiefen Sie Ihr Wissen kontinuierlich und bleiben Sie neugierig. Die Welt der Daten wartet darauf, von Ihnen entdeckt zu werden!

Sind Sie bereit, Ihre Data-Science-Reise zu beginnen? Schauen Sie sich unseren umfassenden Python für Data Science Kurs an und beginnen Sie noch heute mit dem Lernen!

Über die Autorin

Julia Schmidt

Julia ist Data Scientist mit Spezialisierung auf Machine Learning und statistische Analyse. Mit einem Hintergrund in Mathematik und Informatik hat sie mehr als 7 Jahre Erfahrung in der Anwendung von Data-Science-Techniken in verschiedenen Branchen. Bei TrageMe Rod leitet sie den Bereich Data Science und unterrichtet Kurse zu Python und maschinellem Lernen.