Session 4 - Data Quality

Data Cleaning

from sklearn.linear_model import LinearRegression
features_for_age = ['Pclass', 'SibSp', 'Parch', 'Fare']
X_train = titanic_data.dropna(subset=['Age'])[features_for_age]
y_train = titanic_data.dropna(subset=['Age'])['Age']
reg_imputer = LinearRegression()
reg_imputer.fit(X_train, y_train)
X_missing = titanic_data[titanic_data['Age'].isnull()][features_for_age]
predicted_ages = reg_imputer.predict(X_missing)
titanic_data_reg = titanic_data.copy()
titanic_data_reg.loc[titanic_data_reg['Age'].isnull(), 'Age'] = predicted_ages
titanic_data['Age_Regression'] = titanic_data_reg['Age']

Data Quality

Last Time

ML Definition

Data

Data

Data Challenges

Data Challenges

Data Challenges

Data Challenges

Data Challenges

Data Challenges

The Data Science Process

The Data Science Process

The Data Science Process

The Data Science Process

Data Quality

Data Quality

Data Quality

Data Quality

Data Quality

Data Quality

Data Quality

Data Quality

Data Quality

Data Quality

Data Quality

Data Quality

Data Quality

Data Quality

Data Quality

Data Quality

Data Quality

Data Quality

Data Quality

Data Assess

Data Assess

Data Assess

Data Assess

ML Pipelines vs ML-based Systems

Data Assess

Data Cleaning

Data Cleaning

Data Cleaning

Data Cleaning

Data Cleaning

Data Cleaning

Data Cleaning

Data Cleaning

Data Cleaning

Data Assess

Data Preprocessing

Data Preprocessing

Data Preprocessing

Data Preprocessing

Data Preprocessing

Data Preprocessing

Data Preprocessing

Data Assess

Data Augmentation

Data Augmentation

Data Augmentation

Data Augmentation

Data Augmentation

Data Augmentation

Data Augmentation

Data Augmentation

Data Assess

Feature Engineering

Feature Engineering

Feature Engineering

Feature Engineering

Feature Engineering

Feature Engineering

Feature Engineering

Feature Engineering

Feature Engineering

Feature Engineering

Feature Engineering

Feature Engineering

Feature Engineering