import numpy as np
import pandas as pd

%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('fivethirtyeight')


births = pd.read_csv('../data/baby.csv')


births.head()


smoking_and_birthweight = births.filter(['Maternal Smoker', 'Birth Weight'])
smoking_and_birthweight


SB = smoking_and_birthweight.groupby(['Maternal Smoker']).count()
SB


# N.B. use of 'ax = ax' to plot two sets of data on shared axis.

fig, ax = plt.subplots(figsize=(8,6))

smoking_and_birthweight.groupby(by='Maternal Smoker').hist('Birth Weight', bins = 20, alpha=0.5, ax=ax)
ax.legend(['Non Smoker', 'Smoker']);


means_table = smoking_and_birthweight.groupby(by='Maternal Smoker').mean()

means_table


means_table['Birth Weight'][0]

123.08531468531469


type(means_table)

pandas.core.frame.DataFrame


# mean infant birthweight for maternal smoker == False

means_table.loc[:,'Birth Weight'][0]

# or

# means_table[0]

123.08531468531469


# mean infant birthweight for maternal smoker == True

means_table.loc[:,'Birth Weight'][1]

113.81917211328977


means = means_table['Birth Weight'] # single column
means

Maternal Smoker
False    123.085315
True     113.819172
Name: Birth Weight, dtype: float64


means = pd.DataFrame(means) # convert to df

observed_difference = means.loc[:,'Birth Weight'][1] - means.loc[:,'Birth Weight'][0]

observed_difference

-9.266142572024918


def difference_of_means(df, col_label, group_label):
    """Takes: name of df, column label of numerical variable, column label of group-label variable
    Returns: Difference of means of the two groups
    """

    reduced = df[[col_label, group_label]]
    
    means_df = reduced.groupby(by=group_label).mean()

    return (means_df.loc[:,'Birth Weight'][1] - means_df.loc[:,'Birth Weight'][0])


reduced = births[['Birth Weight', 'Maternal Smoker']]
reduced


group_label = 'Maternal Smoker'

means_table = reduced.groupby(by=group_label).mean()
means_table


difference_of_means(births, 'Birth Weight', 'Maternal Smoker')

-9.266142572024918


letters = pd.DataFrame({'Letter':('a', 'b', 'c', 'd', 'e')})
letters


# N.B. Return a random sample of items from an axis of object.
# By default the random sample will be a single row i.e. sample (len=1)

letters.sample()


#unless the number of rows required is specified the pandas 'sample' method will sample 
#and return one row of a datframe. To sample a number of rows an integer may be provided 
#which in this case is (5), the int paramtere can be replaced e.g. (len(df)) or 
#the 'frac' parameter can be set to 1 (100%). If the frac parameter is used the 
# initial 'int' paramter cannot be used

#Setting the boolean value of 'replace' to '1' will allow resampling of rows

letters.sample(5, replace=1)


# Not setting the boolean value of 'replace' to '1' means that the default value of 'replace=0' is used
# i.e. replacement not allowed

letter_s = letters.sample(len(letters))
letter_s


print(type(letter_s.Letter))
print(type(letter_s.Letter[0]))

<class 'pandas.core.series.Series'>
<class 'str'>


#let = list(letter_s['Letter'])

# or

let = np.array(letter_s['Letter'])

let

array(['e', 'd', 'c', 'b', 'a'], dtype=object)


shuffle = pd.DataFrame({'Shuffled': let})

letters['Shuffled'] = let

letters


smoking_and_birthweight.head()


shuffled_labels = smoking_and_birthweight[['Maternal Smoker']].sample(len(smoking_and_birthweight))

shuffled_labels = shuffled_labels.reset_index(drop=True)

shuffled_labels


#original_and_shuffled = smoking_and_birthweight.assign(Shuffled_Label = shuffled_labels)

# or

original_and_shuffled = smoking_and_birthweight.copy()

original_and_shuffled['Shuffled Label'] = shuffled_labels

original_and_shuffled


difference_of_means(original_and_shuffled, 'Birth Weight', 'Shuffled Label')

1.0506482624129632


difference_of_means(original_and_shuffled, 'Birth Weight', 'Maternal Smoker')

-9.266142572024918


def one_simulated_difference(df, label, group_label):
    """Takes: name of table, column label of numerical variable,
    column label of group-label variable
    Returns: Difference of means of the two groups after shuffling labels"""
    
    shuffled_labels = df[group_label].sample(len(df))

    shuffled_labels = list(shuffled_labels)

    # table of numerical variable and shuffled labels

    df['Shuffled Label'] = shuffled_labels

    shuffled_df = df
    
    return difference_of_means(shuffled_df, label, 'Shuffled Label')


one_simulated_difference(births, 'Birth Weight', 'Maternal Smoker')

1.0327620092325986


differences = np.array([])

for i in np.arange(2500):
    new_difference = one_simulated_difference(births, 'Birth Weight', 'Maternal Smoker')
    differences = np.append(differences, new_difference)

differences

array([ 1.39048707,  0.83959047, -0.35163399, ...,  0.87178573,
       -0.36594299,  1.2366653 ])


len(differences)

2500


means = pd.DataFrame(means) # convert to df

observed_difference = means.loc[:,'Birth Weight'][1] - means.loc[:,'Birth Weight'][0]

observed_difference

-9.266142572024918


df = pd.DataFrame({'Difference Between Group Means' : differences})
print('Observed Difference:', observed_difference)

df.hist(ec='yellow');
plt.scatter(observed_difference, 0, color = 'red', s=40, zorder=10).set_clip_on(False);

Observed Difference: -9.266142572024918


df = pd.DataFrame({'Difference Between Group Means' : differences})

df.hist(bins=25, ec='white')
plt.scatter(observed_difference, 0, color = 'red', s=40, zorder=10).set_clip_on(False);

pandas.DataFrame.filter¶

Test Statistic¶

Permutation Test¶

	Birth Weight	Gestational Days	Maternal Age	Maternal Height	Maternal Pregnancy Weight	Maternal Smoker
0	120	284	27	62	100	False
1	113	282	33	64	135	False
2	128	279	28	64	115	True
3	108	282	23	67	125	True
4	136	286	25	62	93	False

	Letter
0	a
1	b
2	c
3	d
4	e

	Letter
3	d
0	a
0	a
1	b
4	e

	Letter
4	e
3	d
2	c
1	b
0	a

	Letter	Shuffled
0	a	e
1	b	d
2	c	c
3	d	b
4	e	a