Source code for dtale.column_replacements

import re

import numpy as np
import pandas as pd
from six import string_types

import dtale.global_state as global_state
from dtale.utils import classify_type, find_dtype


[docs]class ColumnReplacement(object):

    def __init__(self, data_id, col, replacement_type, cfg, name=None):
        self.data_id = data_id
        if replacement_type == 'spaces':
            self.builder = SpaceReplacement(col, cfg, name)
        elif replacement_type == 'strings':
            self.builder = StringReplacement(col, cfg, name)
        elif replacement_type == 'value':
            self.builder = ValueReplacement(col, cfg, name)
        elif replacement_type == 'imputer':  # iterative, knn, simple
            self.builder = ImputerReplacement(col, cfg, name)
        else:
            raise NotImplementedError("'{}' replacement not implemented yet!".format(replacement_type))

[docs]    def build_replacements(self):
        return self.builder.build_column(global_state.get_data(self.data_id))

[docs]    def build_code(self):
        return self.builder.build_code(global_state.get_data(self.data_id))


[docs]def get_inner_replacement_value(val):
    return np.nan if isinstance(val, string_types) and val.lower() == 'nan' else val


[docs]def get_replacement_value(cfg, prop):
    value = (cfg or {}).get(prop) or 'nan'
    return get_inner_replacement_value(value)


[docs]def get_inner_replacement_value_as_str(val, series):
    if isinstance(val, string_types) and val.lower() == 'nan':
        return 'np.nan'
    if classify_type(find_dtype(series)) == 'S':
        return "'{value}'".format(value=val)
    return val


[docs]def get_replacement_value_as_str(cfg, prop, series):
    value = (cfg or {}).get(prop) or 'nan'
    return get_inner_replacement_value_as_str(value, series)


[docs]class SpaceReplacement(object):

    def __init__(self, col, cfg, name):
        self.col = col
        self.cfg = cfg
        self.name = name

[docs]    def build_column(self, data):
        value = get_replacement_value(self.cfg, 'value')
        return data[self.col].replace(r'^\s+$', value, regex=True)

[docs]    def build_code(self, data):
        value = get_replacement_value_as_str(self.cfg, 'value', data[self.col])
        return "df.loc[:, '{name}'] = df['{col}'].replace(r'^\\s+$', {value}, regex=True)".format(
            name=self.name or self.col, col=self.col, value=value
        )


[docs]class StringReplacement(object):

    def __init__(self, col, cfg, name):
        self.col = col
        self.cfg = cfg
        self.name = name

[docs]    def parse_cfg(self):
        return (self.cfg[p] for p in ['value', 'ignoreCase', 'isChar'])

[docs]    def build_column(self, data):
        value, ignore_case, is_char = self.parse_cfg()
        flags = re.UNICODE
        if ignore_case:
            flags |= re.IGNORECASE
        value = re.escape(value)
        if is_char:
            value = '[{value}]+'.format(value=value)
        regex_pat = re.compile(r'^ *{value} *$'.format(value=value), flags=flags)
        replace_with = get_replacement_value(self.cfg, 'replace')
        return data[self.col].replace(regex_pat, replace_with, regex=True)

[docs]    def build_code(self, data):
        value, ignore_case, is_char = self.parse_cfg()
        flags = re.UNICODE
        if ignore_case:
            flags |= re.IGNORECASE

        regex_exp = "r'^ *{value} *$'.format(value=re.escape({value}))"
        if is_char:
            regex_exp = "r'^ *[{value}]+ *$'.format(value=re.escape({value}))"
        regex_exp = regex_exp.format(value=value)

        replace_with = get_replacement_value_as_str(self.cfg, 'replace', data[self.col])

        return (
            "import re\n\n"
            "regex_pat = re.compile({regex_exp}, flags={flags})\n"
            "df.loc[:, '{name}'] = df['{col}'].replace(regex_pat, {replace}, regex=True)"
        ).format(name=self.name or self.col, col=self.col, regex_exp=regex_exp, flags=flags, replace=replace_with)


[docs]class ValueReplacement(object):

    def __init__(self, col, cfg, name):
        self.col = col
        self.cfg = cfg
        self.name = name

[docs]    def build_column(self, data):
        s = data[self.col]
        replacements = {}
        col_replacements = []
        for replacement in self.cfg.get('value', []):
            value = get_replacement_value(replacement, 'value')
            replacement_type = replacement.get('type')
            if replacement_type == 'agg':
                replace = getattr(s, replacement['replace'])()  # min, max, mean, median
                if pd.isnull(replace):
                    raise Exception(
                        'Running the aggregation, {agg}, on {col} resulted in nan, this would result in a no-op.'
                    )
            elif replacement_type == 'col':
                col_replacements.append(lambda s2: np.where(s2 == value, data[replacement['replace']], s2))
            else:
                replace = get_replacement_value(replacement, 'replace')
            replacements[value] = replace
        final_s = s
        if len(replacements):
            final_s = final_s.replace(replacements)
        for col_r in col_replacements:
            final_s = col_r(final_s)
        return final_s

[docs]    def build_code(self, data):
        replacements = []
        series = data[self.col]
        col_replacements = []
        for replacement in self.cfg.get('value', []):
            value = get_replacement_value_as_str(replacement, 'value', series)
            replacement_type = self.cfg.get('type')
            if replacement_type == 'agg':
                replace = "getattr(df['{col}'], '{agg}')()".format(agg=replacement['value'], col=self.col)
            elif replacement_type == 'col':
                col_replacements.append("s = np.where(s == {value}, data['{col2}'], s)".format(
                    col2=replacement['replace'], value=value
                ))
            else:
                replace = get_replacement_value_as_str(replacement, 'replace', series)
            replacements.append('\t{value}: {replace}'.format(value=value, replace=replace))

        code = ["s = df['{col}']".format(col=self.col)]
        if len(replacements):
            replacements = ',\n'.join(replacements)
            replacements = '{\n' + replacements + '}'
            code.append("s = s.replace({replacements})".format(replacements=replacements))
        code += col_replacements
        code.append("df.loc[:, '{name}'] = s".format(name=self.name or self.col))
        return '\n'.join(code)


[docs]class ImputerReplacement(object):

    def __init__(self, col, cfg, name):
        self.col = col
        self.cfg = cfg
        self.name = name

[docs]    def build_column(self, data):
        imputer_type = self.cfg['type']
        if imputer_type == 'iterative':
            try:
                from sklearn.experimental import enable_iterative_imputer  # noqa
                from sklearn.impute import IterativeImputer
            except ImportError:
                raise Exception(
                    'You must have at least scikit-learn 0.21.0 installed in order to use the Iterative Imputer!'
                )
            imputer = IterativeImputer()
        elif imputer_type == 'knn':
            try:
                from sklearn.impute import KNNImputer
            except ImportError:
                raise Exception(
                    'You must have at least scikit-learn 0.22.0 installed in order to use the Iterative Imputer!'
                )
            n_neighbors = self.cfg.get('n_neighbors') or 2
            imputer = KNNImputer(n_neighbors=n_neighbors)
        elif imputer_type == 'simple':
            try:
                from sklearn.impute import SimpleImputer
            except ImportError:
                raise Exception(
                    'You must have at least scikit-learn 0.20.0 installed in order to use the Iterative Imputer!'
                )
            imputer = SimpleImputer()
        else:
            raise NotImplementedError("'{}' sklearn imputer not implemented yet!".format(imputer_type))
        output = imputer.fit_transform(data[[self.col]])
        return pd.DataFrame(output, columns=[self.col], index=data.index)[self.col]

[docs]    def build_code(self, _data):
        imputer_type = self.cfg['type']
        code = []
        if imputer_type == 'iterative':
            code.append((
                "from sklearn.experimental import enable_iterative_imputer\n"
                "from sklearn.impute import IterativeImputer\n\n"
                "output = IterativeImputer().fit_transform(df[['{col}']])"
            ).format(col=self.col))
        elif imputer_type == 'knn':
            n_neighbors = self.cfg.get('n_neighbors') or 2
            code.append((
                "from sklearn.impute import KNNImputer\n\n"
                "output = KNNImputer(n_neighbors={n_neighbors}).fit_transform(df[['{col}']])"
            ).format(col=self.col, n_neighbors=n_neighbors))
        elif imputer_type == 'simple':
            code.append((
                "from sklearn.impute import SimpleImputer\n\n"
                "output = SimpleImputer().fit_transform(df[['{col}']])"
            ).format(col=self.col))
        code.append(
            "df.loc[:, '{name}'] = pd.DataFrame(output, columns=['{col}'], index=df.index)['{col}']".format(
                name=self.name or self.col, col=self.col
            )
        )
        return '\n'.join(code)