DataframeConversionValidator

Module for checking PySpark Dataframes before and after conversion.

Provides a way to quickly validate column conversions didn't result in null across large dataframes. Can also be used to find problem columns and rows.

Will need to specify or create a primary key column for matching before and after rows.

Use case

Converting StringType columns to TimestampType can cause null values in poorly formed data. It's not possible to check by hand. This works as an early warning system.

Example:

from DFCV import DataframeConversionValidator

dfcv = DataframeConversionValidator(_before_df=unmodified_df, _after_df=converted_df, _primary_key_column='pk')

---------------
Original Shape:
    rows    - 469221
    columns - 582
Problem Shape:
    rows    - 1
    columns - 3
Details:
    ['ImproperDate (1)', 'ImproperTimestamp (1)', 'BadUpdateTime (1)']
---------------

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
.gitignore		.gitignore
DFCV.py		DFCV.py
LICENSE		LICENSE
README.md		README.md
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DataframeConversionValidator

Use case

About

Releases

Packages

Languages

License

wharton/DataframeConversionValidator

Folders and files

Latest commit

History

Repository files navigation

DataframeConversionValidator

Use case

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages