StatMixedML · gmgeorg · Nov 19, 2023 · Nov 19, 2023 · Nov 19, 2023 · Nov 19, 2023
diff --git a/docs/examples/Gamma_Regression_CaliforniaHousing.ipynb b/docs/examples/Gamma_Regression_CaliforniaHousing.ipynb
diff --git a/docs/examples/Gaussian_Regression.ipynb b/docs/examples/Gaussian_Regression.ipynb
@@ -1167,7 +1167,7 @@
  ],
  "metadata": {
   "kernelspec": {
-   "display_name": "Python 3 (ipykernel)",
+   "display_name": "Python 3",
    "language": "python",
    "name": "python3"
   },
@@ -1181,7 +1181,7 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.9.0"
+   "version": "3.8.10"
   }
  },
  "nbformat": 4,

diff --git a/docs/examples/How_To_Select_A_Univariate_Distribution.ipynb b/docs/examples/How_To_Select_A_Univariate_Distribution.ipynb
diff --git a/docs/examples/LambertWGamma_Regression_CaliforniaHousing.ipynb b/docs/examples/LambertWGamma_Regression_CaliforniaHousing.ipynb
diff --git a/docs/examples/LambertW_Gaussian_Regression.ipynb b/docs/examples/LambertW_Gaussian_Regression.ipynb
diff --git a/setup.py b/setup.py
@@ -1,39 +1,51 @@
 from setuptools import setup, find_packages
 
+
+import re
+
+_VERSION_FILE = "xgboostlss/_version.py"
+verstrline = open(_VERSION_FILE, "rt").read()
+_VERSION = r"^__version__ = ['\"]([^'\"]*)['\"]"
+mo = re.search(_VERSION, verstrline, re.M)
+if mo:
+    verstr = mo.group(1)
+else:
+    raise RuntimeError("Unable to find version string in %s." % (_VERSION_FILE,))
+
+
 setup(
     name="xgboostlss",
-    version="0.4.0",
+    version=verstr,
     description="XGBoostLSS - An extension of XGBoost to probabilistic modelling",
     long_description=open("README.md").read(),
     long_description_content_type="text/markdown",
-    author="Alexander März",
+    author='Alexander M"{a}rz',
     author_email="[email protected]",
     url="https://github.com/StatMixedML/XGBoostLSS",
     license="Apache License 2.0",
     packages=find_packages(exclude=["docs", "tests*"]),
     include_package_data=True,
-    package_data={'': ['datasets/*.csv']},
+    package_data={"": ["datasets/*.csv"]},
     zip_safe=True,
-    python_requires=">=3.9",
+    python_requires=">=3.8",
     install_requires=[
-        "xgboost~=2.0.2",
-        "torch~=2.1.1",
-        "pyro-ppl~=1.8.6",
-        "optuna~=3.4.0",
-        "properscoring~=0.1",
-        "scikit-learn~=1.3.2",
-        "numpy~=1.26.2",
-        "pandas~=2.1.3",
-        "plotnine~=0.12.4",
-        "scipy~=1.11.4",
-        "seaborn~=0.13.0",
-        "tqdm~=4.66.1",
-        "matplotlib~=3.8.2",
-        "ipython~=8.18.1",
+        "xgboost>=1.6.1",
+        "torch>=2.0.1",
+        "pyro-ppl>=1.5.0",
+        "optuna>=3.0.0",
+        "properscoring>=0.1",
+        "scikit-learn>=1.0.2",
+        "numpy>=1.23.0",
+        "pandas>=2.0.3",
+        "plotnine>=0.10.0",
+        "statsmodels>=0.14.0",
+        "scipy>=1.0.0",
+        "seaborn>=0.13.0",
+        "torchlambertw @ git+ssh://[email protected]/gmgeorg/torchlambertw.git#egg=torchlambertw-0.0.3",
+        "tqdm>=4.0.0",
+        "matplotlib>=3.6.0",
     ],
-    extras_require={
-        "docs": ["mkdocs", "mkdocstrings[python]", "mkdocs-jupyter"]
-    },
+    extras_require={"docs": ["mkdocs", "mkdocstrings[python]", "mkdocs-jupyter"]},
     test_suite="tests",
     tests_require=["flake8", "pytest"],
 )
diff --git a/tests/test_distribution_utils/test_dist_select.py b/tests/test_distribution_utils/test_dist_select.py
@@ -9,16 +9,25 @@
     LogNormal,
     Weibull,
     Gumbel,
-    Laplace)
+    Laplace,
+)
 from xgboostlss.distributions.Mixture import *
 from xgboostlss.distributions.SplineFlow import *
 from xgboostlss.distributions.MVN import *
 from xgboostlss.distributions.MVT import *
 from xgboostlss.distributions.MVN_LoRa import *
-from xgboostlss.distributions.distribution_utils import DistributionClass as univariate_dist_class
-from xgboostlss.distributions.multivariate_distribution_utils import Multivariate_DistributionClass as multivariate_dist_class
+from xgboostlss.distributions.distribution_utils import (
+    DistributionClass as univariate_dist_class,
+)
+from xgboostlss.distributions.multivariate_distribution_utils import (
+    Multivariate_DistributionClass as multivariate_dist_class,
+)
 from xgboostlss.distributions.flow_utils import NormalizingFlowClass as flow_dist_class
-from xgboostlss.distributions.mixture_distribution_utils import MixtureDistributionClass as mixture_dist_class
+from xgboostlss.distributions.mixture_distribution_utils import (
+    MixtureDistributionClass as mixture_dist_class,
+)
+
+import xgboostlss.distributions.distribution_utils as du
 
 
 class TestClass(BaseTestClass):
@@ -28,38 +37,58 @@ class TestClass(BaseTestClass):
     def test_univar_dist_select(self):
         # Create data for testing
         target = np.array([0.2, 0.4, 0.6, 0.8]).reshape(-1, 1)
-        candidate_distributions = [Beta, Gaussian, StudentT, Gamma, Cauchy, LogNormal, Weibull, Gumbel, Laplace]
+        candidate_distributions = [
+            Beta.Beta(),
+            Gaussian.Gaussian(),
+            StudentT.StudentT(),
+            Gamma.Gamma(),
+            Cauchy.Cauchy(),
+            LogNormal.LogNormal(),
+            Weibull.Weibull(),
+            Gumbel.Gumbel(),
+            Laplace.Laplace(),
+        ]
 
         # Call the function
-        dist_df = univariate_dist_class().dist_select(
+        dist_df = du.dist_select(
             target, candidate_distributions, plot=False, max_iter=2
         ).reset_index(drop=True)
 
         # Assertions
         assert isinstance(dist_df, pd.DataFrame)
         assert not dist_df.isna().any().any()
         assert isinstance(dist_df["distribution"].values[0], str)
-        assert np.issubdtype(dist_df["nll"].dtype, np.float64)
-        assert not np.isnan(dist_df["nll"].values).any()
-        assert not np.isinf(dist_df["nll"].values).any()
+        assert np.issubdtype(dist_df["loss"].dtype, np.float64)
+        assert not np.isnan(dist_df["loss"].values).any()
+        assert not np.isinf(dist_df["loss"].values).any()
 
     def test_univar_dist_select_plot(self):
         # Create data for testing
         target = np.array([0.2, 0.4, 0.6, 0.8]).reshape(-1, 1)
-        candidate_distributions = [Beta, Gaussian, StudentT, Gamma, Cauchy, LogNormal, Weibull, Gumbel, Laplace]
+        candidate_distributions = [
+            Beta.Beta(),
+            Gaussian.Gaussian(),
+            StudentT.StudentT(),
+            Gamma.Gamma(),
+            Cauchy.Cauchy(),
+            LogNormal.LogNormal(),
+            Weibull.Weibull(),
+            Gumbel.Gumbel(),
+            Laplace.Laplace(),
+        ]
 
         # Call the function
-        dist_df = univariate_dist_class().dist_select(
+        dist_df = du.dist_select(
             target, candidate_distributions, plot=True, max_iter=2
         ).reset_index(drop=True)
 
         # Assertions
         assert isinstance(dist_df, pd.DataFrame)
         assert not dist_df.isna().any().any()
         assert isinstance(dist_df["distribution"].values[0], str)
-        assert np.issubdtype(dist_df["nll"].dtype, np.float64)
-        assert not np.isnan(dist_df["nll"].values).any()
-        assert not np.isinf(dist_df["nll"].values).any()
+        assert np.issubdtype(dist_df["loss"].dtype, np.float64)
+        assert not np.isnan(dist_df["loss"].values).any()
+        assert not np.isinf(dist_df["loss"].values).any()
 
     ####################################################################################################################
     # Normalizing Flows
@@ -71,14 +100,23 @@ def test_flow_select(self):
         target_support = "real"
 
         candidate_flows = [
-            SplineFlow(target_support=target_support, count_bins=2, bound=bound, order="linear"),
-            SplineFlow(target_support=target_support, count_bins=2, bound=bound, order="quadratic")
+            SplineFlow(
+                target_support=target_support, count_bins=2, bound=bound, order="linear"
+            ),
+            SplineFlow(
+                target_support=target_support,
+                count_bins=2,
+                bound=bound,
+                order="quadratic",
+            ),
         ]
 
         # Call the function
-        dist_df = flow_dist_class().flow_select(
-            target, candidate_flows, plot=False, max_iter=2
-        ).reset_index(drop=True)
+        dist_df = (
+            flow_dist_class()
+            .flow_select(target, candidate_flows, plot=False, max_iter=2)
+            .reset_index(drop=True)
+        )
 
         # Assertions
         assert isinstance(dist_df, pd.DataFrame)
@@ -95,14 +133,23 @@ def test_flow_select_plot(self):
         target_support = "real"
 
         candidate_flows = [
-            SplineFlow(target_support=target_support, count_bins=2, bound=bound, order="linear"),
-            SplineFlow(target_support=target_support, count_bins=2, bound=bound, order="quadratic")
+            SplineFlow(
+                target_support=target_support, count_bins=2, bound=bound, order="linear"
+            ),
+            SplineFlow(
+                target_support=target_support,
+                count_bins=2,
+                bound=bound,
+                order="quadratic",
+            ),
         ]
 
         # Call the function
-        dist_df = flow_dist_class().flow_select(
-            target, candidate_flows, plot=True, max_iter=2
-        ).reset_index(drop=True)
+        dist_df = (
+            flow_dist_class()
+            .flow_select(target, candidate_flows, plot=True, max_iter=2)
+            .reset_index(drop=True)
+        )
 
         # Assertions
         assert isinstance(dist_df, pd.DataFrame)
@@ -127,13 +174,15 @@ def test_mixture_dist_select(self):
             Mixture(LogNormal.LogNormal()),
             Mixture(Weibull.Weibull()),
             Mixture(Gumbel.Gumbel()),
-            Mixture(Laplace.Laplace())
+            Mixture(Laplace.Laplace()),
         ]
 
         # Call the function
-        dist_df = mixture_dist_class().dist_select(
-            target, candidate_distributions, plot=False, max_iter=2
-        ).reset_index(drop=True)
+        dist_df = (
+            mixture_dist_class()
+            .dist_select(target, candidate_distributions, plot=False, max_iter=2)
+            .reset_index(drop=True)
+        )
 
         # Assertions
         assert isinstance(dist_df, pd.DataFrame)
@@ -155,13 +204,15 @@ def test_mixture_dist_select_plot(self):
             Mixture(LogNormal.LogNormal()),
             Mixture(Weibull.Weibull()),
             Mixture(Gumbel.Gumbel()),
-            Mixture(Laplace.Laplace())
+            Mixture(Laplace.Laplace()),
         ]
 
         # Call the function
-        dist_df = mixture_dist_class().dist_select(
-            target, candidate_distributions, plot=True, max_iter=2
-        ).reset_index(drop=True)
+        dist_df = (
+            mixture_dist_class()
+            .dist_select(target, candidate_distributions, plot=True, max_iter=2)
+            .reset_index(drop=True)
+        )
 
         # Assertions
         assert isinstance(dist_df, pd.DataFrame)
@@ -179,16 +230,16 @@ def test_multivar_dist_select(self):
         multivar_dist_class = MVN()
         target = np.arange(0.1, 0.9, 0.1)
         target = multivar_dist_class.target_append(
-            target,
-            multivar_dist_class.n_targets,
-            multivar_dist_class.n_dist_param
-        )[:, :multivar_dist_class.n_targets]
+            target, multivar_dist_class.n_targets, multivar_dist_class.n_dist_param
+        )[:, : multivar_dist_class.n_targets]
         candidate_distributions = [MVN(), MVT(), MVN_LoRa()]
 
         # Call the function
-        dist_df = multivariate_dist_class().dist_select(
-            target, candidate_distributions, plot=False, max_iter=2
-        ).reset_index(drop=True)
+        dist_df = (
+            multivariate_dist_class()
+            .dist_select(target, candidate_distributions, plot=False, max_iter=2)
+            .reset_index(drop=True)
+        )
 
         # Assertions
         assert isinstance(dist_df, pd.DataFrame)
@@ -203,16 +254,16 @@ def test_multivar_dist_select_plot(self):
         multivar_dist_class = MVN()
         target = np.arange(0.1, 0.9, 0.1)
         target = multivar_dist_class.target_append(
-            target,
-            multivar_dist_class.n_targets,
-            multivar_dist_class.n_dist_param
-        )[:, :multivar_dist_class.n_targets]
+            target, multivar_dist_class.n_targets, multivar_dist_class.n_dist_param
+        )[:, : multivar_dist_class.n_targets]
         candidate_distributions = [MVN(), MVT(), MVN_LoRa()]
 
         # Call the function
-        dist_df = multivariate_dist_class().dist_select(
-            target, candidate_distributions, plot=True, ncol=1, max_iter=2
-        ).reset_index(drop=True)
+        dist_df = (
+            multivariate_dist_class()
+            .dist_select(target, candidate_distributions, plot=True, ncol=1, max_iter=2)
+            .reset_index(drop=True)
+        )
 
         # Assertions
         assert isinstance(dist_df, pd.DataFrame)