PaddlePaddle · huohuohuohuohuo123 · Jan 8, 2024 · Jan 10, 2024 · Jan 10, 2024 · Jan 11, 2024
diff --git a/.gitattributes b/.gitattributes
diff --git a/examples/MLP b/examples/MLP
diff --git a/examples/ML_Pipeline b/examples/ML_Pipeline
diff --git a/jointContribution/graphcast/data/graphcast-jax2paddle.csv b/jointContribution/graphcast/data/graphcast-jax2paddle.csv
@@ -1,3 +1,8 @@
+<<<<<<< HEAD
+version https://git-lfs.github.com/spec/v1
+oid sha256:7469d94c41fe78478147424b8b61e44681540f3123e1b6a62d14ede3dca82b08
+size 36663
+=======
 params:grid2mesh_gnn/~_networks_builder/encoder_edges_grid2mesh_layer_norm:offset,graphcast.encoder.embedding.grid2mesh_edge_embedding.layer_norm.bias
 params:grid2mesh_gnn/~_networks_builder/encoder_edges_grid2mesh_layer_norm:scale,graphcast.encoder.embedding.grid2mesh_edge_embedding.layer_norm.weight
 params:grid2mesh_gnn/~_networks_builder/encoder_edges_grid2mesh_mlp/~/linear_0:b,graphcast.encoder.embedding.grid2mesh_edge_embedding.mlp.0.bias
@@ -259,4 +264,5 @@ params:mesh_gnn/~_networks_builder/processor_nodes_15_mesh_nodes_layer_norm:scal
 params:mesh_gnn/~_networks_builder/processor_nodes_15_mesh_nodes_mlp/~/linear_0:b,graphcast.processor.processor.15.node_layer.mlp.0.bias
 params:mesh_gnn/~_networks_builder/processor_nodes_15_mesh_nodes_mlp/~/linear_0:w,graphcast.processor.processor.15.node_layer.mlp.0.weight
 params:mesh_gnn/~_networks_builder/processor_nodes_15_mesh_nodes_mlp/~/linear_1:b,graphcast.processor.processor.15.node_layer.mlp.2.bias
-params:mesh_gnn/~_networks_builder/processor_nodes_15_mesh_nodes_mlp/~/linear_1:w,graphcast.processor.processor.15.node_layer.mlp.2.weight
+params:mesh_gnn/~_networks_builder/processor_nodes_15_mesh_nodes_mlp/~/linear_1:w,graphcast.processor.processor.15.node_layer.mlp.2.weight
+>>>>>>> upstream/develop
diff --git a/ppsci/arch/MLPModel.py b/ppsci/arch/MLPModel.py
@@ -0,0 +1,133 @@
+from ppsci.arch import base
+import tensorflow as tf
+from tensorflow import keras
+from sklearn.decomposition import PCA
+from sklearn.preprocessing import MinMaxScaler
+import pandas as pd
+import numpy as np
+import matplotlib.pyplot as plt
+import functools
+import csv
+import math
+import os
+
+class MLPModel(base.Arch):
+    def __init__(self, input_shape, learning_rate, nodes1, nodes2, nodes3, dropout_rate1, dropout_rate2, dropout_rate3):
+        super(MLPModel, self).__init__()
+        self.model = keras.Sequential([
+            keras.layers.Input(shape=input_shape),
+            keras.layers.Dense(nodes1, activation="relu"),
+            keras.layers.Dropout(dropout_rate1),
+            keras.layers.Dense(nodes2, activation="relu"),
+            keras.layers.Dropout(dropout_rate2),
+            keras.layers.Dense(nodes3, activation="relu"),
+            keras.layers.Dropout(dropout_rate3),
+            keras.layers.Dense(3, activation="sigmoid"),
+        ])
+        self.model.compile(
+            optimizer=keras.optimizers.RMSprop(
+                learning_rate=learning_rate, momentum=0.9, centered=True
+            ),
+            loss="mse",
+        )
+
+    def forward(self, x):
+        return self.model(x)
+
+    def train(self, x_train, y_train, x_test, y_test, epochs=1000):
+        history = self.model.fit(
+            x_train, y_train, epochs=epochs, validation_data=(x_test, y_test), verbose=0
+        )
+        self.visualize_loss(history, "Training and Validation Loss")
+
+    def visualize_loss(self, history, title):
+        loss = history.history["loss"]
+        val_loss = history.history["val_loss"]
+        epochs = range(len(loss))
+        plt.figure(figsize=(6, 4))
+        plt.plot(epochs, loss, "b", label="Training loss")
+        plt.plot(epochs, val_loss, "r", label="Validation loss")
+        plt.title(title)
+        plt.xlabel("Epochs")
+        plt.ylabel("Loss")
+        plt.legend()
+        plt.show(block=False)  # 不阻塞程序的执行
+
+    def evaluate(self, x_test, y_test):
+        loss = self.model.evaluate(x_test, y_test)
+        return loss
+
+# 数据预处理和模型训练示例代码
+filePath = "C:/Users/ssm18/new0811/PaddleScience/ppsci/data/dataset/MP_data_down_loading(train+validate).csv"
+
+df = pd.read_csv(filePath, header=0)
+
+# 数据处理部分
+df_charge_space_group_number = pd.get_dummies(df["charge_space_group_number"], prefix="charge_space_group_number")
+df = df.join(df_charge_space_group_number)
+df_discharge_space_group_number = pd.get_dummies(df["discharge_space_group_number"], prefix="discharge_space_group_number")
+df = df.join(df_discharge_space_group_number)
+
+df = df.drop(
+    [
+        "battery_id",
+        "battery_formula",
+        "framework_formula",
+        "adj_pairs",
+        "capacity_vol",
+        "energy_vol",
+        "formula_charge",
+        "formula_discharge",
+        "id_charge",
+        "id_discharge",
+        "working_ion",
+        "num_steps",
+        "stability_charge",
+        "stability_discharge",
+        "charge_crystal_system",
+        "charge_energy_per_atom",
+        "charge_formation_energy_per_atom",
+        "charge_band_gap",
+        "charge_efermi",
+        "discharge_crystal_system",
+        "discharge_energy_per_atom",
+        "discharge_formation_energy_per_atom",
+        "discharge_band_gap",
+        "discharge_efermi",
+    ],
+    axis=1,
+)
+
+x_df = df.drop(["average_voltage", "capacity_grav", "energy_grav"], axis=1)
+y_df = df[["average_voltage", "capacity_grav", "energy_grav"]]
+
+pca = PCA(0.99)
+x_df = pca.fit_transform(x_df)
+x_df = pd.DataFrame(x_df)
+
+min_max_scaler = MinMaxScaler()
+x_df.columns = x_df.columns.astype(str)
+x_df = min_max_scaler.fit_transform(x_df)
+
+y_min = y_df.min()
+y_max = y_df.max()
+y_df = (y_df - y_min) / (y_max - y_min)
+
+len_train_test = int(tuple(x_df.shape)[0] * 0.9)
+x_train, x_test = x_df[:len_train_test], x_df[len_train_test:]
+y_train, y_test = y_df[:len_train_test], y_df[len_train_test:]
+
+# 初始化并训练模型
+model = MLPModel(
+    input_shape=(tuple(x_train.shape)[1],),
+    learning_rate=0.0001,
+    nodes1=40,
+    nodes2=30,
+    nodes3=15,
+    dropout_rate1=0.2,
+    dropout_rate2=0.2,
+    dropout_rate3=0.2
+)
+
+model.train(x_train, y_train, x_test, y_test, epochs=1000)
+model.evaluate(x_test, y_test)
diff --git a/ppsci/arch/__init__.py b/ppsci/arch/__init__.py
@@ -53,6 +53,9 @@
 from ppsci.arch.vae import AutoEncoder  # isort:skip
 from ppsci.utils import logger  # isort:skip
 
+from ppsci.arch.xg_optuna import MyPaddleScienceXGBoostModel
+from .xg_optuna import MyPaddleScienceXGBoostModel
+from .MLPModel import MLPModel
 
 __all__ = [
     "AFNONet",
@@ -93,6 +96,10 @@
     "UNetEx",
     "UNONet",
     "USCNN",
+
+    "MyPaddleScienceXGBoostModel",
+    "MLPModel",
+
 ]
 
 

diff --git a/ppsci/arch/data/predictions/XG/test_pred_xg.csv b/ppsci/arch/data/predictions/XG/test_pred_xg.csv
diff --git a/ppsci/arch/data/predictions/XG/test_true_xg.csv b/ppsci/arch/data/predictions/XG/test_true_xg.csv
diff --git a/ppsci/arch/xg_optuna.py b/ppsci/arch/xg_optuna.py
@@ -0,0 +1,134 @@
+import paddle
+# 导入必要的模块
+import optuna
+import pandas as pd
+import numpy as np
+from xgboost import XGBRegressor
+from sklearn.metrics import mean_squared_error, mean_absolute_percentage_error, r2_score
+import warnings
+from pathlib import Path
+from sklearn.model_selection import train_test_split
+
+warnings.filterwarnings("ignore")
+OUTPUT_TEST = True
+
+# 获取当前脚本所在目录
+current_dir = Path(__file__).resolve().parent
+
+# 构建数据文件的完整路径
+X_train_path = "C:/Users/ssm18/new0811/PaddleScience/examples/ML_Pipeline/data/data/cleaned/training.csv"
+y_train_path = "C:/Users/ssm18/new0811/PaddleScience/examples/ML_Pipeline/data/data/cleaned/training_labels.csv"
+X_val_path = "C:/Users/ssm18/new0811/PaddleScience/examples/ML_Pipeline/data/data/cleaned/validation.csv"
+y_val_path = "C:/Users/ssm18/new0811/PaddleScience/examples/ML_Pipeline/data/data/cleaned/validation_labels.csv"
+X_test_path = "C:/Users/ssm18/new0811/PaddleScience/examples/ML_Pipeline/data/data/cleaned/test.csv"
+y_test_path = "C:/Users/ssm18/new0811/PaddleScience/examples/ML_Pipeline/data/data/cleaned/test_labels.csv"
+
+import os
+
+print("X_train_path exists:", os.path.exists(X_train_path))
+
+# 读取数据并处理
+X_train = pd.read_csv(X_train_path)
+y_train = pd.read_csv(y_train_path)
+X_val = pd.read_csv(X_val_path)
+y_val = pd.read_csv(y_val_path)
+
+columns = X_train.columns
+for col in columns:
+    if "[" in col or "]" in col:
+        old_name = col
+        col = col.replace("[", "(")
+        col = col.replace("]", ")")
+        X_train = X_train.rename(columns={old_name: col})
+        X_val = X_val.rename(columns={old_name: col})
+
+X_train, X_verif, y_train, y_verif = train_test_split(
+    X_train, y_train, test_size=0.1, random_state=42
+)
+X_train = X_train.reset_index(drop=True)
+y_train = y_train.reset_index(drop=True)
+X_verif = X_verif.reset_index(drop=True)
+y_verif = y_verif.reset_index(drop=True)
+X_val = X_val.reset_index(drop=True)
+y_val = y_val.reset_index(drop=True)
+
+# 使用 Optuna 进行超参数优化
+def objective(trial):
+    params = {
+        "max_depth": trial.suggest_int("max_depth", 1, 15),
+        "learning_rate": trial.suggest_loguniform("learning_rate", 0.01, 1.0),
+        "n_estimators": trial.suggest_int("n_estimators", 50, 1000),
+        "min_child_weight": trial.suggest_int("min_child_weight", 1, 10),
+        "gamma": trial.suggest_loguniform("gamma", 1e-08, 1.0),
+        "subsample": trial.suggest_loguniform("subsample", 0.5, 0.9),
+        "colsample_bytree": trial.suggest_loguniform("colsample_bytree", 0.5, 0.9),
+    }
+    params["tree_method"] = "hist"
+    optuna_model = XGBRegressor(**params)
+    optuna_model.fit(X_train, y_train)
+    verif_pred = optuna_model.predict(X_verif)
+    verif_loss = mean_absolute_percentage_error(y_verif, verif_pred) * 100
+    verif_error = mean_squared_error(y_verif, verif_pred, squared=False)
+    error = verif_loss + verif_error
+    return error
+
+# 开始超参数优化
+sampler = optuna.samplers.CmaEsSampler()
+study = optuna.create_study(sampler=sampler)
+study.optimize(objective, n_trials=50)
+
+# 获取最佳参数
+best_params = study.best_trial.params
+print("Best trial:")
+print("  Value: ", study.best_trial.value)
+print("  Params: ")
+for key, value in best_params.items():
+    print(f"    {key}: {value}")
+
+# 使用最佳参数初始化 XGBoost 模型
+model = XGBRegressor(**best_params)
+model.fit(X_train, y_train)
+
+# 预测验证集
+val_preds = model.predict(X_val)
+val_loss = mean_squared_error(y_val, val_preds, squared=False)
+print(f"Validation RMSE: {val_loss}")
+
+# 加载测试数据
+X_test = pd.read_csv(X_test_path)
+y_test = pd.read_csv(y_test_path)
+# 对测试数据进行相同的列名处理，确保特征名称一致
+columns_test = X_test.columns
+for col in columns_test:
+    if "[" in col or "]" in col:
+        old_name = col
+        col = col.replace("[", "(")
+        col = col.replace("]", ")")
+        X_test = X_test.rename(columns={old_name: col})
+
+# 检查是否与训练集的列一致
+X_test = X_test[X_train.columns]
+
+# 将测试数据转换为 Paddle Tensor
+test_inputs = {"x": paddle.to_tensor(X_test.values).astype("float32")}
+test_labels = {"y": paddle.to_tensor(y_test.values).astype("float32")}
+# 使用模型预测测试集
+test_preds = model.predict(X_test)
+
+# 计算测试集上的评估指标
+test_rmse = mean_squared_error(y_test, test_preds, squared=False)
+test_r2 = r2_score(y_test, test_preds)
+adjusted_percent_error = test_rmse / y_test.mean() * 100
+
+# 打印测试集结果
+print(f"Test RMSE: {test_rmse}")
+print(f"Test R2 Score: {test_r2}")
+print(f"Adjusted Percent Error: {adjusted_percent_error}")
+
+# 保存预测结果
+predictions_dir = current_dir / "data" / "predictions" / "XG"
+predictions_dir.mkdir(parents=True, exist_ok=True)
+
+# 保存预测和真实值
+pd.DataFrame(test_preds).to_csv(predictions_dir / "test_pred_xg.csv", index=False, header=False)
+pd.DataFrame(y_test).to_csv(predictions_dir / "test_true_xg.csv", index=False, header=False)