Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Add stepwise model selection #31

Merged

Conversation

slambrechts
Copy link
Collaborator

Poging toevoegen stepwise model selection om te testen welke fysicochemische variabelen best de voorspelde soortenrijkdom (observed) voorspellen samen met read count, landgebruikstype, diepte, en de interactie tussen landgebruik en diepte (basis model)

Resultaten

Condition Sum of weights N containing models
cond(Diepte) 1 384
cond(Landgebruik_MBAG) 1 384
cond(log(total_count)) 1 320
cond(Diepte:Landgebruik_MBAG) 1 128
cond(BD) 1 320
cond(SWCvol) 0.95 320
cond(C_N_stockbased) 0.88 320
cond(pH_KCl) 0.79 320
cond(mv_mTAW) 0.34 320
cond(Cdensity) 0.34 320

Bovenop de variabelen uit het basismodel (Diepte, Landgebruik_MBAG, log(total_count), Diepte:Landgebruik_MBAG), wordt bulkdensiteit (BD) consistent geselecteerd in bijna alle modellen, wat erop wijst dat het waarschijnlijk cruciaal is voor het voorspellen van soortenrijkdom? Bulkdensiteit (BD) behouden in het model, tenzij het problemen met multicollineariteit veroorzaakt?

SWCvol, C_N_stockbased en pH_KCl lijken belangrijk te zijn, maar iets minder cruciaal in vergelijking met de verklarende variabelen uit het basismodel en bulkdensiteit? Deze variabelen behouden in het model?

mv_mTAW en Cdensity lijken op basis van deze resultaten minder goede verklarende variabelen te zijn, omdat ze een relatief lage invloed hebben op de modelresultaten. Deze variabelen verwijderen uit het model?

Volgende stappen

Model verfijnen?

  1. Verwijderen variabelen met lage importance (Som of weights), model opnieuw runnen en prestatie van het aangepaste model vergelijken met het base model en full model?
  2. check model, summary, anova, en plot predictions voor het finale model na verwijderen minder goed verklarende variabelen

…landgebruik, met en zonder interactie met diepte
…emische variabelen best de voorspelde soortenrijkdom (observed) voorspellen samen met read count, landgebruikstype en diepte (basis model)
@slambrechts
Copy link
Collaborator Author

@hansvancalster bedankt voor de aanpassingen. Kunnen we deze dan ook mergen of nog niet?

@hansvancalster
Copy link
Collaborator

@hansvancalster bedankt voor de aanpassingen. Kunnen we deze dan ook mergen of nog niet?
Ja ik zal het dadelijk doen

@hansvancalster hansvancalster merged commit c5b1b92 into main Dec 2, 2024
1 check failed
@hansvancalster hansvancalster deleted the add_SWCvol_Cdensity_etc_to_model_observed_richness branch December 2, 2024 12:15
@slambrechts
Copy link
Collaborator Author

@hansvancalster ik besef dat voor Olig01 en Coll01 hier nog de input data gebruikt wordt waar OTUs van eenzelfde soort zijn samengevoegd voor de OTUs die we op naam hebben kunnen brengen op soortniveau. Bij nader inzien lijkt dat niet ideaal, want als er bijvoorbeeld een categorie is waar meer gekende soorten zijn gedetecteerd (e.g. natuurgrasland) dan in andere LU categoriën, dan worden deze samengevoegd, terwijl de OTUs die we niet tot op soortniveau op naam hebben kunnen brengen apart worden geteld, waardoor de overall species richness count voor deze LU categorie naar beneden gaat tov de categoriën waar (eventueel) minder gekende soorten gedetecteerd zijn.

Ik weet niet of je de html al hebt gereknit, maar we zullen dus de data in

G:/Gedeelde drives/PRJ_MBAG/4c_bodembiodiversiteit/data/statistiek/dataframe_overkoepelend/mbag_combined_dataframe_v2.csv

updaten voor Olig01 en Coll01

@slambrechts
Copy link
Collaborator Author

@hansvancalster ik besef dat voor Olig01 en Coll01 hier nog de input data gebruikt wordt waar OTUs van eenzelfde soort zijn samengevoegd voor de OTUs die we op naam hebben kunnen brengen op soortniveau. Bij nader inzien lijkt dat niet ideaal, want als er bijvoorbeeld een categorie is waar meer gekende soorten zijn gedetecteerd (e.g. natuurgrasland) dan in andere LU categoriën, dan worden deze samengevoegd, terwijl de OTUs die we niet tot op soortniveau op naam hebben kunnen brengen apart worden geteld, waardoor de overall species richness count voor deze LU categorie naar beneden gaat tov de categoriën waar (eventueel) minder gekende soorten gedetecteerd zijn.

Ik weet niet of je de html al hebt gereknit, maar we zullen dus de data in

G:/Gedeelde drives/PRJ_MBAG/4c_bodembiodiversiteit/data/statistiek/dataframe_overkoepelend/mbag_combined_dataframe_v2.csv

updaten voor Olig01 en Coll01

opgelost

+ swc_vol
+ c_density
+ cn_stockbased
+ swc_vol
Copy link
Collaborator Author

@slambrechts slambrechts Dec 3, 2024

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

@hansvancalster waarom zit swc_vol hier 2 keer in het extended / full model? Of is dat een foutje?

Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

dat lijkt me een foutje

Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

wel eentje dat geen gevolgen zal hebben vermoedelijk

Copy link
Collaborator Author

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

wel eentje dat geen gevolgen zal hebben vermoedelijk

Dit lijkt te kloppen, ik zie in de output na #41 voorlopig geen verschil

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants