fix: look for 'e'/'p' to choose electronic standard number (TT-944) (#23

) * fix: Look for 'e'/'p' in ISXN context * move isxn keywords to labels.json
NationalLibraryOfNorway · Mar 8, 2024 · 0655456 · 0655456
1 parent e10414b
commit 0655456
Show file tree

Hide file tree

Showing 3 changed files with 22 additions and 11 deletions.
diff --git a/metadata_extract/data/txt/labels.json b/metadata_extract/data/txt/labels.json
@@ -5,22 +5,28 @@
     "publisher": ["published by", "publisher"],
     "reportType": ["annual report", "evaluation", "guidance", "survey"],
     "bindingWords": ["and"],
-    "report": ["report"]
+    "report": ["report"],
+    "e_isxn": ["digital", "pdf", "web"],
+    "p_isxn": ["paper", "print"]
   },
   "nob": {
     "author": ["forfatter(e)", "forfattere", "forfatter", "skrevet av"],
     "photo": ["fotograf", "foto", "illustrasjon", "bilde", "fotomontasje"],
     "publisher": ["utgiver", "utgivere", "utgitt av"],
     "reportType": ["årsrapport", "evaluering", "veileder", "undersøkelse"],
     "bindingWords": ["og"],
-    "report": ["rapport"]
+    "report": ["rapport"],
+    "e_isxn": ["digital", "pdf", "elektroni", "net", "web"],
+    "p_isxn": ["papir", "tryk"]
   },
   "nno": {
     "author": ["forfattar(ar)", "forfattarar", "forfattar", "skrive av"],
     "photo": ["fotograf", "foto", "illustrasjon", "bilete", "fotomontasje"],
     "publisher": ["utgjevar", "utgjevarar", "utgivar", "utgivarar", "gitt ut av"],
     "reportType": ["årsrapport", "evaluering", "rettleiar", "undersøking"],
     "bindingWords": ["og"],
-    "report": ["rapport"]
+    "report": ["rapport"],
+    "e_isxn": ["digital", "pdf", "elektroni", "net", "web"],
+    "p_isxn": ["papir", "tryk"]
   }
-}
+}
diff --git a/metadata_extract/metadata.py b/metadata_extract/metadata.py
@@ -89,13 +89,7 @@ def choose_isxn(self, identifier: str) -> Optional[CandidateType]:
         isxn_values = {}
         for isxn in self.candidates[identifier]:
             if isxn.value not in isxn_values:
-                isxn_values[isxn.value] = 0
-            for word in ['digital', 'pdf', 'elektroni', 'net', 'web']:
-                if isxn.context and word in isxn.context:
-                    isxn_values[isxn.value] += 1
-            for word in ['paper', 'papir', 'tryk']:
-                if isxn.context and word in isxn.context:
-                    isxn_values[isxn.value] -= 1
+                isxn_values[isxn.value] = text.score_isxn_context(isxn.context)
 
         sorted_dict = sorted(isxn_values.items(), key=lambda x: -x[1])
         for k in sorted_dict:

diff --git a/metadata_extract/text.py b/metadata_extract/text.py
@@ -169,3 +169,14 @@ def substitute_non_alphanumeric(text: str) -> str:
 
 def has_non_author_keywords(text: str) -> bool:
     return bool(regex.search(photograph_label(), text))
+
+
+def score_isxn_context(context: Optional[str]) -> int:
+    if not context:
+        return 0
+    score = 0
+    e_matches = regex.findall(fr'{__labels()["e_isxn"]}|\be\b', context)
+    score += len(e_matches)
+    p_matches = regex.findall(fr'{__labels()["p_isxn"]}|\bp\b', context)
+    score -= len(p_matches)
+    return score