SEACrowd · SamuelCahyawijaya · Jan 9, 2024 · Jan 6, 2024 · Jan 6, 2024 · Jan 7, 2024
@@ -5,6 +5,7 @@
 from seacrowd.utils.schemas import (
     image_text_features,
     kb_features,
+    tree_features,
     pairs_features,
     pairs_features_score,
     pairs_multi_features,
@@ -45,6 +46,9 @@ class Tasks(Enum):
     COREFERENCE_RESOLUTION = "COREF"
     SPAN_BASED_ABSA = "SPAN_ABSA"
 
+    # Tree
+    CONSTITUENCY_PARSING = "CONST_PAR"
+
     # Single Text Classification
     ASPECT_BASED_SENTIMENT_ANALYSIS = "ABSA"
     EMOTION_CLASSIFICATION = "EC"
@@ -202,6 +206,7 @@ class Licenses(Enum):
 
 TASK_TO_SCHEMA = {
     Tasks.DEPENDENCY_PARSING: "KB",
+    Tasks.CONSTITUENCY_PARSING: "TREE",
     Tasks.WORD_SENSE_DISAMBIGUATION: "T2T",
     Tasks.WORD_ANALOGY: "T2T",
     Tasks.KEYWORD_EXTRACTION: "SEQ_LABEL",
@@ -268,6 +273,7 @@ class Licenses(Enum):
 
 SCHEMA_TO_FEATURES = {
     "KB": kb_features,
+    "TREE": tree_features,
     "QA": qa_features,
     "T2T": text2text_features,
     "TEXT": text_features(),

@@ -1,5 +1,6 @@
 from .image_text import features as image_text_features
 from .kb import features as kb_features
+from .tree import features as tree_features
 from .pairs import features as pairs_features
 from .pairs import features_with_continuous_label as pairs_features_score
 from .pairs_multilabel import features as pairs_multi_features
@@ -19,6 +20,7 @@
 __all__ = [
     "image_text_features",
     "kb_features",
+    "tree_features",
     "pairs_features",
     "pairs_features_score",
     "pairs_multi_features",

@@ -0,0 +1,35 @@
+"""
+Tree Schema
+
+This schema assumes a document with subnodes elements
+and a tree hierarchy.
+
+For example:
+            NODE1    .....
+        //
+ROOT    -   NODE2    .....
+        \\
+            NODE3    .....
+"""
+import datasets
+
+features = datasets.Features(
+    {
+        "id": datasets.Value("string"),
+        "passage": {
+            "id": datasets.Value("string"),
+            "type": datasets.Value("string"),
+            "text": datasets.Sequence(datasets.Value("string")),
+            "offsets": datasets.Sequence(datasets.Value("int32")),
+        },
+        "nodes": [
+            {
+                "id": datasets.Value("string"),
+                "type": datasets.Value("string"),
+                "text": datasets.Value("string"),
+                "offsets": datasets.Sequence(datasets.Value("int32")),
+                "subnodes": datasets.Sequence(datasets.Value("string")),  # ids of subnodes
+            }
+        ],
+    }
+)