huggingface · D4ve-R · Jun 20, 2024 · Jun 20, 2024 · Jun 20, 2024 · Jun 20, 2024
diff --git a/src/transformers/__init__.py b/src/transformers/__init__.py
@@ -423,6 +423,10 @@
         "FlavaMultimodalConfig",
         "FlavaTextConfig",
     ],
+    "models.florence2": [
+        "Florence2Config",
+        "Florence2VisionConfig",
+    ],
     "models.fnet": ["FNetConfig"],
     "models.focalnet": ["FocalNetConfig"],
     "models.fsmt": [
@@ -1130,6 +1134,7 @@
     _import_structure["models.dpt"].extend(["DPTFeatureExtractor", "DPTImageProcessor"])
     _import_structure["models.efficientnet"].append("EfficientNetImageProcessor")
     _import_structure["models.flava"].extend(["FlavaFeatureExtractor", "FlavaImageProcessor", "FlavaProcessor"])
+    _import_structure["models.florence2"].extend(["Florence2Processor"])
     _import_structure["models.fuyu"].extend(["FuyuImageProcessor", "FuyuProcessor"])
     _import_structure["models.glpn"].extend(["GLPNFeatureExtractor", "GLPNImageProcessor"])
     _import_structure["models.grounding_dino"].extend(["GroundingDinoImageProcessor"])
@@ -2119,6 +2124,14 @@
             "FlavaTextModel",
         ]
     )
+    _import_structure["models.florence2"].extend(
+        [
+            "Florence2ForConditionalGeneration",
+            "Florence2PreTrainedModel",
+            "Florence2VisionModel",
+            "Florence2VisionModelWithProjection",
+        ]
+    )
     _import_structure["models.fnet"].extend(
         [
             "FNetForMaskedLM",
@@ -5013,6 +5026,10 @@
         FlavaMultimodalConfig,
         FlavaTextConfig,
     )
+    from .models.florence2 import (
+        Florence2Config,
+        Florence2VisionConfig,
+    )
     from .models.fnet import FNetConfig
     from .models.focalnet import FocalNetConfig
     from .models.fsmt import (
@@ -5751,6 +5768,7 @@
             FlavaImageProcessor,
             FlavaProcessor,
         )
+        from .models.florence2 import Florence2Processor
         from .models.fuyu import FuyuImageProcessor, FuyuProcessor
         from .models.glpn import GLPNFeatureExtractor, GLPNImageProcessor
         from .models.grounding_dino import GroundingDinoImageProcessor
@@ -6593,6 +6611,12 @@
             FlavaPreTrainedModel,
             FlavaTextModel,
         )
+        from .models.florence2 import (
+            Florence2ForConditionalGeneration,
+            Florence2PreTrainedModel,
+            Florence2VisionModel,
+            Florence2VisionModelWithProjection,
+        )
         from .models.fnet import (
             FNetForMaskedLM,
             FNetForMultipleChoice,

diff --git a/src/transformers/models/__init__.py b/src/transformers/models/__init__.py
@@ -86,6 +86,7 @@
     fastspeech2_conformer,
     flaubert,
     flava,
+    florence2,
     fnet,
     focalnet,
     fsmt,

diff --git a/src/transformers/models/florence2/__init__.py b/src/transformers/models/florence2/__init__.py
@@ -0,0 +1,84 @@
+# Copyright 2024 The HuggingFace Team. All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from typing import TYPE_CHECKING
+
+from ...utils import (
+    OptionalDependencyNotAvailable,
+    _LazyModule,
+    is_torch_available,
+    is_vision_available,
+)
+
+
+_import_structure = {
+    "configuration_florence2": [
+        "Florence2Config",
+        "Florence2VisionConfig",
+    ],
+}
+
+try:
+    if not is_vision_available():
+        raise OptionalDependencyNotAvailable()
+except OptionalDependencyNotAvailable:
+    pass
+else:
+    _import_structure["processing_florence2"] = ["Florence2Processor"]
+
+
+try:
+    if not is_torch_available():
+        raise OptionalDependencyNotAvailable()
+except OptionalDependencyNotAvailable:
+    pass
+else:
+    _import_structure["modeling_florence2"] = [
+        "Florence2ForConditionalGeneration",
+        "Florence2PreTrainedModel",
+        "Florence2VisionModel",
+        "Florence2VisionModelWithProjection",
+    ]
+
+
+if TYPE_CHECKING:
+    from .configuration_florence2 import (
+        Florence2Config,
+        Florence2VisionConfig,
+    )
+
+    try:
+        if not is_vision_available():
+            raise OptionalDependencyNotAvailable()
+    except OptionalDependencyNotAvailable:
+        pass
+    else:
+        from .processing_florence2 import Florence2Processor
+
+    try:
+        if not is_torch_available():
+            raise OptionalDependencyNotAvailable()
+    except OptionalDependencyNotAvailable:
+        pass
+    else:
+        from .modeling_florence2 import (
+            Florence2ForConditionalGeneration,
+            Florence2PreTrainedModel,
+            Florence2VisionModel,
+            Florence2VisionModelWithProjection,
+        )
+
+else:
+    import sys
+
+    sys.modules[__name__] = _LazyModule(__name__, globals()["__file__"], _import_structure)