mlcommons · monke6942021 · Feb 8, 2024 · Sep 14, 2023 · Sep 14, 2023 · Sep 14, 2023
@@ -46,6 +46,7 @@
 SCHEMA_ORG_CONTENT_SIZE = namespace.SDO.contentSize
 SCHEMA_ORG_CONTENT_URL = namespace.SDO.contentUrl
 SCHEMA_ORG_DATASET = namespace.SDO.Dataset
+SCHEMA_ORG_DATA_TYPE_AUDIO_OBJECT = namespace.SDO.AudioObject
 SCHEMA_ORG_DATA_TYPE_BOOL = namespace.SDO.Boolean
 SCHEMA_ORG_DATA_TYPE_DATE = namespace.SDO.Date
 SCHEMA_ORG_DATA_TYPE_FLOAT = namespace.SDO.Float

diff --git a/python/mlcroissant/mlcroissant/_src/core/data_types.py b/python/mlcroissant/mlcroissant/_src/core/data_types.py
@@ -28,6 +28,9 @@ def check_expected_type(issues: Issues, jsonld: Json, expected_type: str):
     constants.SCHEMA_ORG_DATA_TYPE_IMAGE_OBJECT: (
         constants.SCHEMA_ORG_DATA_TYPE_IMAGE_OBJECT
     ),
+    constants.SCHEMA_ORG_DATA_TYPE_AUDIO_OBJECT: (
+        constants.SCHEMA_ORG_DATA_TYPE_AUDIO_OBJECT
+    ),
     constants.SCHEMA_ORG_DATA_TYPE_INTEGER: int,
     constants.SCHEMA_ORG_DATA_TYPE_TEXT: str,
     constants.SCHEMA_ORG_DATA_TYPE_URL: str,

@@ -7,6 +7,8 @@
 from etils import epath
 import pandas as pd
 
+import librosa
+
 from mlcroissant._src.core import constants
 from mlcroissant._src.core.optional import deps
 from mlcroissant._src.operation_graph.base_operation import Operation
@@ -27,6 +29,8 @@ def _cast_value(self, value: Any):
             return value
         elif data_type == constants.SCHEMA_ORG_DATA_TYPE_IMAGE_OBJECT:
             return deps.PIL_Image.open(io.BytesIO(value))
+        elif data_type == constants.SCHEMA_ORG_DATA_TYPE_AUDIO_OBJECT:
+            return librosa.load(io.BytesIO(value))
         elif data_type == pd.Timestamp:
             # The date format is the first format found in the field's source.
             format = next(

diff --git a/requirements.txt b/requirements.txt
@@ -0,0 +1,27 @@
+absl-py==1.4.0
+certifi==2023.7.22
+charset-normalizer==3.2.0
+decorator==5.1.1
+etils==1.4.1
+idna==3.4
+importlib-resources==6.0.1
+isodate==0.6.1
+jsonpath-rw==1.4.0
+networkx==3.1
+numpy==1.25.2
+pandas==2.1.0
+pip==22.0.2
+ply==3.11
+pygraphviz==1.11
+pyparsing==3.1.1
+python-dateutil==2.8.2
+pytz==2023.3.post1
+rdflib==7.0.0
+requests==2.31.0
+setuptools==59.6.0
+six==1.16.0
+toml==0.10.2
+tqdm==4.66.1
+typing_extensions==4.7.1
+tzdata==2023.3
+urllib3==2.0.4