neurobagel · rmanaem · Oct 9, 2024 · Oct 1, 2024 · Oct 1, 2024 · Oct 1, 2024
diff --git a/app/api/crud.py b/app/api/crud.py
@@ -100,6 +100,8 @@ async def get(
     min_num_phenotypic_sessions: int,
     assessment: str,
     image_modal: str,
+    pipeline_version: str,
+    pipeline_name: str,
 ) -> list[CohortQueryResponse]:
     """
     Sends SPARQL queries to the graph API via httpx POST requests for subject-session or dataset metadata
@@ -125,6 +127,10 @@ async def get(
         Non-imaging assessment completed by subjects.
     image_modal : str
         Imaging modality of subject scans.
+    pipeline_version : str
+        Pipeline version of subject scans.
+    pipeline_name : str
+        Pipeline name of subject scans.
 
     Returns
     -------
@@ -142,6 +148,8 @@ async def get(
             min_num_imaging_sessions=min_num_imaging_sessions,
             assessment=assessment,
             image_modal=image_modal,
+            pipeline_version=pipeline_version,
+            pipeline_name=pipeline_name,
         )
     )
 
@@ -184,6 +192,8 @@ async def get(
                             "subject_group": "first",
                             "assessment": lambda x: list(x.unique()),
                             "image_modal": lambda x: list(x.unique()),
+                            "pipeline_version": lambda x: list(x.unique()),
+                            "pipeline_name": lambda x: list(x.unique()),
                             "session_file_path": "first",
                         }
                     )
@@ -224,6 +234,16 @@ async def get(
                             group["image_modal"].notna()
                         ].unique()
                     ),
+                    pipeline_version=list(
+                        group["pipeline_version"][
+                            group["pipeline_version"].notna()
+                        ].unique()
+                    ),
+                    pipeline_name=list(
+                        group["pipeline_name"][
+                            group["pipeline_name"].notna()
+                        ].unique()
+                    ),
                 )
             )
 

diff --git a/app/api/models.py b/app/api/models.py
@@ -8,6 +8,7 @@
 from pydantic import BaseModel, constr, root_validator
 
 CONTROLLED_TERM_REGEX = r"^[a-zA-Z]+[:]\S+$"
+VERSION_REGEX = r"^\d+\.\d+\.\d+$"
 
 
 class QueryModel(BaseModel):
@@ -22,6 +23,8 @@ class QueryModel(BaseModel):
     min_num_phenotypic_sessions: int = Query(default=None, ge=0)
     assessment: constr(regex=CONTROLLED_TERM_REGEX) = None
     image_modal: constr(regex=CONTROLLED_TERM_REGEX) = None
+    pipeline_version: constr(regex=VERSION_REGEX) = None
+    pipeline_name: constr(regex=CONTROLLED_TERM_REGEX) = None
 
     @root_validator()
     def check_maxage_ge_minage(cls, values):
@@ -67,6 +70,8 @@ class SessionResponse(BaseModel):
     assessment: list
     image_modal: list
     session_file_path: Optional[str]
+    pipeline_version: list
+    pipeline_name: list
 
 
 class CohortQueryResponse(BaseModel):
@@ -81,6 +86,8 @@ class CohortQueryResponse(BaseModel):
     num_matching_subjects: int
     subject_data: Union[list[SessionResponse], str]
     image_modals: list
+    pipeline_version: list
+    pipeline_name: list
 
 
 class DataElementURI(str, Enum):

diff --git a/app/api/routers/query.py b/app/api/routers/query.py
@@ -52,6 +52,8 @@ async def get_query(
         query.min_num_phenotypic_sessions,
         query.assessment,
         query.image_modal,
+        query.pipeline_version,
+        query.pipeline_name,
     )
 
     return response
diff --git a/app/api/utility.py b/app/api/utility.py
@@ -50,6 +50,7 @@
     "ncit": "http://ncicb.nci.nih.gov/xml/owl/EVS/Thesaurus.owl#",
     "nidm": "http://purl.org/nidash/nidm#",
     "snomed": "http://purl.bioontology.org/ontology/SNOMEDCT/",
+    "np": "https://github.com/nipoppy/pipeline-catalog/tree/main/processing",
 }
 
 # Store domains in named tuples
@@ -61,6 +62,8 @@
 IS_CONTROL = Domain("subject_group", "nb:isSubjectGroup")
 ASSESSMENT = Domain("assessment", "nb:hasAssessment")
 IMAGE_MODAL = Domain("image_modal", "nb:hasContrastType")
+PIPELINE_VERSION = Domain("pipeline_version", "nb:hasPipelineVersion")
+PIPELINE_NAME = Domain("pipeline_name", "nb:hasPipelineName")
 PROJECT = Domain("project", "nb:hasSamples")
 
 
@@ -115,6 +118,8 @@ def create_query(
     min_num_phenotypic_sessions: Optional[int] = None,
     assessment: Optional[str] = None,
     image_modal: Optional[str] = None,
+    pipeline_version: Optional[str] = None,
+    pipeline_name: Optional[str] = None,
 ) -> str:
     """
     Creates a SPARQL query using a query template and filters it using the input parameters.
@@ -139,6 +144,10 @@ def create_query(
         Non-imaging assessment completed by subjects, by default None.
     image_modal : str, optional
         Imaging modality of subject scans, by default None.
+    pipeline_version : str, optional
+        Pipeline version of subject scans, by default None.
+    pipeline_name : str, optional
+        Pipeline name of subject scans, by default None.
 
     Returns
     -------
@@ -206,10 +215,22 @@ def create_query(
             "\n" + f"FILTER (?{IMAGE_MODAL.var} = {image_modal})."
         )
 
+    if pipeline_version is not None:
+        imaging_session_level_filters += (
+            "\n"
+            + f'FILTER (?{PIPELINE_VERSION.var} = "{pipeline_version}").'  # Wrap with quotes
+        )
+
+    if pipeline_name is not None:
+        imaging_session_level_filters += (
+            "\n" + f"FILTER (?{PIPELINE_NAME.var} = {pipeline_name})."
+        )
+
     query_string = textwrap.dedent(
         f"""
         SELECT DISTINCT ?dataset_uuid ?dataset_name ?dataset_portal_uri ?sub_id ?age ?sex
-        ?diagnosis ?subject_group ?num_matching_phenotypic_sessions ?num_matching_imaging_sessions ?session_id ?session_type ?assessment ?image_modal ?session_file_path
+        ?diagnosis ?subject_group ?num_matching_phenotypic_sessions ?num_matching_imaging_sessions
+        ?session_id ?session_type ?assessment ?image_modal ?session_file_path ?pipeline_version ?pipeline_name
         WHERE {{
             ?dataset_uuid a nb:Dataset;
                 nb:hasLabel ?dataset_name;
@@ -244,6 +265,12 @@ def create_query(
                     {phenotypic_session_level_filters}
                 }} GROUP BY ?subject
             }}
+
+            OPTIONAL {{
+                ?session nb:hasCompletedPipeline ?pipeline.
+                ?pipeline nb:hasPipelineVersion ?pipeline_version.
+                ?pipeline nb:hasPipelineName ?pipeline_name.
+            }}
             {{
                 SELECT ?subject (count(distinct ?imaging_session) as ?num_matching_imaging_sessions)
                 WHERE {{
@@ -253,6 +280,11 @@ def create_query(
                         ?imaging_session a nb:ImagingSession;
                             nb:hasAcquisition/nb:hasContrastType ?image_modal.
                     }}
+                    OPTIONAL {{
+                        ?imaging_session nb:hasCompletedPipeline ?pipeline.
+                        ?pipeline nb:hasPipelineVersion ?pipeline_version.
+                        ?pipeline nb:hasPipelineName ?pipeline_name.
+                    }}
                     {imaging_session_level_filters}
                 }} GROUP BY ?subject
             }}

diff --git a/docs/default_neurobagel_query.rq b/docs/default_neurobagel_query.rq
@@ -6,7 +6,7 @@ PREFIX nidm: <http://purl.org/nidash/nidm#>
 PREFIX snomed: <http://purl.bioontology.org/ontology/SNOMEDCT/>
 
 SELECT DISTINCT ?dataset_uuid ?dataset_name ?dataset_portal_uri ?sub_id ?age ?sex
-?diagnosis ?subject_group ?num_matching_phenotypic_sessions ?num_matching_imaging_sessions ?session_id ?session_type ?assessment ?image_modal ?session_file_path
+?diagnosis ?subject_group ?num_matching_phenotypic_sessions ?num_matching_imaging_sessions ?session_id ?session_type ?assessment ?image_modal ?session_file_path ?pipeline_name ?pipeline_version
 WHERE {
     ?dataset_uuid a nb:Dataset;
         nb:hasLabel ?dataset_name;
@@ -41,6 +41,11 @@ WHERE {
 
         } GROUP BY ?subject
     }
+    OPTIONAL {
+        ?session nb:hasCompletedPipeline ?pipeline.
+        ?pipeline nb:hasPipelineVersion ?pipeline_version.
+        ?pipeline nb:hasPipelineName ?pipeline_name.
+    }
     {
         SELECT ?subject (count(distinct ?imaging_session) as ?num_matching_imaging_sessions)
         WHERE {
@@ -50,6 +55,11 @@ WHERE {
                 ?imaging_session a nb:ImagingSession;
                     nb:hasAcquisition/nb:hasContrastType ?image_modal.
             }
+            OPTIONAL {
+                ?imaging_session nb:hasCompletedPipeline ?pipeline.
+                ?pipeline nb:hasPipelineVersion ?pipeline_version.
+                ?pipeline nb:hasPipelineName ?pipeline_name.
+            }
 
         } GROUP BY ?subject
     }

diff --git a/tests/conftest.py b/tests/conftest.py
@@ -73,6 +73,8 @@ def test_data():
                 "http://purl.org/nidash/nidm#T1Weighted",
                 "http://purl.org/nidash/nidm#T2Weighted",
             ],
+            "pipeline_version": ["7.3.2", "23.1.3"],
+            "pipeline_name": ["freesurfer", "fmriprep"],
         },
         {
             "dataset_uuid": "http://neurobagel.org/vocab/67890",
@@ -86,6 +88,8 @@ def test_data():
                 "http://purl.org/nidash/nidm#FlowWeighted",
                 "http://purl.org/nidash/nidm#T1Weighted",
             ],
+            "pipeline_version": ["7.3.2"],
+            "pipeline_name": ["freesurfer"],
         },
     ]
 
@@ -178,6 +182,8 @@ async def _mock_get_with_exception(
         min_num_phenotypic_sessions,
         assessment,
         image_modal,
+        pipeline_version,
+        pipeline_name,
     ):
         raise request.param
 
@@ -206,6 +212,8 @@ async def _mock_get(
         min_num_phenotypic_sessions,
         assessment,
         image_modal,
+        pipeline_version,
+        pipeline_name,
     ):
         return request.param
 
@@ -226,6 +234,8 @@ async def _mock_successful_get(
         min_num_phenotypic_sessions,
         assessment,
         image_modal,
+        pipeline_version,
+        pipeline_name,
     ):
         return test_data
 

diff --git a/tests/test_query.py b/tests/test_query.py
@@ -477,6 +477,90 @@ def test_get_undefined_prefix_image_modal(
     assert response.status_code == 500
 
 
+@pytest.mark.parametrize("valid_pipeline_version", ["7.3.2", "23.1.3"])
+def test_get_valid_pipeline_version(
+    test_app,
+    mock_successful_get,
+    monkeypatch,
+    mock_auth_header,
+    set_mock_verify_token,
+    valid_pipeline_version,
+):
+    """Given a valid pipeline version, returns a 200 status code and a non-empty list of results."""
+
+    monkeypatch.setattr(crud, "get", mock_successful_get)
+    response = test_app.get(
+        f"{ROUTE}?pipeline_version={valid_pipeline_version}",
+        headers=mock_auth_header,
+    )
+    assert response.status_code == 200
+    assert response.json() != []
+
+
+@pytest.mark.parametrize("mock_get", [None], indirect=True)
+@pytest.mark.parametrize("invalid_pipeline_version", ["latest", "7.2", "23"])
+def test_get_invalid_pipeline_version(
+    test_app,
+    mock_get,
+    monkeypatch,
+    mock_auth_header,
+    set_mock_verify_token,
+    invalid_pipeline_version,
+):
+    """Given an invalid pipeline version, returns a 422 status code."""
+
+    monkeypatch.setattr(crud, "get", mock_get)
+    response = test_app.get(
+        f"{ROUTE}?pipeline_version={invalid_pipeline_version}",
+        headers=mock_auth_header,
+    )
+    assert response.status_code == 422
+
+
+@pytest.mark.parametrize(
+    "valid_pipeline_name", ["np:fmriprep", "np:freesurfer"]
+)
+def test_get_valid_pipeline_name(
+    test_app,
+    mock_successful_get,
+    monkeypatch,
+    mock_auth_header,
+    set_mock_verify_token,
+    valid_pipeline_name,
+):
+    """Given a valid pipeline name, returns a 200 status code and a non-empty list of results."""
+
+    monkeypatch.setattr(crud, "get", mock_successful_get)
+    response = test_app.get(
+        f"{ROUTE}?pipeline_name={valid_pipeline_name}",
+        headers=mock_auth_header,
+    )
+    assert response.status_code == 200
+    assert response.json() != []
+
+
+@pytest.mark.parametrize("mock_get", [None], indirect=True)
+@pytest.mark.parametrize(
+    "invalid_pipeline_name", ["n2p:coolpipeline", "apple", "some_thing:cool"]
+)
+def test_get_invalid_pipeline_name(
+    test_app,
+    mock_get,
+    monkeypatch,
+    mock_auth_header,
+    set_mock_verify_token,
+    invalid_pipeline_name,
+):
+    """Given an invalid pipeline name, returns a 422 status code."""
+
+    monkeypatch.setattr(crud, "get", mock_get)
+    response = test_app.get(
+        f"{ROUTE}?pipeline_name={invalid_pipeline_name}",
+        headers=mock_auth_header,
+    )
+    assert response.status_code == 422
+
+
 def test_aggregate_query_response_structure(
     test_app,
     set_test_credentials,