From c1dd12b492f65d05b0339433a954424c7e9ff35a Mon Sep 17 00:00:00 2001
From: Troy Raen <raen@ipac.caltech.edu>
Date: Sun, 15 Sep 2024 01:40:33 -0700
Subject: [PATCH 1/6] fixup verifier arguments

---
 src/hipscat_import/verification/arguments.py | 85 ++++++++++----------
 1 file changed, 43 insertions(+), 42 deletions(-)

diff --git a/src/hipscat_import/verification/arguments.py b/src/hipscat_import/verification/arguments.py
index 86c139b1..fb7bee27 100644
--- a/src/hipscat_import/verification/arguments.py
+++ b/src/hipscat_import/verification/arguments.py
@@ -2,50 +2,51 @@
 
 from __future__ import annotations
 
-from dataclasses import dataclass, field
 from pathlib import Path
-from typing import List, Optional
 
-from hipscat.catalog import Catalog
-from hipscat.io.validation import is_valid_catalog
+import attrs
 from upath import UPath
 
-from hipscat_import.runtime_arguments import RuntimeArguments
-
-
-@dataclass
-class VerificationArguments(RuntimeArguments):
-    """Data class for holding verification arguments"""
-
-    ## Input
-    input_catalog_path: str | Path | UPath | None = None
-    """Path to an existing catalog that will be inspected."""
-    input_catalog: Optional[Catalog] = None
-    """In-memory representation of a catalog. If not provided, it will be loaded
-    from the input_catalog_path."""
-
-    ## Verification options
-    field_distribution_cols: List[str] = field(default_factory=list)
-    """List of fields to get the overall distribution for. e.g. ["ra", "dec"].
-    Should be valid columns in the parquet files."""
-
-    def __post_init__(self):
-        self._check_arguments()
-
-    def _check_arguments(self):
-        super()._check_arguments()
-        if not self.input_catalog_path and not self.input_catalog:
-            raise ValueError("input catalog is required (either input_catalog_path or input_catalog)")
-        if not self.input_catalog:
-            if not is_valid_catalog(self.input_catalog_path):
-                raise ValueError("input_catalog_path not a valid catalog")
-            self.input_catalog = Catalog.read_from_hipscat(catalog_path=self.input_catalog_path)
-        if not self.input_catalog_path:
-            self.input_catalog_path = self.input_catalog.catalog_path
-
+# from hipscat_import.runtime_arguments import RuntimeArguments
+
+
+def _dir_exists(instance: VerificationArguments, attribute: attrs.Attribute, value: UPath):
+    """This function will be used as a validator for attributes of VerificationArguments."""
+    if not value.is_dir():
+        raise ValueError(f"{attribute.name} must be an existing directory")
+
+
+def _path_exists(instance: VerificationArguments, attribute: attrs.Attribute, value: UPath):
+    """This function will be used as a validator for attributes of VerificationArguments."""
+    if not value.exists():
+        raise ValueError(f"{attribute.name} must be an existing file or directory")
+
+
+@attrs.define(kw_only=True)
+class VerificationArguments:
+    """Container for verification arguments."""
+
+    input_catalog_path: str | Path | UPath = attrs.field(converter=UPath, validator=_dir_exists)
+    """Path to an existing catalog that will be inspected. This must be a directory
+    containing the Parquet dataset and metadata sidecars."""
+    output_path: str | Path | UPath = attrs.field(converter=UPath)
+    """Base path where output files should be written."""
+    output_report_filename: str = attrs.field(factory=lambda: "verifier_results.csv")
+    """Filename for the verification report that will be generated."""
+    output_distributions_filename: str = attrs.field(factory=lambda: "field_distributions.csv")
+    """Filename for the field distributions that will be calculated."""
+    truth_total_rows: int | None = attrs.field(default=None)
+    """Total number of rows expected in this catalog."""
+    truth_schema: str | Path | UPath | None = attrs.field(
+        default=None,
+        converter=attrs.converters.optional(UPath),
+        validator=attrs.validators.optional(_path_exists),
+    )
+    """Path to a Parquet file or dataset containing the expected schema.
+    If you provided the 'use_schema_file' argument when importing the catalog, use the same value here.
+    If not provided, the catalog's _common_metadata file will be used as the source of truth.
+    """
+
+    # [FIXME] Connect this with RuntimeArguments.provenance_info. Even then, does this ever get written to file?
     def additional_runtime_provenance_info(self) -> dict:
-        return {
-            "pipeline": "verification pipeline",
-            "input_catalog_path": self.input_catalog_path,
-            "field_distribution_cols": self.field_distribution_cols,
-        }
+        return {"pipeline": "verification pipeline", **{k: str(v) for k, v in vars(self).items()}}

From 6a217bf92025af2fde22bf8091cd28333cfec07b Mon Sep 17 00:00:00 2001
From: Troy Raen <raen@ipac.caltech.edu>
Date: Wed, 14 Aug 2024 01:41:28 -0600
Subject: [PATCH 2/6] add Verifier class

---
 .../verification/run_verification.py          | 530 +++++++++++++++++-
 1 file changed, 525 insertions(+), 5 deletions(-)

diff --git a/src/hipscat_import/verification/run_verification.py b/src/hipscat_import/verification/run_verification.py
index 2b7d5954..670a95f4 100644
--- a/src/hipscat_import/verification/run_verification.py
+++ b/src/hipscat_import/verification/run_verification.py
@@ -1,14 +1,534 @@
-"""Run pass/fail checks and generate verification report of existing hipscat table."""
+"""Run pass/fail tests and generate verification report of existing hipscat table."""
+
+import collections
+import datetime
+from pathlib import Path
+
+import attrs
+import hipscat.io.validation
+import pandas as pd
+import pyarrow.dataset
 
 from hipscat_import.verification.arguments import VerificationArguments
 
 
-def run(args):
-    """Run verification pipeline."""
+def run(args: VerificationArguments, write_mode: str = "a"):
+    """Create a Verifier using args, run all tests, and write reports.
+
+    Parameters
+    ----------
+    args : VerificationArguments
+        Arguments to construct the Verifier.
+    write_mode : str, optional
+        Mode to be used when writing output files.
+
+    Returns
+    -------
+    Verifier
+        An instance of the Verifier class after running the verification process.
+
+    Raises
+    ------
+    TypeError
+        If 'args' is not provided or is not an instance of VerificationArguments.
+    """
     if not args:
         raise TypeError("args is required and should be type VerificationArguments")
     if not isinstance(args, VerificationArguments):
         raise TypeError("args must be type VerificationArguments")
 
-    # implement everything else.
-    raise NotImplementedError("Verification not yet implemented.")
+    verifier = Verifier.from_args(args)
+    verifier.run(write_mode=write_mode)
+
+    return verifier
+
+
+Result = collections.namedtuple(
+    "Result", ["passed", "test", "target", "description", "affected_files", "datetime"]
+)
+"""Verification test result."""
+
+
+def now():
+    """Return the current time as a string."""
+    return datetime.datetime.now(datetime.timezone.utc).strftime("%Y/%m/%d %H:%M:%S %Z")
+
+
+@attrs.define
+class Verifier:
+    """Class for verification tests. Instantiate using the 'from_args' method."""
+
+    args: VerificationArguments = attrs.field()
+    """Arguments to use during verification."""
+    files_ds: pyarrow.dataset.Dataset = attrs.field()
+    """Pyarrow dataset, loaded from the actual files on disk."""
+    metadata_ds: pyarrow.dataset.Dataset = attrs.field()
+    """Pyarrow dataset, loaded from the _metadata file."""
+    common_ds: pyarrow.dataset.Dataset = attrs.field()
+    """Pyarrow dataset, loaded from the _common_metadata file."""
+    truth_schema: pyarrow.Schema = attrs.field()
+    """Pyarrow schema to be used as truth. This will be loaded from args.truth_schema
+    if provided, and then hipscat columns and metadata will be added if not already present.
+    If args.truth_schema not provided, the catalog's _common_metadata file will be used."""
+    truth_src: str = attrs.field()
+    """'truth_schema' if args.truth_schema was provided, else '_common_metadata'."""
+    results: list[Result] = attrs.field(factory=list)
+    """List of results, one for each test that has been done."""
+    _distributions_df: pd.DataFrame | None = attrs.field(default=None)
+
+    @classmethod
+    def from_args(cls, args: VerificationArguments) -> "Verifier":
+        """Create a Verifier instance from the provided arguments.
+
+        This method initializes the Verifier by setting up the necessary datasets
+        and schemas based on the input arguments.
+
+        Parameters
+        ----------
+            args : VerificationArguments:
+                Arguments for the Verifier.
+
+        Returns
+        -------
+            Verifier: An instance of the Verifier class.
+        """
+        # make sure the output directory exists
+        args.output_path.mkdir(exist_ok=True, parents=True)
+
+        # load a dataset from the actual files on disk
+        files_ds = pyarrow.dataset.dataset(
+            args.input_catalog_path,
+            ignore_prefixes=[
+                ".",
+                "_",
+                "catalog_info.json",
+                "partition_info.csv",
+                "point_map.fits",
+                "provenance_info.json",
+            ],
+        )
+
+        # load a dataset from the _metadata file
+        metadata_ds = pyarrow.dataset.parquet_dataset(f"{args.input_catalog_path}/_metadata")
+
+        # load a dataset from the _common_metadata file
+        common_ds = pyarrow.dataset.parquet_dataset(f"{args.input_catalog_path}/_common_metadata")
+
+        # load the input schema if provided, else use the _common_metadata schema
+        if args.truth_schema is not None:
+            truth_schema = pyarrow.dataset.parquet_dataset(args.truth_schema).schema
+            truth_src = "truth_schema"
+        else:
+            truth_schema = common_ds.schema
+            truth_src = "_common_metadata"
+
+        return cls(
+            args=args,
+            files_ds=files_ds,
+            metadata_ds=metadata_ds,
+            common_ds=common_ds,
+            truth_schema=truth_schema,
+            truth_src=truth_src,
+        )
+
+    def run(self, write_mode: str = "a"):
+        """Run all tests and write reports."""
+        self.test_file_sets()
+        self.test_is_valid_catalog()
+        self.test_num_rows()
+        self.test_rowgroup_stats(write_mode=write_mode)
+        self.test_schemas()
+
+        self.write_results(write_mode=write_mode)
+
+    @property
+    def results_df(self) -> pd.DataFrame:
+        """Verifier results as a dataframe."""
+        return pd.DataFrame(self.results)
+
+    def truth_schema_plus_common_metadata(self) -> pyarrow.Schema:
+        """Copy of truth_schema with hipscat fields and metadata added from common_ds.schema."""
+        hipscat_cols = ["Norder", "Dir", "Npix", "_hipscat_index"]
+        new_fields = [
+            self.common_ds.schema.field(fld) for fld in hipscat_cols if fld not in self.truth_schema.names
+        ]
+
+        # use pandas metadata from common_ds but keep all other metadata from truth_schema
+        metadata = self.truth_schema.metadata or {}
+        metadata[b"pandas"] = self.common_ds.schema.metadata[b"pandas"]
+
+        return pyarrow.schema(list(self.truth_schema) + new_fields).with_metadata(metadata)
+
+    def test_file_sets(self) -> bool:
+        """Test that files in _metadata match files on disk. Add one Result to results.
+
+        Returns
+        -------
+            bool: True if the file sets match, else False.
+        """
+        test = "file sets"
+        description = "Test that files in _metadata match files on disk."
+        test_info = dict(test=test, description=description)
+        print(f"\nStarting: {description}")
+
+        targets = "_metadata vs files on disk"
+        base_dir = str(self.args.input_catalog_path)
+        files_ds_files = [f.removeprefix(base_dir).strip("/") for f in self.files_ds.files]
+        metadata_ds_files = [f.removeprefix(base_dir).strip("/") for f in self.metadata_ds.files]
+        failed_files = list(set(files_ds_files).symmetric_difference(metadata_ds_files))
+        passed = len(failed_files) == 0
+        self._append_result(passed=passed, target=targets, affected_files=failed_files, **test_info)
+
+        print(f"Result: {'PASSED' if passed else 'FAILED'}")
+        return passed
+
+    def test_is_valid_catalog(self) -> bool:
+        """Test if the provided catalog is a valid HiPSCat catalog. Add one Result to results.
+
+        Returns
+        -------
+            bool: True if the catalog is valid, else False.
+        """
+        test = "is valid catalog"
+        target = self.args.input_catalog_path
+        # [FIXME] How to get the hipscat version?
+        description = "Test that this is a valid HiPSCat catalog using hipscat version <VERSION>."
+        print(f"\nStarting: {description}")
+
+        passed = hipscat.io.validation.is_valid_catalog(target, strict=True)
+        self._append_result(test=test, description=description, passed=passed, target=target.name)
+        print(f"Result: {'PASSED' if passed else 'FAILED'}")
+        return passed
+
+    def test_num_rows(self) -> bool:
+        """Test the number of rows in the dataset. Add two Results to results.
+
+        File footers are compared with _metadata and the user-supplied truth (if provided).
+
+        Returns
+        -------
+            bool: True if all checks pass, else False.
+        """
+        test = "num rows"
+        description = "Test that number of rows are equal."
+        test_info = dict(test=test, description=description)
+        print(f"\nStarting: {description}")
+
+        # get the number of rows in each file, indexed by file path. we treat this as truth.
+        files_df = self._load_nrows(self.files_ds, explicit_count=True)
+
+        # check _metadata
+        targets = "_metadata vs file footers"
+        print(f"\t{targets}")
+        metadata_df = self._load_nrows(self.metadata_ds)
+        row_diff = files_df - metadata_df
+        failed_frags = row_diff.loc[row_diff.num_rows != 0].index.to_list()
+        passed = len(failed_frags) == 0
+        self._append_result(passed=passed, target=targets, affected_files=failed_frags, **test_info)
+
+        # check user-supplied total
+        if self.args.truth_total_rows is not None:
+            targets = "user total vs file footers"
+            print(f"\t{targets}")
+            _passed = self.args.truth_total_rows == files_df.num_rows.sum()
+            self._append_result(passed=_passed, target=targets, **test_info)
+        else:
+            _passed = True  # this test did not fail. this is only needed for the return value.
+
+        all_passed = all([passed, _passed])
+        print(f"Result: {'PASSED' if all_passed else 'FAILED'}")
+        return all_passed
+
+    def _load_nrows(self, dataset: pyarrow.dataset.Dataset, explicit_count: bool = False) -> pd.DataFrame:
+        """Load the number of rows in each file in the dataset.
+
+        Parameters
+        ----------
+            dataset : pyarrow.dataset.Dataset
+                The dataset from which to load the number of rows.
+            explicit_count : bool
+                If True, explicitly count the rows in each fragment.
+
+        Returns
+        -------
+            pd.DataFrame: A DataFrame with the number of rows per file, indexed by file path.
+        """
+        nrows_df = pd.DataFrame(
+            columns=["num_rows", "frag_path"],
+            data=[
+                (
+                    # [TODO] check cpu/ram usage to try to determine if there is a difference here
+                    frag.count_rows() if explicit_count else frag.metadata.num_rows,
+                    frag.path.removeprefix(str(self.args.input_catalog_path)).strip("/"),
+                )
+                for frag in dataset.get_fragments()
+            ],
+        )
+        nrows_df = nrows_df.set_index("frag_path").sort_index()
+        return nrows_df
+
+    def test_rowgroup_stats(self, *, write_mode: str = "a") -> bool:
+        """Test that statistics were recorded for all row groups. Add a Result to results.
+
+        If the test passes, distributions_df is written to file.
+
+        Parameters
+        ----------
+            write_mode : str
+                Mode to be used when writing the output file.
+
+        Returns
+        -------
+            bool: True if the test passes, else False.
+        """
+        test = "rowgroup stats"
+        description = "Test that statstistics were recorded for all row groups."
+        target = "_metadata"
+        test_info = dict(test=test, description=description, target=target)
+        print(f"\nStarting: {description}")
+
+        common_truth_schema = self.truth_schema_plus_common_metadata()
+        self._distributions_df = None  # start fresh
+        try:
+            assert set(self.distributions_df.index) == set(common_truth_schema.names)
+        except AssertionError:
+            passed = False
+        else:
+            passed = True
+        self._append_result(passed=passed, **test_info)
+        print(f"Result: {'PASSED' if passed else 'FAILED'}")
+
+        if passed:
+            fout = self.args.output_path / self.args.output_distributions_filename
+            fout.parent.mkdir(exist_ok=True, parents=True)
+            header = False if (write_mode == "a" and fout.is_file()) else True
+            self.distributions_df.to_csv(fout, mode=write_mode, header=header, index=True)
+            print(f"Distributions written to {fout}")
+
+        return passed
+
+    @property
+    def distributions_df(self) -> pd.DataFrame:
+        """Distributions (min and max) for each column in the catalog.
+
+        Returns
+        -------
+            pd.DataFrame: A DataFrame with 'minimum' and 'maximum' indexed by column name.
+
+        Raises
+        ------
+            pyarrow.ArrowTypeError: If a schema mismatch is encountered while gathering statistics.
+            AssertionError: If the gathered statistics do not contain all expected columns.
+        """
+        if self._distributions_df is not None:
+            return self._distributions_df
+
+        print("Gathering distributions (min/max) for fields.")
+        common_truth_schema = self.truth_schema_plus_common_metadata()
+
+        try:
+            rowgrp_stats = [
+                rg.statistics for frag in self.metadata_ds.get_fragments() for rg in frag.row_groups
+            ]
+        except pyarrow.ArrowTypeError as exc:
+            msg = "Distributions failed due to mismatched schemas. Run 'test_schemas' to find problematic files."
+            raise pyarrow.ArrowTypeError(msg) from exc
+
+        dist = pd.json_normalize(rowgrp_stats)
+
+        # if dist doesn't contain all expected columns, fail now
+        msg = "Statistics not found"
+        assert set([c.split(".")[0] for c in dist.columns]) == set(common_truth_schema.names), msg
+
+        min_ = dist[[f"{c}.min" for c in common_truth_schema.names]].min()
+        min_ = min_.rename(index={name: name.removesuffix(".min") for name in min_.index})
+
+        max_ = dist[[f"{c}.max" for c in common_truth_schema.names]].max()
+        max_ = max_.rename(index={name: name.removesuffix(".max") for name in max_.index})
+
+        self._distributions_df = pd.DataFrame({"minimum": min_, "maximum": max_}).rename_axis(index="field")
+        return self._distributions_df
+
+    def test_schemas(self) -> bool:
+        """Test the equality of schemas and their metadata. Add Results to results.
+
+        This method performs up to four tests:
+        1. Schema metadata includes a correct pandas schema.
+        2. _common_metadata matches user-supplied truth_schema (schema and metadata), if provided.
+        3. _metadata matches Verifier truth_schema (schema and metadata).
+        4. File footers match Verifier truth_schema (schema and metadata).
+
+        Returns
+        -------
+            bool: True if all tests pass, else False.
+        """
+        test, testmd = "schema", "schema metadata"
+        test_info = dict(test=test, description="Test that schemas are equal.")
+        testmd_info = dict(test=testmd, description="Test that schema metadata is equal.")
+        print(f"\nStarting: {test_info['description']}")
+
+        passed_cm = self._test_schema__common_metadata(test_info, testmd_info)
+        passed_md = self._test_schema__metadata(test_info, testmd_info)
+        passed_ff = self._test_schema_file_footers(test_info, testmd_info)
+
+        all_passed = all([passed_cm, passed_md, passed_ff])
+        print(f"Result: {'PASSED' if all_passed else 'FAILED'}")
+        return all_passed
+
+    def _test_schema__common_metadata(self, test_info: dict, testmd_info: dict) -> bool:
+        """Test _common_metadata schema and metadata against the truth schema.
+
+        This method performs up to two tests:
+        1. Schema metadata includes a correct pandas schema.
+        2. _common_metadata matches user-supplied truth_schema (schema and metadata), if provided.
+
+        Parameters
+        ----------
+            test_info : dict
+                Information related to the schema test.
+            testmd_info : dict
+                Information related to the metadata test.
+
+        Returns
+        -------
+            bool: True if all tests pass, else False.
+        """
+        pandas_passed = self._test_schema__common_metadata_pandas()
+
+        if self.truth_src == "_common_metadata":
+            # no input schema provided => _common_metadata is being used as truth, so skip the rest
+            return pandas_passed
+
+        # an input schema was provided as truth, so we need to test _common_metadata against it
+        targets = f"_common_metadata vs {self.truth_src}"
+        print(f"\t{targets}")
+        common_truth_schema = self.truth_schema_plus_common_metadata()
+
+        # check schema and metadata separately because we want to report the results separately
+        passed = self.common_ds.schema.equals(common_truth_schema, check_metadata=False)
+        self._append_result(passed=passed, target=targets, **test_info)
+        passedmd = self.common_ds.schema.metadata == common_truth_schema.metadata
+        self._append_result(passed=passedmd, target=targets, **testmd_info)
+
+        return all([pandas_passed, passed, passedmd])
+
+    def _test_schema__common_metadata_pandas(self) -> bool:
+        """Test that the pandas schema in _common_metadata metadata matches the truth schema.
+
+        Returns
+        -------
+            bool: True if the pandas metadata matches the expected schema and index columns, else False.
+        """
+        test = "schema metadata"
+        description = "Test that pandas metadata contains correct field names and types."
+        target = "b'pandas' in _common_metadata"
+        test_info = dict(test=test, description=description, target=target)
+        print(f"\t{target}")
+
+        common_truth_schema = self.truth_schema_plus_common_metadata()
+        base_schema = pyarrow.schema([pyarrow.field(fld.name, fld.type) for fld in common_truth_schema])
+        pandas_md = common_truth_schema.pandas_metadata
+        pfields = [
+            pyarrow.field(pcol["name"], pyarrow.from_numpy_dtype(pcol["pandas_type"]))
+            for pcol in pandas_md["columns"]
+        ]
+        pandas_schema = pyarrow.schema(pfields)
+
+        passed = base_schema.equals(pandas_schema) and (pandas_md["index_columns"] == ["_hipscat_index"])
+        self._append_result(passed=passed, **test_info)
+        return passed
+
+    def _test_schema__metadata(self, test_info: dict, testmd_info: dict) -> bool:
+        """Test _metadata schema and metadata against the truth schema.
+
+        Parameters
+        ----------
+            test_info : dict
+                Information related to the schema test.
+            testmd_info : dict
+                Information related to the metadata test.
+
+        Returns
+        -------
+            bool: True if both schema and metadata match the truth source, else False.
+        """
+        targets = f"_metadata vs {self.truth_src}"
+        print(f"\t{targets}")
+        common_truth_schema = self.truth_schema_plus_common_metadata()
+
+        # check schema and metadata separately because we want to report the results separately
+        passed = self.metadata_ds.schema.equals(common_truth_schema, check_metadata=False)
+        self._append_result(passed=passed, target=targets, **test_info)
+        passedmd = self.metadata_ds.schema.metadata == common_truth_schema.metadata
+        self._append_result(passed=passedmd, target=targets, **testmd_info)
+
+        return all([passed, passedmd])
+
+    def _test_schema_file_footers(self, test_info: dict, testmd_info: dict) -> bool:
+        """Test the file footers schema and metadata against the truth schema.
+
+        Parameters
+        ----------
+            test_info : dict
+                Information related to the test results for schema comparison.
+            testmd_info : dict
+                Information related to the test results for metadata comparison.
+
+        Returns
+        -------
+            bool: True if all schema and metadata tests pass, else False.
+        """
+        targets = f"file footers vs {self.truth_src}"
+        print(f"\t{targets}")
+        common_truth_schema = self.truth_schema_plus_common_metadata()
+
+        affected_files, affectedmd_files = [], []
+        for frag in self.files_ds.get_fragments():
+            frag_path = str(Path(frag.path).relative_to(self.args.input_catalog_path))
+            # check schema and metadata separately because we want to report the results separately
+            if not frag.physical_schema.equals(common_truth_schema, check_metadata=False):
+                affected_files.append(frag_path)
+            if not frag.physical_schema.metadata == common_truth_schema.metadata:
+                affectedmd_files.append(frag_path)
+
+        passed = len(affected_files) == 0
+        self._append_result(passed=passed, target=targets, affected_files=affected_files, **test_info)
+        passedmd = len(affectedmd_files) == 0
+        self._append_result(passed=passedmd, target=targets, affected_files=affectedmd_files, **testmd_info)
+
+        return all([passed, passedmd])
+
+    def _append_result(
+        self,
+        *,
+        test: str,
+        target: str,
+        description: str,
+        passed: bool,
+        affected_files: list[str] | None = None,
+    ):
+        """Create a Result and append it to self.results."""
+        self.results.append(
+            Result(
+                datetime=now(),
+                passed=passed,
+                test=test,
+                target=target,
+                description=description,
+                affected_files=affected_files or [],
+            )
+        )
+
+    def write_results(self, *, write_mode: str = "a") -> None:
+        """Write the verification results to a file.
+
+        Parameters
+        ----------
+            write_mode : str
+                Mode to be used when writing output file.
+        """
+        fout = self.args.output_path / self.args.output_report_filename
+        fout.parent.mkdir(exist_ok=True, parents=True)
+        header = False if (write_mode == "a" and fout.is_file()) else True
+        self.results_df.to_csv(fout, mode=write_mode, header=header, index=False)
+        print(f"\nVerifier results written to {fout}")

From f226d2a73cdc235a3034108f482e5ca728a4e043 Mon Sep 17 00:00:00 2001
From: Troy Raen <raen@ipac.caltech.edu>
Date: Wed, 14 Aug 2024 01:41:53 -0600
Subject: [PATCH 3/6] add malformed_catalogs test data

---
 .../Dir=0/Npix=11.extra_column.parquet        | Bin 0 -> 9939 bytes
 .../Dir=0/Npix=11.missing_column.parquet      | Bin 0 -> 8482 bytes
 .../Dir=0/Npix=11.no_metadata.parquet         | Bin 0 -> 5857 bytes
 .../Norder=0/Dir=0/Npix=11.parquet            | Bin 0 -> 8880 bytes
 .../Dir=0/Npix=11.wrong_dtypes.parquet        | Bin 0 -> 8604 bytes
 .../bad_schemas/_common_metadata              | Bin 0 -> 4018 bytes
 .../bad_schemas/_common_metadata.import       | Bin 0 -> 735 bytes
 .../malformed_catalogs/bad_schemas/_metadata  | Bin 0 -> 5773 bytes
 .../Norder=0/Dir=0/Npix=11.parquet            | Bin 0 -> 7956 bytes
 .../no_rowgroup_stats/_common_metadata        | Bin 0 -> 4018 bytes
 .../no_rowgroup_stats/_metadata               | Bin 0 -> 4804 bytes
 .../malformed_catalogs/valid_truth/README     |   1 +
 .../Norder=0/Dir=0/Npix=11.extra_file.parquet | Bin 0 -> 8880 bytes
 .../Norder=0/Dir=0/Npix=11.extra_rows.parquet | Bin 0 -> 8904 bytes
 .../Norder=0/Dir=0/Npix=11.parquet            | Bin 0 -> 8880 bytes
 .../wrong_files_and_rows/_common_metadata     | Bin 0 -> 4018 bytes
 .../wrong_files_and_rows/_metadata            | Bin 0 -> 7541 bytes
 .../generate_malformed_catalogs.py            | 229 ++++++++++++++++++
 18 files changed, 230 insertions(+)
 create mode 100644 tests/hipscat_import/data/malformed_catalogs/bad_schemas/Norder=0/Dir=0/Npix=11.extra_column.parquet
 create mode 100644 tests/hipscat_import/data/malformed_catalogs/bad_schemas/Norder=0/Dir=0/Npix=11.missing_column.parquet
 create mode 100644 tests/hipscat_import/data/malformed_catalogs/bad_schemas/Norder=0/Dir=0/Npix=11.no_metadata.parquet
 create mode 100644 tests/hipscat_import/data/malformed_catalogs/bad_schemas/Norder=0/Dir=0/Npix=11.parquet
 create mode 100644 tests/hipscat_import/data/malformed_catalogs/bad_schemas/Norder=0/Dir=0/Npix=11.wrong_dtypes.parquet
 create mode 100644 tests/hipscat_import/data/malformed_catalogs/bad_schemas/_common_metadata
 create mode 100644 tests/hipscat_import/data/malformed_catalogs/bad_schemas/_common_metadata.import
 create mode 100644 tests/hipscat_import/data/malformed_catalogs/bad_schemas/_metadata
 create mode 100644 tests/hipscat_import/data/malformed_catalogs/no_rowgroup_stats/Norder=0/Dir=0/Npix=11.parquet
 create mode 100644 tests/hipscat_import/data/malformed_catalogs/no_rowgroup_stats/_common_metadata
 create mode 100644 tests/hipscat_import/data/malformed_catalogs/no_rowgroup_stats/_metadata
 create mode 100644 tests/hipscat_import/data/malformed_catalogs/valid_truth/README
 create mode 100644 tests/hipscat_import/data/malformed_catalogs/wrong_files_and_rows/Norder=0/Dir=0/Npix=11.extra_file.parquet
 create mode 100644 tests/hipscat_import/data/malformed_catalogs/wrong_files_and_rows/Norder=0/Dir=0/Npix=11.extra_rows.parquet
 create mode 100644 tests/hipscat_import/data/malformed_catalogs/wrong_files_and_rows/Norder=0/Dir=0/Npix=11.parquet
 create mode 100644 tests/hipscat_import/data/malformed_catalogs/wrong_files_and_rows/_common_metadata
 create mode 100644 tests/hipscat_import/data/malformed_catalogs/wrong_files_and_rows/_metadata
 create mode 100644 tests/hipscat_import/verification/generate_malformed_catalogs.py

diff --git a/tests/hipscat_import/data/malformed_catalogs/bad_schemas/Norder=0/Dir=0/Npix=11.extra_column.parquet b/tests/hipscat_import/data/malformed_catalogs/bad_schemas/Norder=0/Dir=0/Npix=11.extra_column.parquet
new file mode 100644
index 0000000000000000000000000000000000000000..f30ed667dbec8450a1f45f3f20d2fb05f99b2d22
GIT binary patch
literal 9939
zcmd5?3wV=7*8b9l@&y`bX;V`uSPF#7tx0b*Tx`Ciw}f73p-o!EHc8VaG)dE@X`3Qz
zU==H@zx=2yi|YmC(Ju0^EFywj49X&kx{DyN!Vf4Y>T(lU1s2)=oiCR*O^WQZu)BFU
zedk<e&Y3eaXC`@=$&^V1T*1aD!4|quusBRW4WX!&H2q!})sMp!hWG2wr4I6=sPUjF
ze44tz7gFJ9p8$Oco(rA^{vU8OWPb&n1}_Hx4%$OOCqctODUhFo{3GC4AO-vja2#}>
zfKoxXK%YbY11OT8Nc9I^gUv9=GtoYU_DHlJL|X!i0ZjmX$`@0|fPV%}M!&CN^Cz_T
zf)0be0ZoL>-yqKb-2fehjF0i$XkSG85GWaaqkzXD{}wm|xEuO`pzEM%piz*=f_A_*
z9{hRG7*IdRB0&2f{}Gsuz5?L;z$EB*f{uXy81y}e!%wC@gKR2@2mU7PqS5{%=mYSH
z;NM02E3~hGJ_P+8v<LJP=nQBuzkrGZJ^<Pezk^_Z3G^NKF!aBQ_6X1b@Y6wQph=(u
z$i)}H`(YymCV(!ZzX-PXp`8WV#ZR2}k1&e;ob{rB608XmtP7h!_DYl>LJ*N4q#q3T
z7zybeUb8qVIfN8e|I4|wj94!Y<ItlhPFOg%UqpYJH(+2Sf6(Bl=piw&g1GyH@k56t
z3?FfS;>e^?qsNHGCO<H4{Dg^<QpA$fwDgS3$yw4VQ>RUTFk8mR6*;+i`2|YVjKZSg
zl9{Dtvu2l9s5O;Ua~_)eaCMDVr>`~C)f-Lo8q5}Jqphjg-r{I&Yj<|ce`LWg9(65T
z#0D-}5}6?2#%E9wQSrhsQ>`E@ZgE)L)tI<Nk)l(yi2i4$7(W5Wi4ufS_!9-7C~~~|
z3oe8g3R>CIbrkdGaOeWNjMJZ{=oTJLZAI3v@uRrO4xSL(ho)A7ItfN6<8M0%QZC)h
zlX1UkLWh0mur->-;&q}WjCSEK>2nlR05W20Y4}DUO$kBC(TS9u*Ulb;F8)>)$*39-
z>C=U6)CtT239$`m;8s??5B$rl-AZ^%_5=$3GS=1z+b-C3!e172M_IktH;3ddyNu0n
zr(K48oZtw~Z~}G?tNg|x6Ve{DCK=f|!BR*XFIl}CCt{Q=kq$47&1*`0a+CO}E7Z)<
zMTcfpe)3$+Z{p0K?Xk=~wcr#Jn=f3lX7ac*E1xpRR(>sgd0)HycW;-C-@o~(@jFX0
zc8hJhXUFazoKbWzqH)eanSF-h%>}2W8_rIi#NE1KhI$ZjCE6OBAQ<4=7R_4Ew%9Nr
z?sA0aP_$?-ANwLW)IKH<a$mUn32uZH3N-A#IEBrEeNj{D=Ah^%V!cnz<V8_0BfW%i
zmtb$yL`PA@yeO`_5Su`T<jbOkR1r_eb<cpAiU`?VA>$`=WlHD^c<7lAT^>jQl0zV4
zVCas{LJg2bi>VwQ8HbLRVMHN3xu(N|i&T3lYu8ETA`UXJ3$@b4b!GDsxh_=T(bL@Q
z{9RMseXp)d>h`7yGxH}WK#D<nt}X@diILn=;d=`ycg<*Kb@GRsk_(&CKRGCSIwtqi
zwX#ogO3Mx9hrg<sm1i3Ee)$VOF04r&5w$1lK$<E(<A0Xtm3_6h{MkIqioZB2>R))+
z`Eb2s^(oV;v)|4gv8v;Nu65&+$*~k&9oD_N;k5?6XL)zgaku)3mc@&H5crliAl5!+
z5OR5=1hItz&y`9iu$jUiWGYTDH24%i<;@dXelG!1Fawjlhk&y<j1t`#(OtLbW^J{h
zxw)~~I}c9WUXJL@aM9-BzIg<U)rW`w%siGPb<cx`r3jwL)kM*r#D94rc;@T~c;>jm
z@ywwf>lcB8T!IaM9oxT*!{gx|rK!=p!8Elg4BS*6PUIt~krk+O@8ejFhq?jn4%EBv
zfDZ6PJ{(A%LcS*kdDh7IHasbWR3&tyU_-9*--DkB-7}y;d>OSKvTD#&&@dcJa#izS
za}2tt(4Ga_4$^|Y=YK=l_*v*v08FGBLEA7+72>D{snIVI7y;Y@`!>Fqe?OP1!LU^@
z?FV{}KayGq^~azm(Nzo?nep2gatLq%Y&S!`812<)HvoT$Ar+9FM7uv^45oDqvYY5j
zUOC4>yCB~Nx`J`ZD{l$N1iAql$k!kS8ZVv#_(?=qQIs6A-vLP)i=o?(>5_5ELFup=
z%%6$ZoeVD}8m}TDUXx<>bu$~&KLOcV*i@mt3~{`UF~|#XCv3=z^>MTZqmKysH_@(x
z?FxPk``T<m`w8f{7<)NzBR^`|NE{FH`2#5q_~4udzjTh1(}$0c_FAzgHCPIh|IU}r
ziInb>*3Z!1;=9%G*y)TEZJr=HJPM~QctWIH1WT!q<$@MO`pO<Rl4L8W<YiLHT%r)N
zf6)jmYh9@cf-vvB8&TZYTx;+awO_<7=7>I&h}K9FdJPdWkUOit7|C;ulYsoKprAfY
z@6KF!j>#L*3QpXMD6?sz&1obgfA<~({d{Nx;f#Dj<%#wwh5i;S1M}56xjQs&vCY)(
zxdJ?~t;!UAm%+vsVx*9<p-SEw+~dn&4Mn*gdF0l`jlh9Bi~k06kI;48+=yeDMNzV-
z1IwrU0lHB;#n~LXF!{i_Vz6#W%`5{EZ%9~V=g^Ta9-Gj@p(pTXmpCDny<~Sh52@rw
z?W-KxnEB4RFCnEm9-RII>D&5#k#rNR`X5-`k1k}E&Z-0F4u7-NOr%D-tqpyz{A$ZG
zz^>)`y@07FiarA@J70R3LtmP+bkftGlRnh4503#U>kpfc16`9Z{B)X(@ygQAe<J*l
zlC=Zg0IwV^j|I9{#cg_s;ENGw<`VfUim3*I>ppka16@a!ihs!wnxD?eUq{R=yrUa{
z)T2k9ev6nLI-9*6vmAT%@Ihkz_3Jkg)TKGU`u^6a%`iLv<G6I7jPur@_kb?JyDuLB
zx*xh8d7a?%nV+V-34H9;?9D*gl6B8)1-k10@$GgXmAS5K4?)hlVILFuiWL*jbA(sZ
zIqi-EoGnmnf2NZMbbb5K&7nZqfuq#@MBe=P5Gl}oq3g1W;3y~mw?u9~dVV9&wdb^)
z^A_Y+va`bpx^IR@0;$W5RapeTP#m2Cl<i|O)C3zZ=d1_1+b`_i4s=~V$($klwJ$D3
zZ-xFy&2b6PCDx5q5X^o;qybWm+jh+*`eaGve1gwhd~yZR4}B@(PlP`=;@nY!yJD>u
zfNopfmlp|+dudDbHuOK++%W{`l4Xq*5&mlS#Hj>r@2;6n(31Oc0nojtWm7Fs78`Ne
z0Ca6m&S@gN>eaRFKx)(DgBEWa8D-Re|0H28szFPL`q4Lbt^&H}ymIL+4xPSeWY;@j
zUDRsF2ivgQIZ^xS{`wIySpNj?&qVXu+WQUwsgtXC$B8^)%X23Q|Mu^9m%NPu7ulR-
z11vR}Mw|fezWm$=UlI9@k}i5X`j?v)rUI!AF}gKCcl)Hw*N9yH+BU%s$glP{3JG2t
z`0Qw)JN5aFF@(=j4;V}Mb9)RaKw0^!;i-f_#%)L^`0F!&p9*wk9&%(8-u1^73W8aq
z_dm-Ki>oEd-xBuJ>u<cULmNfE@Wuw5ojHqhws2^1_+v}lP|8$GI%9W*xCT9S&Z8!E
z&Q~1%ORu~=GrFteplYMZX4h+5s!i5fgSSq86ce{5M)YohXib*4h6l|pRGp09kwFO~
z?0TcYq7}sAYyOxp^5X#|7(g1$T2F&~v+(Hr4|EUP{m%99p4%9|9H6)N(i;<3xITs+
zg5_ohC%4X+1c+pQ5nJth$$HJPTZ<nx;uGT6-`ih1?(vuAd;P8L-}048^l$mTBf95r
zJ<(lxsEO|4%Sv=NpF*O0Q#s=H&c;a;(Q)5B7)#*=EsU^ft+iUa@FH)15?hw4^^InS
z#cEHQk~k+Ruwo_6osgL1QF}_5fwh{SWYt;>u(vwQW?0mj4CdPEK$*u&b&JzR43ivI
zlfJRmkOXV1!(wy#6^*)i27L>WTMRAQT5XFK=JS&bR+yWt^`vk4?7WFtNedQq2NM`Y
zlBt&T4~W7m>lKB`+LD<b9D`rnBLp(F1rrd7cUno!+F&OhSuZDb=0<HuH$4=$bA%Ee
z?8z&<%dUJs;spEasp;j^pRK@!^oxIHZk}ITf<5|wh#{)G=+g6zF4$kUyq7ZvW|Bqh
z1Lx-#-)?@mGlM;Og(2L8+Kj}HM}9j;<a<}JC!h4Ly6RODf=*hn{$F;_p7dsewxzL|
ztp;Y3u36jcB*nny)Z%ByHZu2CL$lq~XeClf`XuorNfHjMZ|n3>rb3sNw15&uGG%2Y
z>M5Q_l<-<i3i+fl1q{QKg2-nE!=y9vdM1xy>KR2nE0fCu^le0#>(?tvVM};?*il%$
zl405y^aGMXa<b4SJj0Y^!B#$5X)!yh@+;Ccsl~0jf{GTMwa8RrlIxUaX`@yn@2E`8
z6KhgEHcGSDu2iVz=~CMzI(0^!R-MsMr7@cIPGzPtuLWae7<KA$(%(_5ZnqaI7*mzS
zY}VzM)#)sGEmgB%m!Bcg<+qV>+A7h%Qd3-4TVQTubqbY4XE9^^GPBauR*&%{I*mL-
zlUA0Y&nM$DCS9tksY+ce_UI+%+Wb6>QD#)mYpgdoRc4)~xV0)D@sgMns)~x-%9av^
zN?KPD5PJu)SEt!c{<st>Ta`jd;<9Mf751t;siRUYF%vuFsDbrol^b=IGNWE16&o~i
zpUzR6Q|XN-I9}vPTs*JTL~@~1SBNXsWyae4Tz`)0X0?&HyM0+zM$g=;Y*p&^22H9j
zr;JH&$z{jU=jUO~@;Z9vrOMLYTB#{bE%wX-`IodADtg9QW!GUX|EX9kW#&p}UpevX
zLan1kmoGKmE-$^}ZK=W<Vou^p{~l?V7Ana8>^c9ux+;yzsY_F`c?jBD3YD|6LTc7q
zRjqmx8+WMKY&z@h@?`F@o`L&IXRWa73b2m~0`^S<_T$gR6=V}?4FmRywW38|VD5P~
zdd7W6`I>E!I&rq0eeI_JeW<-{tsp+rJ^h3CcCDJ^s{YRRc0-xXyDq_JtXmgq%_KjQ
zn?U`YoU?|EHm$}Jdx(8hqR%&b=G}K*`aWx(y!rHZv{sr_qfK8>JP)<ZTUYyxtxlV7
zZquh08*B5VHq;}t!E@&CP2Rk9Q*Wt2-I6-Jb=Iy`<E&{^8Ek#D$}`Z$xzw|Jq1IC2
z)Tf$TbtY1SmF>lf^tQrzxh7KUl->DE#aZsqs-+HgjCo2&ks`fAX%&-uk6{YDwHDVH
zd;gV`;@UzBcUvvF=5pG|HI_?wF}crFq?6oEnls5C_7aqrr?jS|fRQssR><C@?ES~G
zObLMyxrhJBxRj-=m1!p0<T@=?vNvl!D`lH(iybeQ-A^pv1fMBvPzrG`|K-G>hyNVH
zm*tzCOmU&#Us^AJxV-V{;g8HBH=|XLwb!#VVh~b28J7)BLCobj7%z($D%eK>n^f=n
zfan<#irj1{D05b_L(lfwGjf*A?cLw^-e5c9PXp=Sv#t?EItC&6_6*O+#a`Z*e?3w4
zm_Iu;y~SVGiJH;PL@(AIdD1XUlaDVgVng#tyYqo34rY$~s4YkB^`~Hp{qg5`=HEMh
z;#%&VyElLJp8P?fAVI<pj4By<8&d=sNuJMXU-My8uT>MXdIpP&{(21N`*<SvaMPz#
u!bF?4xyfN@nW(qfCbAF8MDK$!Q8F3NMREN41d6)NKWcdlMa{&2XZwEwa)N~b

literal 0
HcmV?d00001

diff --git a/tests/hipscat_import/data/malformed_catalogs/bad_schemas/Norder=0/Dir=0/Npix=11.missing_column.parquet b/tests/hipscat_import/data/malformed_catalogs/bad_schemas/Norder=0/Dir=0/Npix=11.missing_column.parquet
new file mode 100644
index 0000000000000000000000000000000000000000..d793a2cddba1e7954dcc9486a5b99f1b230157e0
GIT binary patch
literal 8482
zcmd5?3v`oJw*J$G@)sIRp{XepEG>ix1(MQNKy3b`O`6aLEwo9CNb_nFNYXTqwka}3
z?hJ!~Bjbb1#W%XNmvM2uhzRm9Xb15*gCKO&t5s0+4lj}MHOSoW{7KWMNs(C>?z&y<
z|2z9}&faIAeI9YSkg1glxPlk>f?aflU`>L68cR`|Y5Mg9Y6OQXOdK(iOC9C$sTrWT
zJeoSk6H<w2e**d(JQq9-{4d}X$o>jC30?yJRkX*0J_St#&4&C8<nI8d0V&{LfYYIS
z50nSG0{Rg0??5TMENUe12iQ!2yb$d^v?rr|JK9pvI8ZL=eV&B+2>54E5&C@zn?Ip_
z2y`6u6=)`G{swsg=qFGwWIT))MEgA2$3SBA<pV#4{A=J?;6dm|gMI|v2Figv4YUuo
z8Q{-?rh-O5mIOKs`S-wl^c4W#0A@qKA9MozyP$7C9G;l^0J3?YWbl_^mx}fuL2rW3
z0{<G?U!eUh=q=FSK|P?KL8m}B@ye-m;H{vy;dcz|FM$3Vd;<DkLVFTu6!`g|IiOjf
zBgn;Pz*}G=17?CQqQ3~XH=|t)I>5`i?H>sg`*%8w0!pwoL9i_$m(&VhkR(XT6w<dR
zhKz*tzOY$3C5|J7)$chMHWKSK2^>0y;v^(;M<k7;lShqC;f=Y8pE`D2njrmVVaE6g
znG+}7k~KLyXUbI3H1Vy|XXMVDHCrOho0DHqSX3;VJMXsnx0lEng|f6vr7qWK7gSVM
zRWGcmU9`BaUZ-zpTyn?KJC`*Xj3%?Cxy5Q*zQXQswz}Hf9<Q&xqtoBD@~&0Cx;t>s
zYBq4ux|B=-H=}?`;%5jGY-T}1`kI9FOXJd4r-=G!5&h3hF(Vh-i4r7G`0xP~MYh*S
z!MVf=K|8y<dNF?vhc5TXIU{L`_9oNRZe;xj9-k}rB@0nLG_@JDmSCzF-%b#uT-u#1
z=YG|O4u{cUcPfp=TZ@)3HGnVa(+esGSy5Vgo)t(_LXbE$i}ECQvfH4Wx0^*Wsvbo8
zbfb*c0*gUHlmQLg&B_mhf0DJ^3~%C4pwMq*ZLP5FhTU5DD~7I@)l2&4Anx|a*$l7s
z$dQjvID%80sLElLU-{%hI%L)+CzTT`g{1X@Gh8@HIr1zzu_jH`mUZtA$$j5a3#U{b
zTh#F0!%hE|ZvUXiv9xbhACsmQuG?BP{nY0BEb`4?%AP#jsrdI-YG=H?^S&ATs|yZF
zTn87Yy?s+b<<X?pB}e6+1<IFJos?}qT{Mfkd;0?27~)E_J1tW%s=qAUhEQ2-AC-PF
zNpvh#bclz#hz)g^3B;|7;0VD_2^9i8TNiyO7Su&kO^|~_Hw)|Cw=kJcJ&E)ZCRmNy
zXiDW%RmpsAumVLONAl&VLaH)Z$PF%lnU)CIs*v-<T)77N@?`W>L#F~MK?(@u3=D&*
z#W(}xsS>I*nT$iH$}yr4o&xjXAwW)h8EdzeDnlG(-~i6b05?#QoW%{`1fFtRkez>E
zUU2x;4akDwG+}0u<U~m^$l%qb;5{paTO)k^9xB*0g?UQ+)(&w+TmE}T<@b*(d;b~v
zd!;pXmb&9#G%ZruCcIJi*!TA|i6`-UijU0EW)%GH0afi6hw2_uIX3;pSKsp3o&Gyp
zd{6b+ww(TY>7*@Pw{~xvAtu{WbZNrC>L!{krqJ>ppwq965N*s5eJAK&-l$lInL*s;
z<qOg(1feUH&SW!%4>FZ57$3U}pbF;+t%#Q>DVWjX@Fw7_NuWeOO&U12Xt!aR#qDl&
zhv&gbKg1E8nkd>iv40*>V-4dW?mTEgO8-2#DHtVo4uzDMOB6!(i$-*uZ%xh=B!o9o
zQdO(lYzasCtMoM-(U~k!PgdrTA>sydZ3)Flp?ygLinL;ax|B1Jyu?ylIHFCQ^v5}(
zH94Z=*(9V$_dx^wa%iLBjQqu{H5svADU7sW8J(|fqJhx3RW4g+XiY=0?VBpvFqMrh
z&PZ`%!|U$KO@m%{O%xTl>#i&3UjUBYU-dU&aFVg>@(UauT})AO{*edf{wH)f`z0kD
zx<Y*9OcmImv}uurh_`31_HgKw$3M#Ta_C&%;%Yyn@+UmLM<A7cZ+MnNTMJ)3^Esqc
z*X{GaBYoT7sFdx1)yN}Hji4)-^^2Op1ruLtw-c$A?&v_@Z#V4P2srS7=@4MvCzT%n
zHlD3H&Y>?XSwHLk4@n<t<69pADd%@PKL!Sh&i#CnjPdmP4}T{7*y?9Sy$D`2MUe&!
zZb{#92f@daPAw(!r<L<81h;({Yyk#Nte5-?M`*vlRK1OuIg)#~1F5@D-2XB$J9fHc
zFJ?LI(($9j`pZ9DMo<@)Z20C%&Q6$}{eF5rP|kUI%<I5_;I$`D0E2h@nDQgRM+)Dc
z{Sxrk&z9^2%GYgsa5pf}@{h0g0;$4n-8}?3+a|nA<eN6lJj)SY%I9?Yj&OECvG>8X
z$-uzZcU&G1lppD(ZXt5_Z^p`i!E@agwFGngyhn-L(|h&>V4&xug7Y%u-<Fgl5)58W
zOaW3CTN{fBex~f53zQ#b3UmZpFP1(J40fJ7xEC1s@l)m$;eYt-Lh5elPc(fj1qLL>
zX-a}6zZL0$RO_AtONm}AZCFY0!SnZSBKq-9B>jo-XC|HLC3qmsc@7wKsXjkXaQYLw
zQum<$X?NFHU_f3xO+@%hB{Sy{biKB9K0!y>yXC-Ok9UU|C{If|X#oayic8xFuYLBJ
zP9U}8H)Gc9nasDEzPXpM4(*tAM1A**`?mmtOP;>)GKbDzJ-Pc;umS2R-<x|-?HvB$
z=D)r}44(gO@}G(3xo2)Z0;E3OlKe4|XYP9VQ^LRU9|x;n!GNn>eo_GIZMI3DfDc}L
z_{}ef{HN+}dN2Cd+3v{$QrpKFw*rHmvkIRha>a9d1p6SrG}0<0_`~RjrT~L^k918X
ze6eoSG{T?hvCIa_>$XhHBm76)75N1J_0-?z0Rx4{d?kbr{Be_#VDXf<AL2+P%cPn|
z3ETIF7a!Ya;M0%2xE*_E$(qt#99ok2>vcgW<=S;?(+=QF8v23{opT{IIp_KhhySOq
z^)KfRoQ`9bS#2(l$>3dPbDAyTbMl>W>08H%P8ErIriIV&n7PF}Co>)`poB>tlhxud
z2>5unPfZ}d1}MQO(r_C>4f0e7=^{5Sp8K!}Uu;v;E1n-mkHwO*1CX0#Y9>VTh=@JW
zhscJ^V?c{vA{m((8*c1RlpFlgz0pst|C4u+=(;>&MAz}vA-bN=1ksJzRp}3vpn^qo
z`lHe`ipt0pCb<kwv%w=gpS&`g-LlI}t#+To>B*j(wIn-wH)k)+&B_j`L)+WJTCL1>
z8XOkbJAHOLEShZ=yLnl(EaYXG*Y6^R**>Su)M~b5!`kU{xcm`Ct8ux-<Rx;4#cMDd
zyat%B%(ggTZgaMfzIBULGmEoVtr`d>I*M$Yne>l}A}kvch0W<L%#V#BA|4b1ncAvc
zL=v7>w%ZWvBqST+q}kqTi0fvM;%bg?yv2G73$L@Q{$DJy{swD?IE`d0dLbj?Uzl6y
zH&U!e%y2+;9bJZg?Zo;UkPmU@!%T{aef0by;;YRMcTKFPurQ9Bc*RKkgydIqM1GUR
zdg_;6S64%hgqWQctN&lSXLq{WV(_-Q+0(#oGrA3KKRFCsegl4EcaXWaTihO7tCL8j
z`LiUmq}kZ8*<t5{lzGt2$zDYXQ<&P?YTew>14Gz1b~gFzV9FVWsR5C{1q_qVC|Vd5
z!?ZBU7FMQEMCm(-uq>ii*1(qV_+v+5^%{ohV9*ap1}QB@oA3-%T?|`Ak;Y;7HLC0L
z^?6n8#`1cv(OGG$wkeDnyR6lqS9CSxsU-Tmkd4MJ@o1FV<;J{DsZm$ZY|s^~Xw+Nn
zCcmaoqw->`0;^G1NBaBBx=v4plCd>9>~^ENw%O=Vc^enOPF)~1syoOy9S!K;ps#8+
zm)kp7ol+|`I_wy~)~>O2v|v1`QLiY_&#5gismZvE&6uZcYt&UqLVBs)tX5%+TB~Mx
zYm3FNwHqB(?Tu>0OJY)L>+8!Jywysrthqia_AX+to8z%X;!<i|jY<uP%VE&fdm2?T
zUxQ9+Cw9ou3f7-fVKq8xttP2VV$m!5bv|=xLpYw;c#$JX)$$q}$%Ro@FKN)#TFvUR
zNRFBpb&$9Rd^xq&(A*kbjk?Yi`n>*}GB%T=j2*|MR$<LlU4!$|=;&;3(AVTuh30_#
zOFJy}gX3)U7_pZBR4k5KdxL+toJ4f-*3n^9%dA(+%aC}zjaWm>NzxFhkxp5KlGNwm
z`Ky{6^;*Aij)u)cOl>K({)T#)-Q?7^n`~^{@nUlsomb0~eb9PF*O$>*?=hC6j>@Cz
zW(Df;m*R@CiMNJPwc@Pzn#%2i_r~D3uPI-P9Wp=mwtu*KiqglcZD&34nIGyOTia$G
z$yLj>*Y=89S9o1w_t=0g-kM2&Ave+bYuRTj3OWq>Q0#H)sM@5qhvq$eUWVUmp}h6$
zuW7CHc~+OHylOelvhcY&Y;4U2wY|fXS7kM;WG<XXc1vi_-<Z6G&rOq~9_N<KA3kS2
z1|9aAUR%JPk4{Aa+Sr#Swie8edcP^p-fpy!Gg#AErOfZBSYBo$XPssspLy8JT?U=Z
z$BwaF<EvEWcWImwa_=!rdHAfwHKru@Re1}!wj|_kQ<7`0iU^er<ZC3K(*FC9VSEdV
z$bE`?P{ZDYxcmsie#xhljIWBl-*6w!AXhPKS>1(pF$~L;?4`;E6~14|AnbSwwoX`f
zfg3$#Y*W3Ez0V{5$;CX_Kdxj9i@nfNx+vnWtQ5^b{@6(m_D80ws5Z{g;?51t2qB?S
z6UrBRzbhnUJYvXL@nskj`LOprX|V4A2py4glocBL<0a1x{I&J-HI-~C;>NGW`QK5h
z3;R<tRgw5hL-`t54|Y%zDx>f>gqA@~-Xn+~$o?rwknjVe21e1rR1zu1>0h+r=EG*m
zpd)52Oex#n6si|?*iht@Fw13dxA`pInI@NOCi`&93O~%Uq(yj^NisHMQdHc36d(V+
KW+DFXi2nhl-J4VZ

literal 0
HcmV?d00001

diff --git a/tests/hipscat_import/data/malformed_catalogs/bad_schemas/Norder=0/Dir=0/Npix=11.no_metadata.parquet b/tests/hipscat_import/data/malformed_catalogs/bad_schemas/Norder=0/Dir=0/Npix=11.no_metadata.parquet
new file mode 100644
index 0000000000000000000000000000000000000000..08b1a3757b9d0f530f14aecc93cf038655c628bf
GIT binary patch
literal 5857
zcmd5=30PFs9zS;&;0`i4EO#0dX$-iG8w|)QBKNY1$ZiC<B#Q_n$R?X@qZJX>)7Rqj
znVOnk@yL(oQ&Y^PvB)gTLQP41N{Xp37gBP|?ETK2VH5q{_r9|C?#J)`{@Xd{fBxs(
zGxw4trucAjZi9;3!p3p6GLAS9vW#UvmJv%vuCcJRmXm`@6&VGLQ?lfeQbQ~tp8!rl
zmqTa4{{*|k_5*Mlx*qz6kcR*#fnk6*>=$7F0_+JU;BUbr;oA@R0(XF;uwMggm0DsA
zzJZvbum?bHhddne1js&sBQP2`pwyFN;IDx|wEG@0UqRjj90tw-V-WKb?Eb(lpba)9
z`ZGel4EYeCLt7R2IPB-a4&dGJ4+3ri;{i9=oq!#Pb%uTs@Bl1fvjX<QejV(GwjB6V
z@FVc=1dc%e68I5dlsfVaY$1RG`fbG7L;eK#47wKjN084zz6yK}{0y`JzW^P;U}X$Z
zgGT`SFs>cqJAr>em!W+ZWLLljdMGd!@B&&<i|@b>BPJN^0$f3R9<dKW4gz*5wc~%4
z5$QT>W{z-cWn80dG~FvI&Wf{g(XbONOhFoUhdE45boa0#>d#E)5*l4AV^}xB$SmZR
zR@SV-W{|DYZm`PU!O@9RKcsOUGSp?5>%-dNkGQ#e@SeI6BS(!M<K?aQ@g3{u9}pN6
zJT7E>=!7sq43CJ6ik=uVDRy#Pd_rPUa>|rPQy)u9&zL%G`i#eCW@csQ%*vgemtXM2
zoWi2H#U-U><?|{ktEy|}Kl#+t&pc~buuw{zueWvK<j(%YO69DP70lvf>ROq)%Tc}1
zmTzZy_P?2;^JqLygp(26R3Jj=<7LfVvWVj<rKhV6^Jf?~rd(jGS;Ed!u%sDPzoAsg
zbrlK?whv2|0d<t^b+}gpu*%sog&;pyiUxbppxK_q;?+UY*c))CZQ6hsARk*RU6~JN
zi3ZTwYe~7HT6zo`l+6;;Uef{ErUBci4jcq%unkynvt-{3eYF&~45R5xiNe1`ip@uC
z1LEp1UJ!h3l3(9F2VFzCAXT`oTtGceFkA=IZ|6wPa}|PyHHDQ5bmt7T!cyEh*SvA8
z+ypIak?a&*s(opr{*|jF$vytil#KmvWd2oM_)SaEjP|G7MW>0H`n7>0JC?nYD=hmy
zc=g`u@V|YKGHT!ES4Qnj^xv&7+5M=~zQO+S2d#>y9TdtZN4)>^>ENcbfnM_Frpak`
zbSS>r$%V7&-WFw9rftz=qrPIrAF}87D6uaFrh1<V+;d+TExB8=I4)h<7wy<A*cX|}
zMh1tj7VF)fq)?I7C@)oviP#&N_9~K~P|1yP*aQNKFW75Hyh0;4PDWTPHA=feQ0nBu
zB=}<#XgLwSXdnUzhd~e#XtWQ)86eo}Nu+}I!`chzQG<~Tp%}qHPy1jgu8u?@58AN-
zXQe@I2vca~2Asg|<Bih%4I#$+udX53Xf6|G)>E8*R&>&LbqPk-+RBqPA1@%rOm}gO
z?(>bhxKh9U2ZhCsQ3uuu`y-Q6b5jqW$(#~hF!a;ZmDd+!>ReSVL9JtBo&EpxYIMq(
zJ*lrp7cKp^;<3DykJmh&SFxtOVENheGhCO?AJNb_N=F|{zH4aj>RQao%`q+SE>?ZV
zl3(J?U*o!$w_mRJnZZ4mSH(HSai*VC)<vomZm5)+8#3@IfXiGbNIj$UvqBl9Gd~1O
zt&H%uTzk(gwk&IAZdqAznRy<JdJn^Q4C6Ns>z+ryzV0)^|7ITbkMzz%fu$HYkuELY
zqW#SiVL99G1(DmL90M04fav7Zp^@$o`WO7Ty9*~Xp9oe7#bvW{&E<YZUCZ!y-1x(8
zE_ZeD8!C#POa}~2s7D%*RIO)k^(-O_%o#0Z)T<bN8PA{dpegk<@6*wLPHhkdqt}2<
zOMC2gYI-C@_OI8D5xuF&6G{rIO`Fq{+kPFtN+;!ZkDl(C8(vfI4DR!qnn{S^si*E-
z-T)r7GvOz&(KUPi?G22Q4I)HPwZ1y;AMm;D)Q2%_oUZjk0#u_<=9FA&ZgN>z&ak$t
zj*Xtju%nfaCf2|zyj5QDCagZ!v)*CY{D2QHoPw3ipAdSDwypd$K6oRdtXtPuvT@>~
zDYKy&E#9vzq}F`4stRqdzPx1#XxFPbdq5#4;=chcxtM&IVLPWS@>+b9wjoPCKL#dq
zuWddKHUwV!<uvW%?L|j_p}IrjI-5<<C%K0^fsM=68>drVWz{i*+TV@{$)((Q)R+f0
z99g7)j?ok@j-1#?!-^DbO<?luk;PkS*rBsw+c8VeuEPgu^!M-GMpB*AUjFfp+h&Aa
zygt$oEHGQ`J_Z}Ok5(T68>ip2y-E4afCJv|gP(sVY%^G>Z+xv8Y{>id{B|%2Xl!Vq
z%rp-DlG>Lp9dnV<bonvW6|Kw`IJUo5rvMwyPrp3`EVQ<fhpD~n1&3g;@lwN;SjuiS
z$`#aJ-ga>V*wAu1oY@Nd)vz!N%EsFkwqSClcxn*k?;_g9frY)Ie;VcDE0OEL#_CJE
zw}TBgPl_E>zwuqCeKY(=GLQR!4f<@)2+CnE^66kwylvME>eu;XJW2Vr%P%dZ{vmH!
zeMR*Pt{2)U?{b=Z32ZEhK6RP$$hWrGZ$taDW%C`t1|i6kr+Qb|m=MY(AFU0gTom<X
z4A|H*Z{sYm;AC|=7i`$9i!7yj>^tkK!DQnLcD37vtMYSxe2J<>v3B*;{p_Zl%fZHJ
zZ+C8GSignC8$N_;AZsc<+lJlFsP@kO;R_nD{zb*t)bsAThg!kp<Z{JvYIoW4#!0Gw
z@b}$`AE3j9B{g&dEGj5)JptW#<&DqIQ2VXK26j8zrxq;m1(PPn?6qKHwO7Eq)E@rs
zHf{&(UDo*;$~OkR?hZEkzB%86>OpBXo>afklIsl?QkM_&rTQ`X96!o`>G(MWYzR11
z5k_^xCrcwJ2f6Qiozd%O`b=6u)%N!`t=y5NVpncz!m~52HgXHY>MfqHH^M2z*4H`h
z!kKjUr-<pCGr8$G*L^trpMG}S2<<%`?Plf|l$7UW&6`;;cUG?XoczL3z1ESxHjY0$
z(tL&wnA^S1N$2(cL}OK+lb>6Z#W~;u#6w0uYY1mUg|aM@K;L;xzMfYHliK?WjPDq<
zF#phbsN>c<vJO~csYCip<KY66&|{KL_`7U(&8ydoPb_B_=M@k3+v@?p!awMD$Uo!-
zkN-p7zWCqe)rtQd-*x!k^W}tpFwe63fPm+OXVs^Cod|Ju(b$S9DT!(0OwYEa&C;7*
z)p-%3C?*5+nk<S{VtAeyEsA+!M4n^|4;RIFDj{$ZW$4`uZ4UKR(H^qJC=q{f!w+2#
zL5!uHgqKq>iQc54BBH!2y}hA?i}{jK8i_VEUx}2{ee+9lViKOnNKcuamF7QZYC6JV
z0+DpE6jqT0xe8+PBq{%ilC^s(Ql7}izbcEi!&Qngy``ig=iD`ZD)sjnKa%Px6ANp^
zgt(sZB9kEY8BZ!gPwCK}4in{HnNyTfm}43eDdo|A!BYL;k3=UyG%y0yLL=HCEnN3S
z>lr?0YFfhVsp+vb*<+<q{LqNjOB79+>dkt0{c@<QPySM)oTBKyeTdoJ`P1daRobm5
z$4f;sS$pe;t$@r^3NxxA)6C;VhzULUN8USsI&^qVhN&CV{PRrnha-X}iE$8=L8mV5
zEA-Pn=>6tH_o$eaM#J(%EDqY|(EVt>OqrXM&`_e$mSmNcR^-kblT%VMCJP_7Rocqj
fvhsrBxmuq<FTI!Ed4&rh_xmGO)`TSCpWFWi%cbg9

literal 0
HcmV?d00001

diff --git a/tests/hipscat_import/data/malformed_catalogs/bad_schemas/Norder=0/Dir=0/Npix=11.parquet b/tests/hipscat_import/data/malformed_catalogs/bad_schemas/Norder=0/Dir=0/Npix=11.parquet
new file mode 100644
index 0000000000000000000000000000000000000000..e0cb8d948d9a14a7ac5937856204a9fa48684fad
GIT binary patch
literal 8880
zcmd5?3wV>|z5mjN@&y`fX%kZ@SlbdJ6i7l_8W5W=X`3eWLJMuuBGTO2q$FwDG`%4+
zvW+3k$-Hnlct;=YVLTj%h#(h(GQ=Ajg3u{b6cjz<CNe~a?EK#EOVg%l(LKVpKK}E2
z|CjguU*7A-<6NdvA>xZ(NDytMOGL|KMAT@CT1(Tf$56v~d`axE;e6_lFoBv3nkl5I
zvqA|Ki}pvLPr>uS)4;y~Ga>sc=mdB<_*c;$1Ns;=4m1t&(~!RdoCu_Ve+Ev1?f^&$
zx(fOL@=Kt2VH!0Yco{ZhA<sqoING<OeFxeKP!cE$^qx>oeF*#$Xa@Ry4x2xsy$^H*
z^aW@NZ2ks$4(K~j4`f1&7exCU+J`|h^i2RBgZxY2Xy6{`M}ocu-44otJQ=hTwkhDx
zfF^*3K^6zv5BWF1Z1fcY-vFjVzYBB}{JWs9Ks=$0dLOb`AOZL*uuDYy51==}r-6SB
z?a$Eu8uS+E@1VV)??ER)HwlX=G4M9f+weOI_UA$W2R;V<FQPpjGy?o=&~(sL&_UGV
z6W}edQ2|py7tmh{+ndqO1ML>3-Tsdliv2qkLJ=ieA0yfjlSS4_f+$WDmnxy}h~<nV
z^v;l(n34@5h1G9)=T{T!<uN=ugW|=+@`uF@rv)QM#tTQ?l#n<&DOn`GS&}klZ0fl2
zx1`;go{>30I#G7pq{&%RrcRS9l+&|wa%beJX3n~O_8s|ZMx!k#EYcP04RcCL%gX0g
zRL+}URc$oY)GoMl;a!XB%oeN7Uf<wwHZFF#Jx$)`7GJBst-YhOYsuY9e|Asc-eqjy
z(v|V4B7RB^6_=1AiE-LQG2-Ph;)_Y*W%1JEw3Pm5QcTIhcA`Wv6n+u_6h*ezaM9V=
z5>XqwyLym6k4G2#)V$#|MYjrQY8$G4S(w0=`2`XzADUVVT0t;ThTjelq<p$Xpyq$k
zj1K$JVOt`N$y<SzBr$+r(x(Sh402#;nS>4?O-Vqq#5Bq$=wP=&w{RPaWK<J~^y$Vj
zS^>-hNw5rP;5JsiAN*6S-CB5)ae+d=nzePnwi|XU;4crl9#${!%|X`fQ?nIb;Zvg?
zAMr#dc@ZmzRes@DOK8rlSxr_>v=ox2^PbSciOW!@(XkcDMa^mVZI<8vH8nT0^zgiz
z1CP}Gx7hXmUiZS|OOG?jI?2lQGbWu}d%s=1_H)%!`#UuM^GfC9x3}Csc~^PP9=UhV
z{N%T9$|*e**R<e}+BZl0($W*EO{Zo|<!{?G$2f|(l5R^*6^-a!7A<COS!^01z7Qup
zoG9HV#JY$Mb%+E8T^GS&qVHl#L?(7!9LHk8x~QuN@^I*;VZM*g6(mqkp}d3%mSb(y
zB_>d1f&_lB1dBk8;;R!SRH;D156*#^fe6`Ep%%*cYCZJD0`$~DR|L|6G!Up67zPvb
za0aLo<y3)yj6)}?F`@*X0<+;EKu&uVYqx?bL>y$`0M5z)Kaej-;|Fj8XWkxU^AF4l
z4n4a8RWMX0WEL(?gcO7HpIr*x)8hFRlGpF0f_0h9)3UcV%SxKF4;)fIkW~2Iv+4r{
z6;<}CBcIjHD{_u~qw4W*?yZxJPuQDxaJnHS=Qj@)RerXw>fs{ynm_xi8y>%_^R5Q}
z)5o3bPJOv>{JO5&x;IRgk!>lxIJR$gV{LXTH@&-Q@zr6{)hW_TqTcC^h;@hz2A$pn
zQF4ihyHe>?wo>>(rNp8!(YpYuP@T{Udx?;O87T{G0^af%O8VXSzH^IiF)y;Wv^2GZ
z^5BX0@uVlmNw<va%_Cy0Aw2wh@>rSPmxlmT5uM1zH0j>7pPUFSitn8eemu$%JsG)_
zj87C2_7{!Ff*;FF6~%;3gt)S%7Mnd(?w^U5^Q2cZq(?GR2MqBODvFV~1BL_?Zbb#P
zd}3eqVhfz1h}Q7LPw=E`rP41ZkdVUN`wjHNp^bzy@)xye$%ws5Nw@{e$a?L(tuHiw
znb+CDElw`B12X9oGB&nBMjA9WJX5dU)bE*EM^S;h@4kBO1>neCWq$(($6LCtyucIE
zc@(8iIQZbq-$R$NOP<f8OJoO6mw^o`>gL&rcvI>!ACHcI;=`;~9-SqeU)~9+`bnSv
zQAicvn4ja(j@(yIe+ntpb;s;Wq;K0BrK-)a8h-HUVRQ+zYF<6KVC+k6E+Tc%?d|CM
z^{=<C2JC*&x(_hxqtf>QtIt#%;nC+8teX132c!?R`mGOvl;_fxW5B?Sv)`W}V?49!
zgYOAHy8PJ@FM`)+YLbD$b>hu;5_}@=<U%5UMmx(+aKi_|24LXmD*4ZO64wI-x(&q4
zE$G<<r0zNTz{|w!@TvSA$a3PvBZr9f=fAsxpw2J&^;cIjw!rMnH<Pk~YTnDEUIzw5
zuRV1X7`*e__-_e5n)}|gmw>-`E`JM9y>i1t+kk<Fe|)(ENab$m-b;|TVeGp^zGlso
zGd#(~Y+i@|Aa5%aJ04mg00zFi^U4^Y`d|-r3z4_{a<mE<JllQ2Kro|I_!yD<dd|E6
z4D3Cj;k^v`*ZKLe1cO&%<AKzLrrJD$pJ;n#0@eGO93#P|3k4g2!H%<gb^rt4e$1RC
z{N+#1CvJoOXx%XdFd(-~)Dq19mDB{Jnzrv=Nc1vA%@TqSox5)h(T{mD?vI2&J^pkL
z!QIK8v%sLY=+koqCq20}aXb2-YUvsc45;%aN(p~4f66R^-q+U8Cg?7Fw-^}Q+q&5X
zR42!sumb~IWChKHH$3-j2awwQ%Tdd>-<sgCesv#V-G)&siTa)wcdY{k7d&(RWgeZq
z?AGpA!3L<O{cmo^YUd^Fum9^i#9-sE1b-r$=byd#Advcao!}Uer*3`ZW5U1kzkAAG
z!GO!Won!&5ayrL<1U`7-kvBgh^6$#K=^f}_<-Au3q&6j4)&qkbQ*)mua?SJGMLQwC
zINTv2czNW*nZTg((XI)E&ohpgNchux?bCqjs&(U(g#VDgIGf;qo&5VOU?BIfKcDb{
zKdjLb%*%ZHVV+#RNTGj>u*ZM*;^RBb3H0MHZo=MKu)JU^kCw;&Vr39YwPEFo<lQ)v
z27Zcg=NzXd=UngM@E`iwad~#%={RbU!|C-|&8>@^9-BRMPQH^QUY{hrG*fzHQs@ki
z%5AW7GG${9C5iJ{9d@@_G#Vcu6Jp3`4J8^u8ZBn7LEb!^F8p-h*uEPW-!bSBy67f|
zOExCaqcO$ofaIo`kP4AHEMiai0kQ#k^=a{mm6DqB*p2=6y1`HQ8~uj-mpt&K|B~02
z^twEqq}TDSBfXxF6X}iF%i{Oc*e6n2{HZdTqEfOXabB~>X7)+W36`X@2gM?5lgsb+
z_|j*lEl7_%L(&&!rKNLf?ohF_R!h=7X15*o9>2>4i+ZQsWm^;}<Gd_t?er4Ebic=G
zZL-<ZVeRp|y`5o2lcmvaZ6$KIz13_px0+$TB;D?Txzp1?`c};^nv$2kbZK8Okx`^O
zZKQuh6d~DwD4d?w-0bKW!s31*kkpoDA(Bv9=`H4HC!B16lX_Q^c~Cd~6xVWuLp9n{
zNO+xH^?vY0`|Gb6;51yV$cYS#e;_yR%PiVs_@j-euA@ut8!OshpL~EbKQhT9_L2F8
z#n;LYH(Io(kZ=$;gDpnlhm&8+5&05|_S7rAuC4|g2~j&OTK|*Xvpc=TZf<RAVNU~>
z)6!yY=_H4Nx6_P&qG%_%x7k~K&L$6$Dzc}_rz+C1VSATOKcy17>FG-;Njy_oS#F%k
zJ!>Qzlctfsu7+ZUVJbl6Zw|v`Gnxjbh+!HSZ38RQXd?9OL|7QsYb#(&c>J-WuzEei
zv@_@jWCsEE8r7hsX|FNnEUqz?GE8|M`f6tA-7bHvt~%SKENinASGQU`rOtAv#-ewr
zn#?9mSB<hrZc=hKdY9a%*BTlv$_|Cam{V`YShXgH%i5{W)fcs5tQ?2MSVj8#ZN?5?
ziI#EJx?L`duCm_ZE^4iv2RmJk!lG*@<Ah=<tG5-q+F6~}ps=`I7{Ah`ceXcRJcY%i
z$uUi@%(3doxQx@HG&I*5%jBG1;j-z9kWZyU-`Lb(?=-k9?y|O89pWW1X${rYg*C0^
zT7#;-IwJNiVsD)8bB5#68oaeyJ&DV0Hdgy;i&Xv^qrye(P@~1HKaa*?aaTI53YFY$
z()8;5wt|{aJkjx@M)I=83MZ+B#aJz`F;+Tky25ac>gTnSxchv03=S^0T5qkfW3fru
zTT{kqbr-VZSan61v!bs4b*XiCwAGj@lx18FsK27!Ufn;=TAu}T`A@~-u5{IO4poz|
zZm@ZDTXZVNwdyh;-qu>oA##$}gx5%iszgiHXaD?*>T6AgPRn#XTZgE%r8RWcRI6N8
zkD<-#WaAzzHm}8Vtvb2-&1dBLvUsX}mSU`<;)r##80+ze;)=2vYz`yVil@5OTI}k-
zH~Po@qv|!^t?I<y?i^}8Md$}x+n#FTGn?xly|!&eQmcj^zqS`wdPDOPy~p}=gUy-Z
z2Wk_k|1tY)aZbD0#Kk_yIx4s7TwLBm*JbFv#?`G?|D)#0q;z<##bu2+%R=Yskg?U9
zb*^@+vdm#CQh9M6x$NAYzcF<Sotsv7HO?(nXXu>unT^<MCPNN;K6*4cXk%Ym*|lJE
zS9e;Kt~QI4oWc5zGHrHyNn@dtoOSxXdMdG(yUa$FpB<x7?=RJ6cj-NHMoaFq5^{}c
zeB^GcV6V9b@CEEm=O&k$j=k^lND~U&c=IPun?~3|Eqf_yi7<3OvdwJ#YNBfgX?+{+
zV>vO>W=}(#7%~pRGvw0b#wU%?c=J6PubpMJ&EzU)gDM~3U&Bhd`<b=Hoy%wn%_cn~
z5Bp<ENq?dU`C~6_HXpVRqa)C}PdQNygVZoC8yb7RSIosAq#PA`)+u>d^gSJr6_M(2
zUMoUpBk@wuh)!JjxK8s!e5ih!-uDI>i~NyJn!fXui`0isBz}geB0t)u5U*i62+v9T
z<x@a}IFlNgG7C(Jf7Bx!f9as{v#yH`+>9V^<d3?r`Lq2|40vxK?<b_r#$C}jX+z~h
zN~iJG;uqs#a?rn>yqiLQY(C6vN|NR^w>10hty8RC?-ceCm==2ErE$-{l*dvjYN-FH
N_wkQRbMgPG{6A|>(+~gv

literal 0
HcmV?d00001

diff --git a/tests/hipscat_import/data/malformed_catalogs/bad_schemas/Norder=0/Dir=0/Npix=11.wrong_dtypes.parquet b/tests/hipscat_import/data/malformed_catalogs/bad_schemas/Norder=0/Dir=0/Npix=11.wrong_dtypes.parquet
new file mode 100644
index 0000000000000000000000000000000000000000..2237419d42f8048caa412c215b2d48cb8697394f
GIT binary patch
literal 8604
zcmd5?3wV=Nn*RSZloZ<1(k7-*u>=T}Ta(b1288BM+N24+&_bKG{E_C?HYG_z)AWXD
zWM>!!Z|jA1@rLLs%kZ!)B8mtGWbn?2C@|<M0?InWO=P?<$n1OmKfR<0$UKYtY#zS6
z=ewNqedjypeCMPO^O!27SSa3{BHkt{6|WG8sgV@*xJdM-fEq#zrEx=s3aNuhDb!@p
z%p?(YHc3jwq5V1NICvp=5%9l&<01PC=mdBL_&3lV1^NPXGbji0(~!RpoCu_Ve*#W|
zZa+u`x&k^1`S+m2q%3ME@JHB;hCCnbV`z^>dk)%4P#S0o=%XYB^(pW}&<ynZ8a97K
zdmrc!=)XZzVe?nW^FWtCM<7eWcp<dUq5Ux^8+}uNpF#c&a3pXy^us|vfo=nhgFGGd
zI&3q*p8-t(4S_5k^fu%_0CUk-415bHgMKIIF!&EZ--76*Z0ZxpW`PpGUxr;O+J6AO
z13nA<9<;wg`#aFPpud6kf_?^_1dT{4p(MatLGQtDGVITT{tRA#{uj|60~!W?HfTC%
z8t4FW@g?vU*r<V-pbO|PhwV*h7l3vpW!?670mXezg;7k2*9pWM1XIXfNfF13<1?kA
zIdQy^RP=h-OhRSHkizPp>GKZ}>lFf8G>)PLal#?-Lq!S0h9@Q^k4Q-!nU*e=+$7By
zH9GU=F}Gxmm5m!eK|V42)=876Or4gaP^zZq=H<^QP|uuo+w3`o8b+%tD%KlHjHbDz
zW#tv~Dy!x%sID>B*3~a$Ew?Xfu-fbnXJb>dt7Wm<<8AdVY4f)SIy$?$dzRj@?9RJ_
zcQ5Axm#<9B6bm!*sQ8o&sleqB3nVK9l8b4Q<%#lRBDv@vnPSEi94AUFpzxIfpeXRC
zY4HWRRNTRxu8#A8k63}_EIY?yvb0$mEjEkXGR!i@qOvS!d)O`PCf3WYWB0MU*caGs
z?8EF)R$>`tiMPDV9%3)CEtVe3?Uou#hh>sQW=Xc_En17$(!#D_SF?@mO7>2654)dT
z!){=0>;r5EdxgEge$D=wJ<cMc&uQ^Vdf?g#dMr|bjm3I}TL`%Iyf?f=@#8dEqPWU*
z{gSMEw<zxaj+!^V?Bn@$`yXrgSBd+Ry&lW4WyhFwgLLJ(8Iw*ve!o-m_}A*SZ+B_`
z{k5ve?`^$*^3IC9-3s6C1?lgN$SXS--@5Ri#y?m0^0E`^O{Zo|6TZ4>t~r^wlHWHn
zQ=Htp0Bu%&0bUbI_6g-jM#%RiWlEz1jhX4t5b-5JskoNQ^f9ELrbP{vAsS^YD@i0g
zHZLKCT8q6+m{3K6lxj##p~@3dgrU*|5v9Qi(4<PKvIMCxG#6$jB1{$GkZ6*!g&HID
zB?;(hfKCt6fwT~47#N093vjA5sS2tnfs7+c)u5Xco`SRCAxP?{nzOryDn=Y+;2^3`
zP#7#s$Pxxo)5hNxLOLiaI4cxuwM4v99g^}b%#570XelHESCNAEtVCg@^v%1eP{VlU
z+3a_>WS1_<-G5N?U|R7<&ujJ<RaQHz4}H}zU+)_IR`pXq+})5pCS`BIf$64<yayiE
zSADgw`cb`S^`8PYO;6q4eS1^j*<-FXr@pa_S<`dt`VEt_$wrqyo{=dY7GA|Thttk4
z<1Ufp$`JWhiF{2O4pMZiSD8V~<rRu?OYxVKK!~G7i6!Du5&M~<qyj2P_A}ptzv0>8
z?M$x_Q1auW`?s2?&AQ0h*4Em_N4lJrtfb|aN6C+j!iI|)DP}||;`H8#M48;=@D&{w
zKX0hQ89=LV-VstTk@4;s(_fnskko+z@1iC9X!*vQ<(D&iQyVeZRb0fJh)A5+I}u?b
zMv0z8K9!A}V+!0i8j*oMIyO@*2(Ny8d25@)8BXh+k`=UkTbBHRtjs|}#0=#6GK!I6
z<TNU%UE}(*7gyv8N3@!jJWb0#l*!l1NJy~;`sL7ulU(2vwb*3DUZu3J1<S~MU7XM#
zny}pG>f$#cAKQuv@<Zdf*kX(nGd4Wou8bJ)glj+*x#Ny2=Qaa}?=1f-Ff_*2b9pnJ
zBr2dNP0E3XXZ|O2<8~?vX;EqRfz#z+L&}EvP9olvx!g~S5}*EbN;@r@lC+?r8&b_P
z{=gHEDu1xPK#Q95-#C37QmSXp?C(k6j<?FxTVOTxz_UX{rOc}Njo?CYFL$_!v{}^I
ziN4?6x9uUou7~aW0JA<X`vmaNnaV@7=={P}(;hrZ`cMzO`zes}e!ulIU~tCSpHGl6
zo?CVFXTp!Hcz)PR;Em(8>A=t$$rhI2)A1)QME;y^mXqLyqoF2X@bD_dKhaY6gGGi7
z#LSa$WD}6O>+plG5VMa@74E<+Ctf^skXV2H`^yOG{KEUby)teq%+CBUDHo`rUrBxw
z7!>bWdl(pEe@gs`;1l^D<-831%?pKFftr;Y9(ffQZ2J2*JAhRFhV^?1(i=v9K;)}e
zPd!6RFXqx+fdlk5D0Vz@PXaLb4SRVMP;=l2bqkTV{dS}p7&^QDf{Ea`?xZJ)+<)ZE
zW?*pd2`&8!<lhw*#t{r%j!Ohm7h3BJ2!5$MG83qIo5?d1Y`svl5g6(^yL$&P_|q56
zNy7j5<@wZCp+DU4nGzUO*e2=-7XD6N3#3}N@3Ihmwz6(1!AH*ByPD`nJrn;&!k-><
z`Ut^Y>E5%zkWYX79KlJ?Y)jpa{-@e{MgoJHf{Aj%Uo4zDi=c1My4eIh#UGRaLwnn|
zIDne;_!CZGaBFta62hBac)klrZTW5TitS@ln(g1-OIVL7c_mTb_0rBYz|g|y&c8y7
za+i-?{|49~^=#ms?bz*f%G-^9d7l_;{9VF_MDybFHyr>{U#v;^jL0*$J@y6RU;B^U
z6|Z5y<-TsR0am$OV?GBTy71ULUlIAGiuIx$=wI!+TLq*xrP<a2LtWGIUnFwvi`&Jo
zLw<2+vy|YE!yg?F45^;znLzjg^RS78KfTwP1JqQnxmiW{Plbzf3I5B;zs&*$^FIz0
z5<d8c)jEO&<KKIfRwx!JjZYHx*zaF@>UC?1=&6@B;p{A2QM8Q~DdK*!G6bc@wDO+x
zU8qTepXq#^<JII6>MaicPoLzQXZBae<VDRcpWkk6U*z&SoZ&k8ewt)mntam?`2!Qf
zH9Tr=vFc>T#ym<I@3%KQJy!8ZJkBQw$djKEC*z%tW}DT087n0o203}d^eXzE3cQ+h
z>%Wch-UlDP^d?A3H>Qb3l0k?SxpgLFLZs;van*j1Y|tG0wfHHLk(u%2ulpP220g%k
z?HAw;eZ0y4PhM8?8}clY-@tc_{6;=J<iE~2m8_eIeJ>YDF6E?CRK^r(ywB=&SpCv-
z2}@;M5m;nzbq73NziejKLRn;ekXfc=$#^wiFr1v#QkmE4al+mkaJymA=yJLpiy~#b
zmqqQ}K4K^fcwP2Zhf@Y?Z@}a0?o+hdTAcQFBKJ7ktqyCu73NE2PA|+|-X_wwdVzjw
zfo$2b{$L`bkhvVBe?$~v*`O#~-uC?5=otFM141BETQ&uegr_BIvqn4NWrLhFx?8O=
z-3(A%%MnUtw5PD}2D|G0(H8A*pk|QMzHCJ<WS{sK=Enc(iuTy|gN&$dpiBPuQ?$Q+
z`5<Qj%%p(WN6xQLe69K6hKlwS7RGQBYcmo*y!={@$giAePrcF`>S|C)h&pM}`v0|i
z?xeRlt?jLCTs3gJY;D%IZc+?<-B$dWp_9zL!`bF{wR(wEnLAA}O)0~H?cF*9lq%?^
z%a&2nM5d~$!aS3IvPjpa<&aMgQ^GJzC5U|HGE6R`ZDRBc)5PeSIGI)(q3<NZ;y%5u
z61IfLhZ}{{8yTjPK|dfFq^JOG!ZS=o0c^E1j2?HO-cXZUt19oXmDIG`yk)Kmm)2%<
zt6QzL+MYU<UQw&!ZH#V(->5US*i>Cgn>nx1YR+3+U)$`qcN_DK`gV+!*K9Lall}pR
zxyxUwV_fwfx7%i@YP5Ou?e+6vXUJ3944q`0&N}q3t1WMIl(;)NozA4RdE6Mk%58LY
zHeo!atyY^?JH0B;ZXn|_E}P1<q~2Vv;Ppzk!=T3)Rn5kh)+T4S$!+tLchnmYFNsNK
zs;MciYp>9m)QvR}vG)*r^K`$fFD{+QSFbaYxI9*KjlW*64%C^IZeoWVE#~}rwaqq9
zRkK~GRyb?5y}E#-s4g5&biBxsqP(TjMRH*?*C^`DRm~1VabJ!a=Xa90`+a#$&HUWz
zef8$9#kH#5oH8!Er<fbZZqQ@R^gRRfQt#>NsH?41mGg5z{*|51nt^fF`)ydue<&7D
zmAkI{YB}lC#ac&?&7f|+R$d0h+g^_~#GDj$eS4%!U8*DdbKv~-jrFyrZrgMtmxrjm
zr89Nc)u`Qeuc^cC;^K}Ko6qLGR-W7g)-!T{*}OG=TM712NyNTcjQ#jaaYfn0TEmFF
z;;m`7m$(O>je&7rSH2c_)ZIAS-B;UB5&Bqr+gn3?=JNfc_qM}Ka@BPGdwX$}FT5_%
zXRKcrYt59ukef*T^_;WCd7ai;KK2;<sKRb=^YgxXUao%D_`LP%uWPMpRn0zoNqGxu
zS-7rVHMT~p!QE+Bl{Y)|Y9H#6+sU8#Ung(jx@q^+pl+$V!*$kgHRG(+n)0~%=+)+-
zjdN+|_JYGx(`{F|J8UjegN<F~y4=pvmSPvFb;kaDs&JNjtY&q98>7V-DAVQk7`+N|
z?=ehCxYptt(~<jZZWFF8t)JX&72GvP_#*D6^N{<@z}<HRq{-cH#-7PJIfO0NahIZw
zXu|g+*UZJYHaeG(Hg@1XRuH2iCI@X|$TSn4sUu(9_@ogYZ-H0qb8@V13AxI-pehFW
z*K$(+e&%e;@U1Pj)*2Z_pFgIW^e2k2Kknuq;Lkw1_MThPCLv*J7?%qT_dLVQpNBz6
zIx3BvQ}VFre>#NoX+Zr}hHEA9Qe1>ieERrKJz>7MhznZF<##~*q?5M4-g1%Z{OFXk
zq|bj@O#gV2V7=g<8<LA3^Wx%%!pNuw^@kE4ZYZwBJ!MKvWJM59CBGg>5*|R9e;tER
zNpg85-=jC5cES$GC$}rCW-@jYR-5#<lYE9h<VnRalr+m{ZCes>wokSDd{eoHUsm{G
cm!+J6XPqMB$xMp6+CS>w@Q0##_<tGy1Cb2UyZ`_I

literal 0
HcmV?d00001

diff --git a/tests/hipscat_import/data/malformed_catalogs/bad_schemas/_common_metadata b/tests/hipscat_import/data/malformed_catalogs/bad_schemas/_common_metadata
new file mode 100644
index 0000000000000000000000000000000000000000..a72be7f8faaf1a91378de7f35ead67572523a4aa
GIT binary patch
literal 4018
zcmcIn-EY%Y6t`G~U_wj+1*H-Xl_j1AG)@y}c-pm-I1X(>1K3Wcsq$A6r?%rd&L`@B
zvWGqGiT`c?z#ewawc|Q*S~`tc5biynzkBZaxO^ZTF1NS;wan!2PmH1EYPly&Ztumt
z{5{)ba*uO+Iamgo^EbmVxgUZ4gJ~IS#)CjRw}N0CL~K-h2<(W)<nF=#erp_<R`BB4
z$=9b3o}dww`k`tEFP;PGmxQ#}^6kYI?eY20_9uoGp4*;jrMS<S{YU#R^Y?wtGqp+n
zuZLe)DsgU%ovG_h*mnoNvYX26Z!Ztnh#gt8sMHtM(_9PWy{Y4XMBla?^L&#Qc{vZ4
zJ_@o^&o;)U#e%dqb^T?+80#a;2$Akup=N5K2I5~>%L8%S8=&szPxV*F?A6sZm`xO{
zZKD1LikP;A!uG;9r7VVooPvNyyLt&o;$yLamUR-*ww&~xv9{AqigBAGNQSJZnE0Jt
zty3}UFU{F<nnY{!A`|jA&K4zl)?-ow$oh^hqgu-PyQXhBo5D$sQGWA$3Hi43L5XHP
z#l#(Mb|oYFiRiaE!otsbT2sHPtF4xhskAKrKf9-u9#~p94rn)UY(3C|B{l<psX_Cc
z<Jo6cFtNuTQn}LW!fTF&f?cOhidh8S5qrhtACXR{t-OnRcK(m2hxn~XgAj5CfAM=y
zNQv+RQYU0UgaM`T{04uH#9G1^&OjFT@KGz2FA*{)pa=h=k?Jw5aZgD57-adklIu)+
zqFhpot(o4CL)|;I+cvLDPGzjA{Hj~57t~@TBRPeMBs52Qalz?IxvweZi=H}kjHUEO
zs)t~!Jk*uXs6RE8#pFaFcF%PjUF`IAw;uLBf}B|9ba9S$=3UV5s;$1+aORXJG&$XM
zz<$S(?D+ufak|Qv)uT??5YaBN^<wj~r?d(YpL0yH4mLVNX*3>K%ci5dtyxb5yogC?
z%5tq6wuNS;FK=L9p}cZ5u@hWE)9(oq;&L@bp7iRKX;<MKl!F*uP=6jj)ZNa|;3@@6
z<=4EaS?$JnvUnjzh1TfI##rczT<9vDp()mq81+BS5%;w(uQ`m)*7JMH;zBL1V@hnp
ztx-FMScf~SuhMbpxr<p>Ju9}NGeG>gxh1D@_9i;q<-fw>cAW0=rkEtWUH9nfVr6(+
zT(<CrJ-9<SQ=yyW$f9y0V1B00U+?$S=2AbBXdE)RB{Y{^x#AdJb7t5S_bzO{?%ftA
zCv~5j`K5dEL~lSIH8%3*0`l=&xH2-k?r<YlJUKKPPP#VIxbGCNPi|!iwY|J4pEmfr
za@&*9XDQOp=C-L|tOj?_?Td~d-%GZ}u6euejQd7xHu-m{vy1XvQzPs<@~CZyPIT^@
z<8pJYMR8m6?{rscap)V3)(Co8+*fbJ*4IR5ZWLQXvtIF`A30W3^Z!rW;=XCPGW4y=
zGVZezO@Ufdn`PP`J-!TUs7r(9g6Yajqv*_Z8+)*{XbGkH$*5*yuamChS%g|%X-Z{E
zZH%PpsZd%;UIFJGA&t1#!Wa{9p1mKy*y1NR+uC%@;l4^Ios08Kr1S0=mvp{KtDg@K
zaa$AUP!y08&qul}!7rbUB~be_n8yVas**!kqaYdLo^<ht+Q&s~?~}*-7TpS$ILaxg
z_LhI1Qlt4yWl!OkuW7183W-1R8TFA7`=gUT<xfP_b=~3`A;HnWE`<hjo{*0pzzBxp
zOrlQlVR8L*h~p_j|K{ReiC$_|P>RAADXrpttx7@jG`=bPsKj6QTZ&YefYRY*;{SA~
ze|VC>eSv>!lH!MRQT)J=NO4OanD9|kbVZ*sjV9g*;5m!#1A+t(AUJ=Q08|Wa#Edl7
z@icIoiYLtqO+niOxNX!oFrM*;Pbxx~{DH3pms2ZzW%&Lp`tUo5A9e@aTX@zL_J4oQ
RFgN{S{``qyKEVIh{{fIA=CJ?(

literal 0
HcmV?d00001

diff --git a/tests/hipscat_import/data/malformed_catalogs/bad_schemas/_common_metadata.import b/tests/hipscat_import/data/malformed_catalogs/bad_schemas/_common_metadata.import
new file mode 100644
index 0000000000000000000000000000000000000000..dfc011fa65c46113e0681c61e6d23fc4c2837cbc
GIT binary patch
literal 735
zcmZ`%+fKqj5Zxd#N_fSzi4VN^CI}+&@;2KRyaa?MS|BE*H!cDeS}x&l{3n0NnJJJy
z=%nq=%sD$}X1gsg%ek~VtqSEha!3Bm&SgX{eUVa9V^8EV<b-zY9C^MQV<(~A_rov<
z<M0%LU3@0gta_<r+*Py;X8no3RkAyOZBJLeP_kf}uhv5>rhKQb$f_U#pp7rt3&0J?
zA=Chdpba@Ek&wVQlr#>w!6b~)n8o-Lz=jIr%D77~2~i%sPp{J~IoIWZH>*XS^~MP6
z)thCvVy>O{`>@xUV4g6Y90=(1$Rc;-ay>)GAt*F7ZbI(+BL*35m6M*;9P~QRTc?68
z;gB>sIb0rOX%|ZvaW>H}$Gpj%)si*9Y2hxG!{b6*?BjNWn~byjqeB95>*ln((XE}H
z2F*kN`rrMNwA^;%GIcsn{6Dy|X><svgQPCt=ncwZoxSLP^Jv7gEusxU=lw2lk^riR
uCY1c#4i_tbS#am`f{oX1lVAH`G!DM<<=bMZSW-XEg-AZ)CnZD+ul6rNCc?1*

literal 0
HcmV?d00001

diff --git a/tests/hipscat_import/data/malformed_catalogs/bad_schemas/_metadata b/tests/hipscat_import/data/malformed_catalogs/bad_schemas/_metadata
new file mode 100644
index 0000000000000000000000000000000000000000..fce59f1a7b8934e0cc3b0fbc22358133e0acf918
GIT binary patch
literal 5773
zcmc(jO=ufO7=}l(Vz#bZlGwYfs1ig|Puw3{a#}S_Kt&_T`EeXY78KdOxa*Z7tF|n8
zWm`6clJ;PNPd$|!LJmEL(nAkDgpfnXsq_#+=%I&Fa>%VvOej5=e&5WlR&g!FqSbbg
zcIW?n=9|&WYO^diAqRr@Vnpq)>r2IoCLbqqV8pNb%LO72V8+lyrms-cMVn-33q`}I
z8lw0bG+1RnjOfo)jY82FQKs(=NyiBhz53E+V<ZGsiDp$GQ!8&BsC#o^sa&h;+WJCy
zwNPwnRc=ec>EIppeKC7H8i5JnigUy#CdP|f>wu+KS2ilE<2B7#+bFIpyMrNEUX1h~
z4dRMqzp~?3_J)+N2kGw;l|riYX&(SWQl<NTkyFU%A+;p<fgF&D>?d$J3O5+y2<4~Y
zkUU_a7@9!&en9!FpFTZCAHM-CT>r&J!pz-TOCZaCYrAIId&_3QZ51#NBxU~y{U%6X
z$`;Jca}Q0J&u1PsVP2{28s?vq_8v7)mPzDO9{cF?6ZFRu77@l>gamR;qE~9WCfa@5
zCbAEAE7D$=J_>t@^xHcj*>9d6^Y<lqzEpO6bpI56b}IBS84ciJQTes&DD0fJqkunN
zq4%v%x$C31DSa`5g3Yb4H>GRg`|sMq+#*_)e;K8BN4fIrxK>E2WaYY6{yT0fA21@p
z@bi%J-4K0wo<4ieTzz6{_tx+OT>Z@(H}?Ph;SdJpNdjz#O3EK+h6w=+8*5`>m2$ma
zUM+cRVh&+?Y-0{-dTnG5aXhgyhfLm>nL{Xd?98F4n}+64+Eq()sO^!door)j-aLwR
zQtz>Cb&~J3Pj%Aw#F#okc;iH!DBQ80PAYDCO(!i^&83r=M{d&YuT{gS!UIxaeY;ky
z|Ih#O4n^s)&o~N8uT94hj3*A{h{zi|a)jiLH#w4Y)2JK?yXsnwls&PqkUGe6xoi3J
z;<cLk>yZeitx}3HHUnQwR~T!sWQkp1ti)0!UYATVb`^8b@iN|_Y~7)>j4chEVUbNT
z_&_tXLpcf=HieTU>zK{rg-fL-Bb$*36q0O-S8^pBXr^m;pFOiw(=TPdn48UA*YdID
z`B~_8=`28><J~s0kZ(YC<}&BM$ZM^oa8BTfH8dOtX$>?Z94fthK>ssrZ_!U<Id^eo
zn`Ne(dg&}=Tl9DknxTX7C^H$`)GN6aT}T2_3Fn17j~}$BVUka<V+x`LgK$C&oRu)1
z$>sTc=KB2X)b`?sT;(Gegz;ibkVeh26+a!DTKM@Oy>g*-4z_6V<Mu*Yv&u79dC)|y
z9X~h<K%QHfYozn0UW#R!{OQB_Q98LjC#DhWFNyU-Lkb~52RhB+()qc9c`VU(>%lY1
zv^;hzG1wd!uj6?%lOPv`c$}zV^BI3kuhqshcrn}vZx)Suxw;yjI6EF4j|T6A2x<2r
LUnzuS;YIYn3p>_@

literal 0
HcmV?d00001

diff --git a/tests/hipscat_import/data/malformed_catalogs/no_rowgroup_stats/Norder=0/Dir=0/Npix=11.parquet b/tests/hipscat_import/data/malformed_catalogs/no_rowgroup_stats/Norder=0/Dir=0/Npix=11.parquet
new file mode 100644
index 0000000000000000000000000000000000000000..11e599de14c5ea6fddea68136a060165c096bc57
GIT binary patch
literal 7956
zcmdT}d3cjmy8qIK@&y`9OH)%QwG;>y3M8Q^4U5f}v`G`X&_bIuh%{T9lq3yV+NQ`g
zG7f_<D%XW!5E0Qwdy$9BMZ_Y4K~Zs?K~y@()hZ~X!zMDg3_ACBzNC9uWSl>49^UVF
z-sPP4J@0!qp3Y+`r9!T7hd{WSE)lMb6H>_(wVtM5jiZKexT5$WL%GxuzJQtxn#rfB
zvwRU1kM<{^&%txS)4=})j)&}TpcCLF;9o|26zEgX7|=AxPec9=a3YWb{slM*y7xdb
z(9fV_kY55N@-wNS!0%x*8uC1}JJBAC_HAfOK_fvqp!fL_>SN%aK{L?rOW6Dg?bksc
zf&L1b0-L`>E(iSx>VS-o@giuSL;C|zHu?&H$07d;m<&7s{cz9^pxK~tkf(rNf^8c3
zGoT5eA&@124nh7MFc*D=z&C(d(C-5s1^+JS8xV(|O??R2ED#U;W!NR5{Tk>^@R{IW
zLHi4|zXiPo`UmJB=qJ!g&`tbeDiwGu=xz8N0sHfyuffNm|3$PjK*PY#0Zj)@1sz5%
zJ_FtY8wD^ObOHUvu)P`We9(S==InpQQS9$j426_%OPp|PTn<?)0%3wMAszbv<eXm{
z4_q0?p~q32xOnc6grPKV*ziRDh?@jS$s<#QsW*$#MvYD%lW|Mt*sO8mCx|Cz-#Te>
z&XlRsBvRS*TzTG%e8tRJv*+Aapk!3)!Xk~fSf`&`Qd(9%ucC7Pf~snRvBtFU_C<Fr
zt~Fb%HhW#Y!`ZOJ<@Pjsm-_sHU{iBTsCC($%m3r9@ZBrekj1-)rwh4haw<WPCW>>~
zgmI}W<5D+|Ox-?Q+)0b+TXV4RDPbIij{rbXWFrg}o{cXNHnIDl19ReV=wiQ;GnA(2
z0FS2Hk)QAR0&aGYCqkiVYCUKb!K7?_TR@O<X&+C?{p(V6ID`)ENi@>D3N2Am7+=z-
z15^xhU=bMk4j@g5K-o!|l%LnaF4#7HJBwsgBZ%~AL%~-8^FbmMj0U!|@<ZS^vv%v@
zEjt=0^lMpL2W;D5w+jC9q3dAvlCC*qxA~Q9)>iqI$j2uf;Ym*48aJNz#7dknPMJx^
zSEOi`X5PC~a^JVqyz!+U%&&Rxk=j3|x;{MUUevj~lS$EvR&SXx>E!zR?8^0DDmEW#
zQT^A8m6PAzb>HND<?;g(?|}s=Z{H*@J(AG4@QBhsSN;6*6N>GpW=!R_Z=Y)zL0pO3
zlhcL6x(etsM+<n2m%1rI+$IojNF20+ks-n#<4S}^wt}4~D=Ju95#it<%S2^5=kWy8
zW+Z|zk#bbAHc3F0@dVsR3Cg8Jnv_W*s+1?<M&`myPlRm!l>BV2QU`r84?VTeX+Ua_
z3IZhq!$?v-_LVY8LKX7JICPQ{BZ}ZDJO>`a<OEf)cB`l&#6boQ<NOJ8!v(xdZWyQ9
z_}LLmoub0CBG;}1g)uV|xfP;U@1`QP<C!P2-`bg7vNZR-BgzLx7QO$J^1Z@}DtpyO
zU)0XmI7h!x_1JfJ*Jfu34(1=8u1}NS|DdMwi`T0j*0|UGC0Jem*d3ue>Vr>oIyap9
zYEj09)?3@QPR=IVLVQTnQ-^q)-5M>#*F#gc4iUGfiZ_iMv=9PeN{KLfq0r=zV1JlX
zs&G`_l{Gv&wy-!W<0$c#Q9Zks_L&#keZEFt)MG=cPu!U%-jVie`dg9S<Bx~Q^>-K<
zEnYi%P=~ZIv1@|dL^8W;Pwx1bbYWa<MJJRs`fT>t)GVnD;tgZO7t#mybc3mEzolnt
z@rBM_S-g}Xem&#bu7*d8b{!MDe{7E{ZkgBF(o?Z_GQ}G+2la(l$ImzQdUe!d+248R
z&*ydkhwm%<J1~-AX}!FI!>98pN+~$};LQJlZrnae0f#QhK76_iY(!c+-%iBa(^vR8
zbmFFua{?SXhrgga1gY|IfACRArQeyK=FpD3mrs8VDb;%0oJ*u{(;KCVov<2u_=zEO
z3A1K?9k@vR^Gz-yb<oYt==<&OcdrHPf6)3mVAdz49|G2%srZOPpI^9U>I26}A8PGe
z9|I}RrCrB?;TdOtIzh&Ga?P=y2%lX3)UfBk>&B~6fRPQUJ8vhrDdFTIB7agn%T93X
zu}D2Id~}WEHyn}cfkN$8V&>*`YzI<z9ev;hV)ntQg1wmK#ETytA=Y0$dl^BUU-<iP
zejc|AW@o;elnYdHUKsHzFf4p!^HE^r_8$^|AoytB`_rBW-t%<9E}(Mt)`!}G;rf4m
zwHHX`ZEZV9kh694yF|Wj-IOyN(ZyU&OYksfHxzpxTEzo~zq<YMD4_Ci2XzaP`+l3O
z07lNXUC<L87vgUua(~B}9l-Fx6DrONkbhfH5Kl02IX)3cU1&7r6Z}lwF%zgf#K;W<
z8!r@Y14dfT9@q;E|L`eulJMVuc0Q>c`lGeSrNFSnGEq&i;CEspkZRnse-Y7VOKX-9
zeCXW0>xh2T;|YHv{OOF-9R&BMc+LVNUd`v{2u^x@chVm8Kjmvp28NaS6UBtTSTJQ4
zLGLSD<`8rjy;}^791QHV0hK8UC+xuRuI$34gx5d)R11*W`P&gI_ly-dtl!*AShs$}
zYNEdDxqTaek%dp5e}O~it{B_)GT1QnMDWc$SnV9ap}N1lLkzb4j`wGxdFH8`4+E)B
zH}H-VdHU{0J|+B%|9znRMGUyY8zKu}jnkR&3HZo`N8bE`$bT$vqxYhJmGf>HklH@d
zvIQ7vnVR<uk*l8BBYX++i$fhEg5M8+cswv7d$e@|;qwi{CKCSiLHjhIvTDN^8R0+X
zF3BbMhm-%91q|nX5G){k__cLvg8Ad$ewZVXESBmv61MZ%=N@~>ETA8IZaenQ!j*-)
zIkY7Hp4Aa3mHO4IQugEU{D1SZ{5rSiv>UP5;q>~g=D=d7$7YY6dw6ADN)|sX6JH!V
z*vXf+O-_jt{8oqEZ5Afu-8mtSyih6OFw*duqYZM^Ms?lyV3h5-rto}4kJwEzA+==N
zNIDrsV+SNB{)BXhl-(lsWbP;H7k`fyujRD#w2i;~8GQrqwi|h3+~7+=e1jLh_(tw-
z@h`rD#lQR}75{6?G4=l0D7BbQ-840YqSA6i30||uX7-ED@s?$=YkIM@(G_%i{8=+I
z7iRTc?pcd+GP9!U==!&_R?D(HX15*oo}kMGi#n&>Wn0`=7WJ|?5b_ektf0qfZM505
zVC@OIy`gSJqou)a4G_889x&U?0W-{(W!XJ2cY5kc->L<gDfwB;m-htIH;OE$jr8vm
zMNHN&3a2NKmpd?qZgH;=$kdkSAd=X$vV7)&PNK4YPU>8Z=0V-`Qe4du&V_-VV!~h9
zRo4T2pugUleoniy)wht{;%m$;`T`&5vHNjORKKFj=sSF%zaDu%XF<#)pV;@EU$^*b
z^TVM$&{Iq}h?~I{Bk>cJU(FGDgb(!8CH+-h^*a&<?6iUUf7v~|(|vYxpwY*k1}>+?
zXZD52Vc-p!@n6PfGWRCC&+lyX5UDhGs${A(3mdj;>GV>{pqrkxoDwB6m6hd&nbDhB
zv~A=x@@uUxW*DXdM1FG_CYMpwGa81eXVmqqOr`3hZzjT`ZoRq!wuHxz9fj5F7^ay)
zKOh;TFduEgGfa6tY*jOKZdcHxt<E*d%9<?2)d7pA)LHISS#&N%quHoxt&wRYMp@KG
z=aTq!YJG!6)*`hS<aK6)e2K~Ea9KmTJe?+hvE&Ymp^Eem+6*oJ5;fyAxm_-cwzAIR
z)&xxRVW*W#E!t)>PIC?V*BHy{Y{jl-R;SiWEp8XauXO30&Gi^hYB8$h#_5%EtCoz*
zI4v^$Qj?)f64gsxHmwF@R62AGjrI1B-eqx@HJP-Cm&ByjS63I+1j^NVMO}5D*jtIc
zVY=Vh9hX|~HK}zZF1OiG?Kf!@!5V|qMeLBHC9FS>%3*O=I;>KK#BNk|>4LVxnpivo
z<3)}nWepWhk_(HWT2f=Ebl9{--8rh8-%R4}@#WDwqH{BOO@@{wMp;)*8K>1<#ExUt
zYEUyxYwx_6+$~Kt#tK<kbPmYBwAo(WJ5H0|f?EEfSlpGan$VSU(ybe;j&6%q;ka5}
z`o$YCp@x`~q^5g~v?xl{WPSFYzoyP))Q2q7b!;96tSz-ZR8y^RSv~qDtCNj;u-Lp7
z&(-qe>Q&Fa>&xP)_FIavj*9!Nn<ZF}*NSU^&0sa`vsOIS0c)|V_ul9o_jToKfm;#6
z-VR-9J@wHKwzfUh#Aj}_|G>3vGmu=>U;o-(Qt6G=W#As`(G6BJ={0iGSARYGY>B+t
zY>dV}$T}*wYF*KJUpX&V-fPjkb?L9GRz{h_Yb`Eoz*!bMSFadbomuN@w#v#JHjToI
z^T=h7?)iUD-eTvb)m@EqOA(5lvwpJyd(Ehqv*)8nB}W_k(#oy{o4Yz>mARTMPI3n8
zTFTV9%_R**PIA`idh#j5UT!rT6hU^323@dJo!hGONXWg%FvYR67T1`X+-D`^+EV$+
z-B!U~bM@d0*_+Ny?lUcW-{q4gd%x)xOrAE4utjS2QdAR7?0#gMx%jFE<`UAnCfvso
zVx-QUhBh%|9E4|T$cG)DG-Bf|@Tk0YmQ^n$S2-J0c|ZRuRvNvZS=&;4RYhi_j*)cx
zV@gSXqKNrpZ~k8Xw4`g-z9nrE5~hZ6+0by$BR}&n2uVkUj&({N7O_VG+hX&n#rZ9b
zot5m<paGqt>5Fz+5aVO{Q?dE&6+h{u>N#(tk^0ez#LqBQ<fCqk@hYZ;@KI^6`4kc%
z&Zq{a%mP#5ANlBxzjV;}*{4jgK3b9J{E-)S{%n5)3Gek}9bxKh+!Z}VyV86}>Qr76
zzQ`wvgZ|Cr-4y$=^I_&tqD-&Zw=`%EOtE^sQ`kpfX6%udDV>2Qo+NE!Iz?USAO3_#
KQS<Qk@c#q1jC<$+

literal 0
HcmV?d00001

diff --git a/tests/hipscat_import/data/malformed_catalogs/no_rowgroup_stats/_common_metadata b/tests/hipscat_import/data/malformed_catalogs/no_rowgroup_stats/_common_metadata
new file mode 100644
index 0000000000000000000000000000000000000000..4cf7a744a1681971dbfc1dc15ea897e169977525
GIT binary patch
literal 4018
zcmcInTW{J}5JqiPwX14ZYL$veeTXdeY1;+}bVH?;_SgYqHX((kwsEzJd;?5u<J#ty
zD*t4k_o@GF|H96kW6Z^nX0=@_0iT&UGvCaa%i%rg6!#wNf34*54<mD6d-~qf+}?wi
z_wx4~E4TLpzJxk^xo_Df<2?%XOFIllAzMBM#$tUBc06p2Ldy<cK0p2X?9tO)j!E4=
zal)4`fb?5Rde91-*#_;$%YhR_rXF89zGbg)pXc_U?7zxC40PYpqx|2Gzi?FI(j2*C
z&yTow2cNk0&D<Za4mieU+H5NIh4XdK26=z%x**YWY}dM6r!gy+@jO65ZtOee$g(+*
z_Qzf@PZ=X)Xqz$8Jv-JdJ=Q_|3upTv?)ZJ&`|+aw`k1@9S%O(d!8sQ0Uqg}5Hc&Wz
z{I;CMkdjv*pldg;07>E&7wTCfjJ9E<=Z^HPW>y%t8G>ZUT1trD+0-Hpv-Vaw8%EP;
ztsi7c{)TTX(X$rQ8bH=}G|6fyYi~*4Fg6BHj!}Nyzm$BNe^8=XO9^p{nQh64b{PFO
zLs<A(OAG3EHMP+aGL@F)|7Y{G(nDL1M<MM7u49CHILBrX%ynp-Q}lgehmkY#ky<Rj
zDZD9iP_T>CSz(rdcf{S~@=r*obFRE&eLDa3*&#mH{RSbV4gdK3PDq*XeNrc+PlP_D
z@%$Qpio{yV7uq0;Yj~&@%9jY464(ddR0(`9gu3v?PrFLxs;iz6a()bZ`ClZ@9c!Xo
zR!gmk(U4=qKXc9<-jLktNLTsmZmC{SOH4*`3y~x=hel~uG?YqD2VI&vaLu{&R;tIK
zt1>W@kGOwqDYNKQAdcp_t|4}MhF6cZ4<IL2iiS8vJqeap&uX|+$`hJJ!*fA@$CaFE
zAM_Osm9MBror)=<Ug8*~=4VZ56&SzhT4Eji=?tXdsBh1kuHm&Nnh1CilhBmqS~ory
zn$@1XhW#4lm7~Z>aS6>p6C}jt>53d__3F5*6kU{q7+q0&K0h$L&cG~I3%1HHcw_6N
zo8Zafg%}lD!?uI5Fci7aRXPJptfevPeV8Kdr7gcXV7_UArp&I?(junBF})hqV~TY+
zv-<UFTr_Vs>8kBgi}?WYFHUWF6{i*%aF+iHi`Q|x^Ib7XdE3s>GsNoPwzzEIjWsw!
z@Tt&Eb7WRM6)-<n{jc{lwK+GABpQcIZVAnKSFXCI-<+5Z#k~z%VEDJi$z3_m_53n?
zIWiiMM~$_-xq^KB7OsrUwliGI6<?0chPzrDtGMqJuM4j_huWU+%BMB{w%qn*v{`2R
zv$<_47_0u>bNi|jB<GT?u_bTYnH9egn|1zO>g=jA)m4UlOCFt@qRaf=9hcp;#^Sc%
z-|4K>(jYJ!ts(TXq_6J8*3(6IYL;39t6mMDAGtQG`Tr+wN#8U*8TwXrp7hyBSD@C^
zW`*`gpRd3>)TK#t!Sdv}S#l?agFRT9wS@BYbXaq+*GbEGmY|leb)`C{I)>8tOekMV
zet`%$&rWfS@e$6pHXU<)Sf9{I=iyKj>AX9}S75-zyZHI=5SKN94n+Zp$$X@*W%%T?
zu>)#v0`s_lLPGfv-cgVYa7}P%GX40H=)3Uwz@|&#Gmdf!>U_gKPpND^Q(2g~gs<tU
zL<*@ra)$enk=Ua{oBBid5D~u?b;?Lx0<M8x3XRV9_Ipr*;b=?LC|)d<R|oJ4sUr02
zV$vJY%E=HmvGB1?7s)z_AHTS7pe}rH6Tj@Q3~2<L5I-Rw@k1CTYo5$-&8RE>oFEZ;
z(vY+a5JmeCj}-seR{Yd-qsdML{09FaF4TXzAA$ka`*?o>*D3Dy^3ZnqgQ4RC4L(61
z91iTC;=L((s6XV_T>c=?!_Q+oer*Q9YkCPhNG^E??E1I==Zjo!*I(|hpK`hP@N4}a
DYK`T}

literal 0
HcmV?d00001

diff --git a/tests/hipscat_import/data/malformed_catalogs/no_rowgroup_stats/_metadata b/tests/hipscat_import/data/malformed_catalogs/no_rowgroup_stats/_metadata
new file mode 100644
index 0000000000000000000000000000000000000000..925d3f6717d1cbf510695837a100c9cf98b5052f
GIT binary patch
literal 4804
zcmcIo&2Jl35MPB5(hs4k!IneQl3J=IM4H%+-NqG_*xkhTn#5_`)L#fi`(=Bb-Su{D
z$8oA$IB={uaH^^baYCp<oKTOP5C{GO#G&V2kPzybnfKOS+v|J~$|_mEH#6@yA8+2w
z)81oq5#QwO^EeZjYRWa$5Pg>!-{g&nz=WnSzVkS+MLKv(QDw@Tw#6OQwi`B`o&!d2
zJ^?GHvJG2N?Hm5}=QGon8HP%|wW`@S=797`pEQ}ZwEYp<yE`?_YRY13M>7?5fb0Kq
zVs>u!Y2X?~zZ+fxKzJj@-AH87677d=wdMcm!W?)MXQnRAq7%LeSm^&|#{a{G(97x2
z^oI++Ngv~zVBmELei-IN#21(6eCK<Jwn!0wKj(io75eT{=*h)1K>iwVAu+BL^VK{4
z@81r+@Q0qwoB{LO_g%;PJ4Au&emnGXHuU4{8DPJdb79?`c5#2c68h@O8F2r&I_H~k
zqUvM}1(p2u(37j7zvj*W`r-rESWGzA%-7dKzg#;5;^XTsBFR@5^0)cW)A=(%zKXe!
zBk4}TAzNQx4t*UB{e9gF?|=L;WOQiS|7`I+hM8RmOj)9-h|R#C=N<*gnc0yWdfPCY
z!8`Mx1&5DQ@biWFAZ63@r4p$}K~pqTkT=`94iXhj)s>xL8r8DX>RKomY@3?gP}Cqu
zn{C7D_8ASSuF5T>8){2b#Fhx+kAkWR;+k2-wGXzFH&=p(hpsWhRs=N#*AH3Y&_=A#
z%+{@#*M>fMzyx&dZ~-iF+zQ&FR|%z!D5>ZTajcpF#&L?^e0w!H#5b&}SD3x}200^2
z`_UTS$UgZ5-)QOgYV3CfWW7O^wElbbx%3fbZSZ6T<%j+2laKQcYKT{pLmZ=KTr#2_
zN<U5!wlS}!9`%i?8Yu~$lji0BXZ7Ty+p5@V*rXchnq-T17mI<_72zt;LEraOyQwuy
zq()+k;l)T04s0)V2AEOcEe8*oz(qEf+brCnH<!TknI(J<s%e&Gx8NV2Pgyp`a#c3T
zvQ?I^5*o)1@jFOd>+|_7ki|JX1cmSgmhG^x4t^12bp^&aXW7jakmYU*hTblx^08tx
zyC<ddEy>)_HZ@KX^h84}atEboGF*&O89@&>1wK=kqWcl45U+@Z_-?sa)8(#kOGvf=
zD_)Zd4{&{3DeO1bc~&bMx-O-170F1p%J)Go6^}@%4&ro5u)b8xR+O~fAv``4kqjO1
zbGo2)s(=@fid?+7oQumT#AP)pnt50*WW$sn(UnvZFmg4a-l(eGj4m13y>bfdMVt6c
zKEGCKZSt8!B|l{Q0m>Jan_Ay4K4X=60qruxLcUo}CfcP!L`OM@(Js+vay7}w)#OMb
ztQNT*udS?>9DBU>LX5)M`j&>VkP7*5sgSEFskMHLD)&2Rx2wy{)TnP|t6bRMEk=7W
zWi{DYBRFy@344}27>rBV*xxG^x1w3<1H?blQS*a#mYWjn<-fAU$myl-Q8DTB#_gja
zr4qH{;xb}ys|<SxK7~vD9NAB-^O&E5{wFKtVx}uC3nUJn+~PCcQa+)}W@b;;h~49C
zvn2DlIOzlXIh<dTnQuyI$fNX7-t0m?o@AFtX51bQ<%*ea$!UG?Yz*3cs(5W1i7uS&
z?os(P#2=U2W*&9M=z4E%D+P>I_4K*Do3osK@t!f4H*U`&C&Xr$f0}c)8}EokYWtWx
z+LTi|_50|!9DUYk+<N>|?Nu>av*dKP4z<jwt4G>a5mS0cj%I60GGReI(p7rq|DU)y
zbyGI-P`46Yr_MIT0-UvCCQj<3$;Dv|=TauQpcwhC9M$(E4QsHlpXFnn_4=BIwN7y3
z8HKZaAQlpBf>9UR8+`0QFvHmQST^m{T4-ZD_Oo?tTU--++ZJhaRhX}mPG?|0OObxJ
zf<w~Zgzb-(mT<bplcvZc$LWt`7=t(GjU`Ykd(e-=D8$E>V2pxn4d-kLUj!cq4&JuO
zSt^<G53!XKqc%tMbA(F!Gm+hZH@7Ah1vcE*$8O+yWH|ar=O56Q!lk`)i(@niTmxKU
z8uWRH&piOaaBK-gDPAm`O92^?c&4C!N1R$ot_F2jM8iiHZ98)(ejJJKfc?0LbL%a&
zv<ZvQewKZJFTUZ-Id&iClse$gDiWba)!D2BqNpF@(YJqNto`IFlg`i`q5eZ$i2r0g
z7zx^|m`C6`v3twiw4?mN&~a87-VjgN99ZAMdz14Jf7rWBVBYy;b5pjgo8%HW?_Bcc
ZBe&s-7oL4O$1q3zF)!dd(mnWo^$%y=m$m=^

literal 0
HcmV?d00001

diff --git a/tests/hipscat_import/data/malformed_catalogs/valid_truth/README b/tests/hipscat_import/data/malformed_catalogs/valid_truth/README
new file mode 100644
index 00000000..8dd3ea47
--- /dev/null
+++ b/tests/hipscat_import/data/malformed_catalogs/valid_truth/README
@@ -0,0 +1 @@
+small_sky_object_catalog
\ No newline at end of file
diff --git a/tests/hipscat_import/data/malformed_catalogs/wrong_files_and_rows/Norder=0/Dir=0/Npix=11.extra_file.parquet b/tests/hipscat_import/data/malformed_catalogs/wrong_files_and_rows/Norder=0/Dir=0/Npix=11.extra_file.parquet
new file mode 100644
index 0000000000000000000000000000000000000000..94585fd9eb85bc6b4a4702dbb8a2c162858b6369
GIT binary patch
literal 8880
zcmd5?3s_TEwmyM~CkhsX(4c53U`!P?iGW0F$w?p~k%yp=fVGkrB$$Li2oS8()R}Rt
zPNz;EUax)Iel6GW^LDJYS|5$AW9`cst5v3TT3c;x@A#^9tnFCm{`;H|2m#yqsxy<%
zb^g5`d#|<EUVHCz_?*jB$%K623yH$5bg6K8jF1{lQEO@X^%!axk1vWHHk?l#N=T$8
zgJves)Y$|P6^r&qpijZ`!PCIM0J9<cE9eAxDfm~>9s~LqG!8Tk^3#yN1Dpt?fPV%~
zg6;rF4!R2Z0P;(q_=F5<IPfxT#zLNt_HndtMf(o4WuRnG4(PoEDfJ=nPoNp-_c?6-
zi1t3v5zrT)DX{q)<awa)Ks}HpV7wsO=g>Y3lAv!Q@EGJ@0!IV)KtB@nE$DVo7UU_Q
zov=*<e+D!GGz_vh(0<6j0p_Bw5cmc#6Z&1Cqu}2KeFfqrNT~NAn*|bpzXH1?wEqBl
z6MP2v*U<h9?XN*^f&LEK3;G^(5_D5S36%=G4fHnrj)MJp(EovtLH~<rj|YtaKN~b1
zG!=9Zx%dQl3v3j?bkGI#7sK{uv<pDH6Ebf9M-0XOPK8iN3D?I6H^k(ST1gbf3FFd5
z^c}IBk%-<IGE1c-gGgcZTi*HA#CmxQkItfaF|qt%al>iBh>`ILqi#w}8l9XXOubo@
zHfC)4xbe4S+?tt{JwZHCa@(ZIIa8)ilgi}NbMx|N6ewoSx_$N?g-S-HE-Kb&OLY1<
zrDf$6b1SRn&9AO87;Ebm+_~_sMfE1L#cFG4v^$y>J6-N(PfM$}&DY-1>F-){_tKx;
z6S#L78@PC7e7caImPf@Urio%4R$)x)@|e_%$*IfY#m8we{m)D>EeG3)62?$?BmyXk
zY_H+Mv$3VZc6N95VE#NFUE)>phSL<?CZMTp$ol1kM83o)5TSf%YAt95!6XTuoghg0
zbgMwg|DpvQ_M^kLBpQpi0xeNe08i4V2UG&GqqK|(b|6iOK$4^k$}8w(w?TKpHWtaK
zMiA-KjWSvREC7j61~hORE8h?PDb{W+yh*q~p<m6~+F{!byA|+P09_BOm-fy<((P5U
z8D8O4A|D^|geQ3smBT8(@F_(!XV#)5l@l$6r1`u%R5)>2$_zTTGDXvpao=X?{a;ga
zv&#<8t3B{Y{eP!A-{0$6czo$`CPgb+xqil^lWXs{Dc63kcxr#A>VICTn*8>b`zP<J
z$lD|J?3thP_Dy+ZhvJ$S98!Acs9#!oLb2)8jH&!>o8}ls5m(}EDe1xyy=BpA;>u#v
zh|~*l;=@VeeF><G=un54z@T*z947oOrc`KT>*6?y1$9wh8RX&6&A@sepDReDo<e#F
z6RbdO)F&lU<$^?huoOk0MDmqMBC1Rv;s@uzOizStRVWiAe5DTh5&?Q@q0@lWAQc2k
z28O|;0-OQLBq>!SAmh+UN{lFir@(A@2$0iW!P>2$iV+7HIDoS<zz-A(GWY?Uz}dG4
z+4%=%1&3bUfFc-56J{1pPJ|SL^j}>H-ZSF)m7>@0rGoX@%+r#$HcLudat|C*K9F4e
z-m}UBMU~aI>LZ`k&(k=@zES=7H}}>{#wYGAI5=IOmiL<nHC3POtA1GHTJvXLP2=Nt
z`R{7<J$>A<?$nnH$FJ+Ut$V{{3E7t7i(~s%H`Z#iaLc=!PQ5xzygE&MN!Yu*5wQ+2
zgF%-!QJ7LH<gQdYoy`;;$W*FuO!O{*DwHR*!d@bzU`9$pn}D}Gh7x}_zVF<kTTP2>
zt*y<ip?UC9_wmFh$BDO$>zzl$SVMUD_snBuX5TynSc>S0T+9&f&G^X^p@s3i3&M{_
zI-(aNpOWy2Lc~7Nh)npg>~vvF=tPJsZ*H~PLh1fl>T;g=YL@s&R{DS;enLhu5_iCm
zfWob)pq5YU%U*1eBNWjZUg{G(@mjI?iwPv8aQA)#{cva_;f(yEik6Jns}zM>u#C*t
z&fEGz<Cl9Jom_Epu^o_zpOCPz4KmW8vEeoK>P`J#Q|l=zaQEF;&%FQ~xvTtdz~Fdu
z*OeD|33LHPDH9JqIP>?=W$ls{^5{~@!PDhngR=U0HX`1XzRb&`<Dd92r;SJFB+Rey
zL#lkz>w6SZ**B)=c(gtL)zhCsN_E{a`x5Ef{zjQ%GpvRme0msN%B-5#04^B&QoEB#
z?Q};6`hNZEt*ZgMAGGWP%=)P8eZcB7l}C8=`30+{KJWqQL#=-6Lm=h8wB;BuFyrj^
zC&(Djtoq=4!jG<acEpR|b=j&EU~paP<~s>K5qEMSkw2rJWh1!ZgJ2^taCDXQ=RA?~
zfg<e&V&)R`YywjE9DU$rVs`jc;SS7l;>9C}i1p{cyMmz3FZlIWSF^Uj?94Zla)C<T
z%cEWg286FYbrcx9^V|4u2|k+t-n5s1zj&^23sAXo!$aGEfyRG)xdTY$Z|L4jkhfv%
zyF|Wb&6G1d(ZyU|r|%$dD-=5(S|I=izP$6w7@+cC4|NNXxBhap0vJ5oeL+t!%b)NV
zk$Zd2yZ{XBJ)z>g4EfiEg|P&KS7PIV)P?4{0)n5Ydu9Ta`<Xlg!R8A^8-c;jvwL;`
z1K)nkoFx3^PtGT8gZ^m!F&Qu*HBVF%Ec}(&2&9^~?_Nms5?SpMf)Aa$Zw=9pc{1*g
zgg-t0bPvJZDekktphxrRIf9d(+?uo<{ZF-ajRppk1rx=DzgReB7D3Nz>t_>m6~9{o
z4DM~)Yy~P);!fCrfi04v7Q*YFd$touZT{t`<=byfv|GNqkFYNNsFg&0&x^a(0fP&k
zIsY<`&RuqE_p4w7)YHB<x1-v5iTfM=`VKMJ_$$Gmi01icZ$1d5K3*p{M&#*RANiQ@
zul(<xidQh;GLN4Wz$%Ah{72w}7an=@Ga~=4qMP1<{?(3q<v?mvvUxo)*f}--c_LRm
zzg@T!@{7amB7&DkKAa5<${+2TK==Z~h>3(hz1KDksH|Q$PEPm_`HOQ2{@2OB&jJSW
z5BmxUANa!>HNk@Hw;$$7rHf>`#|V4;cP~D^)09X*{^BO=odwH_w(@9c>@QXZp;YQu
zu1ML9Gil(b2zSnLYI4r?9uEJZpB<NH_nnTT7TFyhuf^21$l<oyLg(Z=$*Jp;#g}G^
zk4y@k;ZbuN?3_&7m`91?ycWC7WfG3Y2grmN@>xR(N03IViEEH|9!?j2b>P^(8yMd)
z=n=Z;CZv{bOr}R;iP-_kO*0`KB4t>_p6~-?1LoDI#V1x;dfH<*_S@?Qzrx?>cgTOq
z3!eC2^7bXZF0W4F>-erCzMd~9;v2J<Q{Pi!pNQ$yPvt2Tm6jul^O)RLlUH<3uq2Z`
zC>B|ooj#Y_n>jOML1yF`lDRM^Ba>5ehl-80T9WBDxoog^`<zZ#G&pQd>!L^*=Veiw
z-$M*DeQt-P*=oy#wcF?N_``~3bCb=|M&vGAo5^ZwGr@dGrp*m=hr5yVt)8!$QjocH
zX<smrQDi!-q<=&dA=!W^9PYOK+~^p>;(j5JsV&VxB%x_#wwj`yaIyhT8l26hLEZFI
zT+0y-)o4#4;dOS^`@t9OufJx1({Q#T7cwmVfw^&CX3-wQA8kZ+9bIzYSkeCa<O7`f
zFp~meA349U_*(PBjTY@GBpk%eV8uxMaPn(8B40w$o_eL%)zyF_A!?^Z>wmI)cBi-6
zOl{4r>}lY1m|IP)esUOi{3iT~qJzx6-PY=LG`opZmOE8CRhEej+gm#Qlyc~%XD+2g
z@k~`!g<&T5S|i$+JdOOi8cP_4sRWVV9EQndRE>;=VHz2ABP&y>BJ>?ZSRB@?D`87`
z{Mb=gy^diz81w^@L5d2{COpGb6u?$BL+5h(>a;bvMtOO=xumAe>@IUuI8<hxQ_*ZP
zs=8|B8mUpv+31{7uTHIRGRr$<W<y?s$&k0W&S-a9{JMOdrVV4|+0BM((%)w_bb3qG
zjHAxwbegqQ4Q7|7t!^Idw0SbKwu6k*QH%by#_|ShiL-;%sr53m%Zc%;oH|EGBgT`N
zjjBB3^r}3ImW<0d%yNB8ouORH>19r<R)aCB?7F7rMw?&nG`q^%>$HfM#H7~O)D+jY
zRjBofhMI`jyNJDEy4MkoORe|RsdXeSm&s7$t<xxcwFa4!*da%YS$}So-R!EeTVx8U
z&8X_t`K(2?p?IR>MUJH9O_dIk3$vj{T5G7XTeZdE95u}AAaVEka_jBf-0D1ahR(%C
zd2db`hs9OQj$_ekux6UB{&}f$b+*?UE9K?f9FTumhpnc6oONC^*7Bc<#Z~33^$(Sk
zux_w*beXjZ`?c~iAl|k*tRdzktqs>mr=nC%>a+j+H4Sw}z27`t$L1lbw$yrmZH>Zd
zaqHVH4mR$=V)K~Y*UFQ#-+D&Ym)Tw8HJ6}{N+RlJG3xP$;)=2vYz-r7#a+{8DRK7S
z8~x+{QTdwhQuwjA{X^ALgnqEvcGnP}xm^F~+O`@<t{Q)QZ7;6!gw`c`kM-#WTQk`Y
z<R()8WA@qNybhC*i+zwfs<3FC+`Na*%g}p`%UiGhN3E4nZueM9%A0VOh0fI>V{0&J
zogEf=x!tN!cyJy$ZQP!}F?kD}n-*6M&Mk#Mbk2HB2JAJXK94;g-Kspau`exbEm&PO
zev91MZg!9}Sl3yu&h02|Dt3^wPS=-DIregw$)NDDV>Ib}W$N56om)!oJ%%X>owc~e
z)Z{)ZCD)e9OYXKx_L^%1U&P*YE^?n~+54`5G}-%2H-GZ9X@o6SvzMZpXhQcR+swsN
z6`e~+8`^OnONo&>cN*Hnkg*e<sU;6~e9{PwH{Y%D*jQHGLauT)sEPspRjib|pIO^7
zJXOUeqmGe={V`>vKT(AIu{VD|e_GPDci)mW2?<lfxNK;+=aHYe7=)ywQpY+aFBYMf
z0=C8GQ;YLk7CI~0SA!;W;?l=;njhjr`BSm^?H51kr0P3wxk$a}MB-<dYVuGwhj<m!
zNqA1$Z$3pth%>5*DL2EE_(wj%@s|x6Kl>_EqUTnGn?Lfx&Y$g%AmP1{)Dfo6#$DOB
zXhY41q)z3j!xQ<$;-G&Ad2b5+*!eKCDN%;U)Y{^+wN0^jJX6@0z>LsKUWRN2Uh$-9
UkEK)8Q2(g+@kge)_`fRu4~P8IUjP6A

literal 0
HcmV?d00001

diff --git a/tests/hipscat_import/data/malformed_catalogs/wrong_files_and_rows/Norder=0/Dir=0/Npix=11.extra_rows.parquet b/tests/hipscat_import/data/malformed_catalogs/wrong_files_and_rows/Norder=0/Dir=0/Npix=11.extra_rows.parquet
new file mode 100644
index 0000000000000000000000000000000000000000..a51234cac257e34bc0ddb1acf7dc25d9c40bea10
GIT binary patch
literal 8904
zcmd5?3wTpiwmxY?Ie`XKXkv;5ODQ2jfuyvh0kJtrn>3*hT4<9Nk>=GVB}vmf+NQ`D
z9mc^jj$Bl(7hm}Jw3p%IdJz#sFerog91#RYy@-OKcX)}6qJz%;_eq*IO^ePa%-npe
z^Y8W8d#%0p+IyeVkNHfET*wu^ClKzX%Z1%ZLTWTc_0aTdNz^b7SDZX-IF~xW7f@3{
zv-vc2mM^A~(LM_L3_KS+4g4Qq4rG4;9S1K1{|ee;L7#xefo4E{8uGV+lYtcQ&%i0r
zy$i|%{RsLH@^3(?{48oX@DglpfV>dxV`xu6`xdn2pfR9a(EEHD^%3wr&@A*j37bEm
zy%%%{^aW@dZ2k&)0qA?s5y<!$FO2p%v=4%$=qmtz4EdM9(ZJo%j|6=Ox*0SP@^sM4
zu+0E}1~dsY46+o^KFGfX=A*9=_&P8f`kkP|;NJm#1>*3f)CZ8w0r9|JhFu!ke+0b&
zJ`4P-Xn&6O*Pu5+e*^6S{Qx=vx{hB)iGVkO-h$szus;v_U+_uje-Z8Rpb_Bbf@XrI
zgZ3jAp8{`$jRKenx`6%?*j|rz5oj0qzXMP4>6?p_DfXv~qL30knIznhluK$xAWRXa
zWQyrtrI>y>DPk_7q=QJI`!~+{)nusdBn~~1;v^+=houasc_T)q@<&}KNE<yST`0O<
zoH6!>%yHvy%$krrF=vuwvh=1YQ*)<HpCOay&CD+-oK>WlJ?G}Rw-hTGmAa%<qb<|v
z=apAfR?V-jS+KCS&S0!>Saj>++m<w%%oeMysoCymS?YATTRm-FpFhyv(HZPocKh;Q
z-4VL;u3xV}Fp_ntnL=(x0hJ=i5GOgT!X#05lIVeS(VA4rd0ImMBU8-C#kQh^NfaIe
z07Zd+Zn*Gla=Eab-DO8Ge-4K(^C>yQX^QsqXlfg>e~B;PN&`GG%7~^O0<9#NCdIQ8
z1SyyH@|4^!+R$MiI&4d$v4|_t5~qdmBz=y6%0PCMn2~P>(v%n^P0ONuyiRsI^zgT_
zNJce+NS_{*(@J0wNQ~vDf!kR5KJe>VyNBRS8VMBo)vT=@wmq<034cY<9bxsd-Z@Bn
zd`e`1qE`Bp$j4ER@B}BWa#-aT0i~FZn6)WM<s?cWX+7_b7Ea1UWfq-Wovvxix@WWO
z-mj_oITZ&N)W7>+<9~>pAM9~0KDPWAldctaKRIj4iHGjBDIYqiSii4R^`9@*Onqz1
zy;FBq73`LIb}vkS>$-x911YVG4k&%|)GsVQuGn;H)^zT+P4f(+ETd2s`_eOoBYMli
zYl@V`rV*kGDUuUul0$sdMPjH!OkmKu2oDo}pHwb1vUPC`#e%wMtPXQ<_-0|fkIm-^
zsP#xMVZv3Yjm9(qRml@@!{sOfC6cd96H^sDF*iI9W_luIt3t__a+Nyh%XsLig-!!f
zgH#YG85oAsif|Sv(_~Z$kBmd7DKVlLo<eisAw*7n1#7pGDn%S*;1JHt5I0oJ%i@M`
z66f3;X6GN86CQeXLyB-TO_*6MIdM`9(tmX+c+X1ZR*PS|lL|NHFi%L|+$=3`%YXNP
z^1d;p??0`4x1_q(R(t64#swP34X@We`t6;K((!^lMf+#!GYWpcMpN_o-r5H=uC;#-
z)HOePTky8#z!S$D>rQ>Sc>KDqn|d}(m3EEC>aNJ_Tis-<%@SGOU9{-OVUqP3lDkE{
z%NrN#5HlEbc?H7sa$)3Zr8C(~;ekwvgkuwT0aVdEp%wEICj~Q78r=k(?j%amePiFb
zMSD$4Y+i4xH#!fFXfH={ahzn&xZZihjWvXaf6YABW%td4howlI$chP)gIT|LBD65I
zcR{$RNJrvg6jD+yQHa?m8u1A~os%g{ik=85m91W@Et>9MiSFh|exD;bIWcp<5WgU!
z7%6hVkbq*XgrL?=?#o_si6a`(T8`*3j-*E-xipD{6zkq^pq~zHB%G07LeY{DdzIo?
z3zqTudi$on(72TzM`xrsBe5NoN;XN^*ajJC(Ae<0`k0{K>uMuKg>Jw7$8*mCNA9fr
zD=<9X+;#am4xcWfD5YTkn%Vyi-Nc=;Vh&v{-G90gY*^m7z(&NIGVk(n=+wtP%Jp;T
zT>iqUAf(F2eSwD|m49n`hC|y6Upf65q*T`}bH5>d+h4CxY=+hF{Z9;|%b8URn!tsV
zUubs{sh#fVK;N%_w{<mO*BZ-Sz?`EM9{^ULsXoM^&o5dv{k{)LA8PfR9|0-%H(Ndi
zhGw1p;W!!NsZ}5TK={#BPmg#Wye>zT4h*joZN8P@V<{&V6Zuo>IW~eDJ`6VlLx)$%
ze$5d(?<>)6AZ9M!kxfAAj>Gr8NX!nND&B!vPQG~P0I@##hsy}+{G#7|_2a}XFgx?@
zlzgC)^Wv!2fFa?l>kk9Nw|<xU9l?hS-=FaUaK$slTY$>$4fk&YhMNEW<qjZKxS?kc
zLC%I7-XZd}Yp0#zh%e@IIs^MTTcOx-|4JS(^yRIW#{!l6k5D%fx%W4t6~OS>o(p<{
z6NCImh}?JN%yYodp5rRci;#a^T%1fWd^tH4NL^@cC?fc&`p9gcavxJ*AlQ1LWFs)#
zd3N^>VCcI~m=lD*^y&GuZO|WX{8$bQ$;^}01dD$wF#@U9?YkBey;NSmjNtv}?paIp
zV;@iX6X8#fKYfJYu5|ZVVA!Mi>>R-<k8e%ej{c{-U88{^Wzl2_;V%|Xn?um^>XUN`
zx=P<E1BUnbH(P<q^pxW^U}%f9q>b?UXP)i^Qk#D>>hA3m1a`|;_Yl^lAJt9NcRasy
z9WcD;sq-&#=={4T^t=K#L_HCBV>_yyBiPsUm$!+*#^3VZBbsNQzJ5QD`eYsNV<OMo
z`rs#of9bz=SG|M*@A3pm0jzR3#vcVAzVP51pA-4_RXy|$^sjZ?nFpjcjWIt740ld1
ze3r;n&u$mK4Ee?3b}_+ABOk~ChVvfonnd^_!-&a*KfT8`1E{QBH!hFxA90uF6a4oR
zf13jg6&?%}6F&6EwQ7PzId46{k;#_Gb&nAC*dLyM^ktKPe)RcG*gK2vF4@YVJ;^J&
z!%!;q-7C{~aiW+MMVwIsKTXIf)vG4wUhiS?|MWAY=a#<Ha?}#L!{f7<{7W2et1WtN
zo*pB5b&TYhIg*o8*mHA`xea!1W^62=#3??D-R3e0N8^KJQWE*hp@bty!)uB($U9I(
z7kib6uzfc&zH87UdhtyXm2VtFkH(U-1CpC(QYJ*on20^`2gnA@t51thu8ho#N3QL+
z*foBozt-=R|CAR#$v@?7OmbCTr6gDJ-A8gYUsfd7W-p7@FxV#&TC`?nIz?sVic>r$
zx7FkmpW`jdW)F%bmR4uL<@ROI&RUcme}-f)&dth>s3V7pjkQ{q?KZh=uy+TXPFOTK
zY)<Qvcv-~D5`WM`46_4nho#kO%Z9Z(;PM1xidJ)r&Eh9=m(6don*1i1FUz*MVeW7@
zlfJbJHPec+moM)NCO(R6hn4h?iy|r;5QW3-FU(JjAtvq@0-4(KTtpI`R<_ra=p-T=
z;H1gfY8uo{KgE?C;ZRNV6ct`&SG^yAiT?U)1~`pnD}Etk;-8pX<V!8lW9%c2sIH>R
z$TwG_zdrc@X93Klh}g%^FDAay{BWZsdWs4MaWhyk5<e07l^l^TqeM@=(yQufz>$!!
z(-QT+*gd<`y*87-)ytj+PKViR@&?Ia;0c=WCyNd;_ja4t=V)~ksXTwWY`Q!f8@9J}
z`YH3Eo0+|w5~ngXHC2Y$k=GjW#xXO<udBI?VVG(V`ORaPd`8vGXc(rMQ8%+Pl`2l(
zL4>6-y}BB<gvXB^h1KgArh`F0AQ_~j2yMbMOjQwVRkL(1XP`k_mv79gY&VzH`OWSM
zN0mcm);SfeCZnpWK2IYv=0$9DPMJ@q*0-4RI^||VL6gZ)u(ZKwcUpqFLY>Bsu?p;F
zLoMkauo^mj<!Z*!;Bq?6+L|V_OXF`?06T4g+^p>&<8;)cf4#A?$y(;@V0CJ}-0X5<
z{2Hgu(b0_Y<YuF)z&Nv}z@jDNG7fW|zOBJfDU0akPODafF>36(meyulQ13LmD%%^h
zh?m5q*4NdQ*88i}dPP%RT<l%M-Z0bWh{dJWdm7X_5|_(lsPi>w6oGn!+)3<^qou4r
zx5{pI)z~d^h0JDD_38rFlKN;oiSZ&wvdWff2g!xmP$#Q5)Yz@s(pZj~7Icuf`+T|e
z_Q>2CJPn4<rN+G8oH7oJtCStbqSau{G+q7k(%|ZBuQyibRYvB3{L4FRb^YUP@R_le
z|4=Nh8fSfQsGP)fgRP^>tX0^rl$QbV`Wvu@n3JqNRwJE?ay6;X{`1!~H5m0l^GqF^
zhlJWv>x1=m3a7=bZ?`zuxCe{PV|HIDPtJbp8DC#!cb(5%hB_*XtDB{$$DfKT!Dg^E
zjH?xQo!?UC?7uhq$NjVNwa}#qVs8hBs;4;pV72Y8BR=yZ{S#~3Y9P64{`s}Nw8j%%
zm&85RryFd|<Uf&{c>T}WXG;q@OvXs;gVa%#MeB^rd+59jz1Jdn>(&3PwKC?}J(jY{
z7Mx|#b9KnrnoL?}hb6DlZq+C}IFFpR$ezD8d5fN#7FQk4Ek!VT&iYIS>@}mlfIT1G
zssgmJFD+~>SY35NOP;gc>>y{buCr2|-%;LD>L6#Gt}mZ?*vnlegCf9=(V`1fsPnsY
zZW+1v7^W<G*5Vpdll!ckTw5w1x!bDQYpxl5347DI$bF_|@4F(>WbZfK!l^T65Vlm!
zUW#g>iQbQFGapY?VlE+VYR7#nBSz}{8E6wj#!h&qo;=v`Nh3PmLbu9eV_9_@xysp~
zss{L1vC_!>%-UAqsVX%Yb&M?LkEtO2i6ZKcz4`n3(~_>e`<ApxNSGSNWkbU~kNnKX
zAS4~tI@T$9v53ADuq`&9TAbhV=vm3W8nmEOBz=)i3!{8Ae=0V={o*H`RDI`dBvKzb
zk@y*=mORw0QC`J#5<VjBH=hzB#2MAXRGMK*{39Q+_$vmDpM8}n(??b$GJoWSoj=<j
zLBe}8sUu9Cjk~&U(T182NuA2mfG6^a#X<iL^4=8vvGZZ(QsOL+$=epN`KMVto@wk$
gU{>@cFH1fPuXwVIM=~jDsDIQ4_#@MN{2!M815IVwGynhq

literal 0
HcmV?d00001

diff --git a/tests/hipscat_import/data/malformed_catalogs/wrong_files_and_rows/Norder=0/Dir=0/Npix=11.parquet b/tests/hipscat_import/data/malformed_catalogs/wrong_files_and_rows/Norder=0/Dir=0/Npix=11.parquet
new file mode 100644
index 0000000000000000000000000000000000000000..e0cb8d948d9a14a7ac5937856204a9fa48684fad
GIT binary patch
literal 8880
zcmd5?3wV>|z5mjN@&y`fX%kZ@SlbdJ6i7l_8W5W=X`3eWLJMuuBGTO2q$FwDG`%4+
zvW+3k$-Hnlct;=YVLTj%h#(h(GQ=Ajg3u{b6cjz<CNe~a?EK#EOVg%l(LKVpKK}E2
z|CjguU*7A-<6NdvA>xZ(NDytMOGL|KMAT@CT1(Tf$56v~d`axE;e6_lFoBv3nkl5I
zvqA|Ki}pvLPr>uS)4;y~Ga>sc=mdB<_*c;$1Ns;=4m1t&(~!RdoCu_Ve+Ev1?f^&$
zx(fOL@=Kt2VH!0Yco{ZhA<sqoING<OeFxeKP!cE$^qx>oeF*#$Xa@Ry4x2xsy$^H*
z^aW@NZ2ks$4(K~j4`f1&7exCU+J`|h^i2RBgZxY2Xy6{`M}ocu-44otJQ=hTwkhDx
zfF^*3K^6zv5BWF1Z1fcY-vFjVzYBB}{JWs9Ks=$0dLOb`AOZL*uuDYy51==}r-6SB
z?a$Eu8uS+E@1VV)??ER)HwlX=G4M9f+weOI_UA$W2R;V<FQPpjGy?o=&~(sL&_UGV
z6W}edQ2|py7tmh{+ndqO1ML>3-Tsdliv2qkLJ=ieA0yfjlSS4_f+$WDmnxy}h~<nV
z^v;l(n34@5h1G9)=T{T!<uN=ugW|=+@`uF@rv)QM#tTQ?l#n<&DOn`GS&}klZ0fl2
zx1`;go{>30I#G7pq{&%RrcRS9l+&|wa%beJX3n~O_8s|ZMx!k#EYcP04RcCL%gX0g
zRL+}URc$oY)GoMl;a!XB%oeN7Uf<wwHZFF#Jx$)`7GJBst-YhOYsuY9e|Asc-eqjy
z(v|V4B7RB^6_=1AiE-LQG2-Ph;)_Y*W%1JEw3Pm5QcTIhcA`Wv6n+u_6h*ezaM9V=
z5>XqwyLym6k4G2#)V$#|MYjrQY8$G4S(w0=`2`XzADUVVT0t;ThTjelq<p$Xpyq$k
zj1K$JVOt`N$y<SzBr$+r(x(Sh402#;nS>4?O-Vqq#5Bq$=wP=&w{RPaWK<J~^y$Vj
zS^>-hNw5rP;5JsiAN*6S-CB5)ae+d=nzePnwi|XU;4crl9#${!%|X`fQ?nIb;Zvg?
zAMr#dc@ZmzRes@DOK8rlSxr_>v=ox2^PbSciOW!@(XkcDMa^mVZI<8vH8nT0^zgiz
z1CP}Gx7hXmUiZS|OOG?jI?2lQGbWu}d%s=1_H)%!`#UuM^GfC9x3}Csc~^PP9=UhV
z{N%T9$|*e**R<e}+BZl0($W*EO{Zo|<!{?G$2f|(l5R^*6^-a!7A<COS!^01z7Qup
zoG9HV#JY$Mb%+E8T^GS&qVHl#L?(7!9LHk8x~QuN@^I*;VZM*g6(mqkp}d3%mSb(y
zB_>d1f&_lB1dBk8;;R!SRH;D156*#^fe6`Ep%%*cYCZJD0`$~DR|L|6G!Up67zPvb
za0aLo<y3)yj6)}?F`@*X0<+;EKu&uVYqx?bL>y$`0M5z)Kaej-;|Fj8XWkxU^AF4l
z4n4a8RWMX0WEL(?gcO7HpIr*x)8hFRlGpF0f_0h9)3UcV%SxKF4;)fIkW~2Iv+4r{
z6;<}CBcIjHD{_u~qw4W*?yZxJPuQDxaJnHS=Qj@)RerXw>fs{ynm_xi8y>%_^R5Q}
z)5o3bPJOv>{JO5&x;IRgk!>lxIJR$gV{LXTH@&-Q@zr6{)hW_TqTcC^h;@hz2A$pn
zQF4ihyHe>?wo>>(rNp8!(YpYuP@T{Udx?;O87T{G0^af%O8VXSzH^IiF)y;Wv^2GZ
z^5BX0@uVlmNw<va%_Cy0Aw2wh@>rSPmxlmT5uM1zH0j>7pPUFSitn8eemu$%JsG)_
zj87C2_7{!Ff*;FF6~%;3gt)S%7Mnd(?w^U5^Q2cZq(?GR2MqBODvFV~1BL_?Zbb#P
zd}3eqVhfz1h}Q7LPw=E`rP41ZkdVUN`wjHNp^bzy@)xye$%ws5Nw@{e$a?L(tuHiw
znb+CDElw`B12X9oGB&nBMjA9WJX5dU)bE*EM^S;h@4kBO1>neCWq$(($6LCtyucIE
zc@(8iIQZbq-$R$NOP<f8OJoO6mw^o`>gL&rcvI>!ACHcI;=`;~9-SqeU)~9+`bnSv
zQAicvn4ja(j@(yIe+ntpb;s;Wq;K0BrK-)a8h-HUVRQ+zYF<6KVC+k6E+Tc%?d|CM
z^{=<C2JC*&x(_hxqtf>QtIt#%;nC+8teX132c!?R`mGOvl;_fxW5B?Sv)`W}V?49!
zgYOAHy8PJ@FM`)+YLbD$b>hu;5_}@=<U%5UMmx(+aKi_|24LXmD*4ZO64wI-x(&q4
zE$G<<r0zNTz{|w!@TvSA$a3PvBZr9f=fAsxpw2J&^;cIjw!rMnH<Pk~YTnDEUIzw5
zuRV1X7`*e__-_e5n)}|gmw>-`E`JM9y>i1t+kk<Fe|)(ENab$m-b;|TVeGp^zGlso
zGd#(~Y+i@|Aa5%aJ04mg00zFi^U4^Y`d|-r3z4_{a<mE<JllQ2Kro|I_!yD<dd|E6
z4D3Cj;k^v`*ZKLe1cO&%<AKzLrrJD$pJ;n#0@eGO93#P|3k4g2!H%<gb^rt4e$1RC
z{N+#1CvJoOXx%XdFd(-~)Dq19mDB{Jnzrv=Nc1vA%@TqSox5)h(T{mD?vI2&J^pkL
z!QIK8v%sLY=+koqCq20}aXb2-YUvsc45;%aN(p~4f66R^-q+U8Cg?7Fw-^}Q+q&5X
zR42!sumb~IWChKHH$3-j2awwQ%Tdd>-<sgCesv#V-G)&siTa)wcdY{k7d&(RWgeZq
z?AGpA!3L<O{cmo^YUd^Fum9^i#9-sE1b-r$=byd#Advcao!}Uer*3`ZW5U1kzkAAG
z!GO!Won!&5ayrL<1U`7-kvBgh^6$#K=^f}_<-Au3q&6j4)&qkbQ*)mua?SJGMLQwC
zINTv2czNW*nZTg((XI)E&ohpgNchux?bCqjs&(U(g#VDgIGf;qo&5VOU?BIfKcDb{
zKdjLb%*%ZHVV+#RNTGj>u*ZM*;^RBb3H0MHZo=MKu)JU^kCw;&Vr39YwPEFo<lQ)v
z27Zcg=NzXd=UngM@E`iwad~#%={RbU!|C-|&8>@^9-BRMPQH^QUY{hrG*fzHQs@ki
z%5AW7GG${9C5iJ{9d@@_G#Vcu6Jp3`4J8^u8ZBn7LEb!^F8p-h*uEPW-!bSBy67f|
zOExCaqcO$ofaIo`kP4AHEMiai0kQ#k^=a{mm6DqB*p2=6y1`HQ8~uj-mpt&K|B~02
z^twEqq}TDSBfXxF6X}iF%i{Oc*e6n2{HZdTqEfOXabB~>X7)+W36`X@2gM?5lgsb+
z_|j*lEl7_%L(&&!rKNLf?ohF_R!h=7X15*o9>2>4i+ZQsWm^;}<Gd_t?er4Ebic=G
zZL-<ZVeRp|y`5o2lcmvaZ6$KIz13_px0+$TB;D?Txzp1?`c};^nv$2kbZK8Okx`^O
zZKQuh6d~DwD4d?w-0bKW!s31*kkpoDA(Bv9=`H4HC!B16lX_Q^c~Cd~6xVWuLp9n{
zNO+xH^?vY0`|Gb6;51yV$cYS#e;_yR%PiVs_@j-euA@ut8!OshpL~EbKQhT9_L2F8
z#n;LYH(Io(kZ=$;gDpnlhm&8+5&05|_S7rAuC4|g2~j&OTK|*Xvpc=TZf<RAVNU~>
z)6!yY=_H4Nx6_P&qG%_%x7k~K&L$6$Dzc}_rz+C1VSATOKcy17>FG-;Njy_oS#F%k
zJ!>Qzlctfsu7+ZUVJbl6Zw|v`Gnxjbh+!HSZ38RQXd?9OL|7QsYb#(&c>J-WuzEei
zv@_@jWCsEE8r7hsX|FNnEUqz?GE8|M`f6tA-7bHvt~%SKENinASGQU`rOtAv#-ewr
zn#?9mSB<hrZc=hKdY9a%*BTlv$_|Cam{V`YShXgH%i5{W)fcs5tQ?2MSVj8#ZN?5?
ziI#EJx?L`duCm_ZE^4iv2RmJk!lG*@<Ah=<tG5-q+F6~}ps=`I7{Ah`ceXcRJcY%i
z$uUi@%(3doxQx@HG&I*5%jBG1;j-z9kWZyU-`Lb(?=-k9?y|O89pWW1X${rYg*C0^
zT7#;-IwJNiVsD)8bB5#68oaeyJ&DV0Hdgy;i&Xv^qrye(P@~1HKaa*?aaTI53YFY$
z()8;5wt|{aJkjx@M)I=83MZ+B#aJz`F;+Tky25ac>gTnSxchv03=S^0T5qkfW3fru
zTT{kqbr-VZSan61v!bs4b*XiCwAGj@lx18FsK27!Ufn;=TAu}T`A@~-u5{IO4poz|
zZm@ZDTXZVNwdyh;-qu>oA##$}gx5%iszgiHXaD?*>T6AgPRn#XTZgE%r8RWcRI6N8
zkD<-#WaAzzHm}8Vtvb2-&1dBLvUsX}mSU`<;)r##80+ze;)=2vYz`yVil@5OTI}k-
zH~Po@qv|!^t?I<y?i^}8Md$}x+n#FTGn?xly|!&eQmcj^zqS`wdPDOPy~p}=gUy-Z
z2Wk_k|1tY)aZbD0#Kk_yIx4s7TwLBm*JbFv#?`G?|D)#0q;z<##bu2+%R=Yskg?U9
zb*^@+vdm#CQh9M6x$NAYzcF<Sotsv7HO?(nXXu>unT^<MCPNN;K6*4cXk%Ym*|lJE
zS9e;Kt~QI4oWc5zGHrHyNn@dtoOSxXdMdG(yUa$FpB<x7?=RJ6cj-NHMoaFq5^{}c
zeB^GcV6V9b@CEEm=O&k$j=k^lND~U&c=IPun?~3|Eqf_yi7<3OvdwJ#YNBfgX?+{+
zV>vO>W=}(#7%~pRGvw0b#wU%?c=J6PubpMJ&EzU)gDM~3U&Bhd`<b=Hoy%wn%_cn~
z5Bp<ENq?dU`C~6_HXpVRqa)C}PdQNygVZoC8yb7RSIosAq#PA`)+u>d^gSJr6_M(2
zUMoUpBk@wuh)!JjxK8s!e5ih!-uDI>i~NyJn!fXui`0isBz}geB0t)u5U*i62+v9T
z<x@a}IFlNgG7C(Jf7Bx!f9as{v#yH`+>9V^<d3?r`Lq2|40vxK?<b_r#$C}jX+z~h
zN~iJG;uqs#a?rn>yqiLQY(C6vN|NR^w>10hty8RC?-ceCm==2ErE$-{l*dvjYN-FH
N_wkQRbMgPG{6A|>(+~gv

literal 0
HcmV?d00001

diff --git a/tests/hipscat_import/data/malformed_catalogs/wrong_files_and_rows/_common_metadata b/tests/hipscat_import/data/malformed_catalogs/wrong_files_and_rows/_common_metadata
new file mode 100644
index 0000000000000000000000000000000000000000..4cf7a744a1681971dbfc1dc15ea897e169977525
GIT binary patch
literal 4018
zcmcInTW{J}5JqiPwX14ZYL$veeTXdeY1;+}bVH?;_SgYqHX((kwsEzJd;?5u<J#ty
zD*t4k_o@GF|H96kW6Z^nX0=@_0iT&UGvCaa%i%rg6!#wNf34*54<mD6d-~qf+}?wi
z_wx4~E4TLpzJxk^xo_Df<2?%XOFIllAzMBM#$tUBc06p2Ldy<cK0p2X?9tO)j!E4=
zal)4`fb?5Rde91-*#_;$%YhR_rXF89zGbg)pXc_U?7zxC40PYpqx|2Gzi?FI(j2*C
z&yTow2cNk0&D<Za4mieU+H5NIh4XdK26=z%x**YWY}dM6r!gy+@jO65ZtOee$g(+*
z_Qzf@PZ=X)Xqz$8Jv-JdJ=Q_|3upTv?)ZJ&`|+aw`k1@9S%O(d!8sQ0Uqg}5Hc&Wz
z{I;CMkdjv*pldg;07>E&7wTCfjJ9E<=Z^HPW>y%t8G>ZUT1trD+0-Hpv-Vaw8%EP;
ztsi7c{)TTX(X$rQ8bH=}G|6fyYi~*4Fg6BHj!}Nyzm$BNe^8=XO9^p{nQh64b{PFO
zLs<A(OAG3EHMP+aGL@F)|7Y{G(nDL1M<MM7u49CHILBrX%ynp-Q}lgehmkY#ky<Rj
zDZD9iP_T>CSz(rdcf{S~@=r*obFRE&eLDa3*&#mH{RSbV4gdK3PDq*XeNrc+PlP_D
z@%$Qpio{yV7uq0;Yj~&@%9jY464(ddR0(`9gu3v?PrFLxs;iz6a()bZ`ClZ@9c!Xo
zR!gmk(U4=qKXc9<-jLktNLTsmZmC{SOH4*`3y~x=hel~uG?YqD2VI&vaLu{&R;tIK
zt1>W@kGOwqDYNKQAdcp_t|4}MhF6cZ4<IL2iiS8vJqeap&uX|+$`hJJ!*fA@$CaFE
zAM_Osm9MBror)=<Ug8*~=4VZ56&SzhT4Eji=?tXdsBh1kuHm&Nnh1CilhBmqS~ory
zn$@1XhW#4lm7~Z>aS6>p6C}jt>53d__3F5*6kU{q7+q0&K0h$L&cG~I3%1HHcw_6N
zo8Zafg%}lD!?uI5Fci7aRXPJptfevPeV8Kdr7gcXV7_UArp&I?(junBF})hqV~TY+
zv-<UFTr_Vs>8kBgi}?WYFHUWF6{i*%aF+iHi`Q|x^Ib7XdE3s>GsNoPwzzEIjWsw!
z@Tt&Eb7WRM6)-<n{jc{lwK+GABpQcIZVAnKSFXCI-<+5Z#k~z%VEDJi$z3_m_53n?
zIWiiMM~$_-xq^KB7OsrUwliGI6<?0chPzrDtGMqJuM4j_huWU+%BMB{w%qn*v{`2R
zv$<_47_0u>bNi|jB<GT?u_bTYnH9egn|1zO>g=jA)m4UlOCFt@qRaf=9hcp;#^Sc%
z-|4K>(jYJ!ts(TXq_6J8*3(6IYL;39t6mMDAGtQG`Tr+wN#8U*8TwXrp7hyBSD@C^
zW`*`gpRd3>)TK#t!Sdv}S#l?agFRT9wS@BYbXaq+*GbEGmY|leb)`C{I)>8tOekMV
zet`%$&rWfS@e$6pHXU<)Sf9{I=iyKj>AX9}S75-zyZHI=5SKN94n+Zp$$X@*W%%T?
zu>)#v0`s_lLPGfv-cgVYa7}P%GX40H=)3Uwz@|&#Gmdf!>U_gKPpND^Q(2g~gs<tU
zL<*@ra)$enk=Ua{oBBid5D~u?b;?Lx0<M8x3XRV9_Ipr*;b=?LC|)d<R|oJ4sUr02
zV$vJY%E=HmvGB1?7s)z_AHTS7pe}rH6Tj@Q3~2<L5I-Rw@k1CTYo5$-&8RE>oFEZ;
z(vY+a5JmeCj}-seR{Yd-qsdML{09FaF4TXzAA$ka`*?o>*D3Dy^3ZnqgQ4RC4L(61
z91iTC;=L((s6XV_T>c=?!_Q+oer*Q9YkCPhNG^E??E1I==Zjo!*I(|hpK`hP@N4}a
DYK`T}

literal 0
HcmV?d00001

diff --git a/tests/hipscat_import/data/malformed_catalogs/wrong_files_and_rows/_metadata b/tests/hipscat_import/data/malformed_catalogs/wrong_files_and_rows/_metadata
new file mode 100644
index 0000000000000000000000000000000000000000..42c25a75d9d52403b970626e604a8028c77f1a2a
GIT binary patch
literal 7541
zcmcgxO>7&-6<*1zz_@OaMkYa_av(7E)@f{uq)A6K>O#9Kkz7`yEJo&EQK-AiCArk@
zlID*{%5f3&U<5uDJrq3zIpk~<J@n8+5adwgRP<03IrUH!J>(XkFoL27qwmcum;a&(
zQCvu?nfKnz_q{i7-t4X(a0#DtY4v%KaWB`DqH0LaHyG#A^+orhmSdcku~C(1<5Esl
zsLoN9j?`+kT&3ODK+)+h!ieQ~xtdd}*Im2MR~&CJ47IwntyQnDfoRJXEyXKZYe4qh
zqoP)+DN_ANGjnQ>*7cj^)gP~Z<bIpZe&4$R6T%(mxbO4bR$FzTRV_Dbw<}WhQA4e}
zo?Tf3=Yq`g>#OLGbJ6v5(e+}*^{XrFKOL-N&F%QfC7=hF+wtilZMm2mBc#mgP3Mx6
zaV|1&dmaA3kSU1#>FS#Ea)(G&qC|dw+4Y}g_V3?gzxWO?A?RN<wyf5NkG7D>u=Jcv
zUVOjH1Q(Q2`OM*Z`7QR>tL!(<4wVl=pIcOZaqziKrB8ZJD*t=4yE=A8S$q~;Uo5cy
zzQ+FXT89rtoQ4BhHlIG}Ir%*Eboq2sx|h(4b@tEe^CR?+AFMeSt*o*36lL>E*V6^|
z<y-8RZ>`;BZY*JvxXJyT5qSE;ZUk_<QncSLxISKBf5)<4T}L>35xUE9PS{W1?!uCi
z(2M)m8|=q72=2GhPq^HUPV1bw|GnSE9Vk1L!CzKfpRBOo++)A|k>&YT?AeD`KSR$y
zc>n#EU;kkQ1J~cSpv<ri*T4K%83qd0J7Wr#q19@dSvbmTx;m$lH5HW$E?QG@x#+Sr
z6`8pduBjN!r*ut4X*R`cD#%%uuc?4%TEM14o>K{Xb4&@F&x6(^^b0Ojli)A9Hci5x
zOF5cEVm=jU5{uasok=LOtTU6aW?EV%fz73w+;lHjBr_+~++V-;*h60Oj+C<AFwC0g
z-ullx{qKLCpWj^fP&IuaREgDNk0}`{*qaSq2aCL>>bawS8AUm&w<~DqX_%T)&Z!=-
zHXBBzZ7a%hNmc47H`Kb6lj;(fKlZ35n8WiKj(vC-zP0Ij@}x_qpM^)u;rKolmTZ89
zX4dZphB?^c9t!B%lbgWAa?4YdhC!%o03@%MrI9c_inD;=y>J-G63!T^^Ce*zuU9hw
zYDcSoA#L#l-{`lBVMO~g2C8NVNe|CqysmrztO1^EqJ6)Aw)ian;I(ZS$r6r$8I_EP
zL*-`y;dhr|q>gl^Py;1lXr~S9&kav@dR3L`<tnKLx+YhpY8#6|r7gj?uO|9_qE>5K
z*+i)?aNB#^=Yb8|Nu3_0A9Qy-PZ;+VE|J(z-J_q{+|O4w@H#C-IgUGkU%Y<GaRH7m
zaAA%sa6*B|c)m~HMB$FD7Y@J{`*4w2h+gElCI{o-FHW+(32p3i-2Num^6!d<-pEFh
zfwVt<B1e;T+1%6iHC`6=P+3azrx}0PoAy&1QTNtFAy$(8EuWkU=A~5dIGZl&N?W`u
zhU+j_uqdY<;`l}`)vE0ZoR&3oU5+I3vJtLl-vhfy&?iTlI8QSJ<1^`aJ{Q%SL?^_2
zvZ2HL30>5h1(?q#r}<#|P9ms8a9&Q6{jo>cRNPDTK0Ox+!yJjCSSlCPc1)Lz_(?Vb
ze36q7OD1<R^?e~0$|w7{pQ3&0PEE6U39(965RsQ5rINL5IMm3bd^*}ejE)JO$roiK
zQB-^(ubSpNx<+n0WAPd03o-J>O9vXpLQW;UnN*^fi|p7j%D>k{-d!v+R;0dVE7?@*
zIPLGml+zSrhs>iy!mwuH)84pbjn+vfec+E%A0Ym|rkd>KnXSpNmQ!&t5_+aRE+)2a
z)H)h+Bvd>rE(3h)Sy)5x$(ylrq!ro~Fh6_!59hP#SX;g$k~j?ImJn-ak|A9&V<(D6
zc#q;%k<GK>r1z|6e}2hkvL;6%kD`5fa}4=7iPw<Ls5R`%6*E~^qI&P%=;i%N@j5g@
zZP?rGarxAzAC=o?5-|gG{BUmPQW&ektLOG{qGGMf@E+^xMy;7|LTvi=ud>gMgH0(-
zxsS-BeI=q(zsJXA{9dDR>*!x;t<wHtMTy2sP|K{kI+j~ris((nA1~&@p$gO^U8Q^e
zV&Z1iO~pt;-3qm>I$M)cu-DSDAgPZgAA~mSONHb@&PcWuzkVWXScAn@TnIFGOFJ6Y
zI<Xs1KkVgGDHUpvIZ9$<PY9ffrWemWj*D8g7LG9i&$C@Tw)h&JZ3pC-D?opnoOA}B
zXAyGVZDNz0Z{p!Q8ync&5y+t^pvF2MNizU<emIsO&7Z(|>_sCXumNo}<ciqmGI%5N
zW5b&7(BvyB=?ahVC?}-$2k?0!rROuT-Ge*7Bc(;oYvXZyI35)i9y$4Y@FF<0vv0AD
zl)yEZmr#Rq9^&%=Cc$tVhy)ZLEUbqD(jxJUK>hYvwURs<lwc4IA02dP^{x2vB)&cT
zaS-3Fx0GoO1|ffrdx$roZ1s7rg?%dR@n;)_P@_s*Tn1Cbhj`fh_eSz3k2291T@mU(
z#D(}z#sf(}FJK;l>xB0~chScAgQ4RqS-3+yVR2x56Q7%`i}=IcXWZ-7_pVz?rE-fr
f1g={TdF#G+;StZf`q3K0jQe4<YYg)M{^9z6^cJqG

literal 0
HcmV?d00001

diff --git a/tests/hipscat_import/verification/generate_malformed_catalogs.py b/tests/hipscat_import/verification/generate_malformed_catalogs.py
new file mode 100644
index 00000000..5809fd89
--- /dev/null
+++ b/tests/hipscat_import/verification/generate_malformed_catalogs.py
@@ -0,0 +1,229 @@
+import random
+import shutil
+from pathlib import Path
+
+import attrs
+import pyarrow
+import pyarrow.dataset
+import pyarrow.parquet
+
+DATA_DIR = Path(__file__).parent.parent.parent.parent / "tests/hipscat_import/data"
+VALID_CATALOG_DIR = DATA_DIR / "small_sky_object_catalog"
+MALFORMED_CATALOGS_DIR = DATA_DIR / "malformed_catalogs"
+
+
+def run(
+    valid_catalog_dir: Path = VALID_CATALOG_DIR, malformed_catalogs_dir: Path = MALFORMED_CATALOGS_DIR
+) -> None:
+    """Generate malformed catalogs to be used as test data for verification.
+    This only needs to be run once unless/until it is desirable to regenerate the dataset.
+    """
+    Generate.run(valid_catalog_dir=valid_catalog_dir, malformed_catalogs_dir=malformed_catalogs_dir)
+
+
+@attrs.define
+class ValidBase:
+    dataset: pyarrow.dataset.Dataset = attrs.field()
+    frag: pyarrow.dataset.FileFragment = attrs.field()
+    tbl: pyarrow.Table = attrs.field()
+    schema: pyarrow.Schema = attrs.field()
+    valid_catalog_dir: Path = attrs.field()
+    malformed_catalogs_dir: Path = attrs.field()
+    insert_dir: str = attrs.field(factory=str)
+
+    @classmethod
+    def from_dirs(cls, valid_catalog_dir: Path, malformed_catalogs_dir: Path) -> "ValidBase":
+        valid_ds = pyarrow.dataset.parquet_dataset(valid_catalog_dir / "_metadata")
+        valid_frag = next(valid_ds.get_fragments())
+        valid_tbl = valid_frag.to_table()
+        return cls(
+            dataset=valid_ds,
+            frag=valid_frag,
+            tbl=valid_tbl,
+            schema=valid_tbl.schema,
+            valid_catalog_dir=valid_catalog_dir,
+            malformed_catalogs_dir=malformed_catalogs_dir,
+        )
+
+    @property
+    def fmeta(self) -> Path:
+        return self.malformed_catalogs_dir / self.insert_dir / "_metadata"
+
+    @property
+    def fcmeta(self) -> Path:
+        return self.malformed_catalogs_dir / self.insert_dir / "_common_metadata"
+
+    @property
+    def fdata(self) -> Path:
+        frag_key = Path(self.frag.path).relative_to(self.valid_catalog_dir)
+        return self.malformed_catalogs_dir / self.insert_dir / frag_key
+
+
+@attrs.define
+class Generate:
+    def run(
+        self,
+        valid_catalog_dir: Path = VALID_CATALOG_DIR,
+        malformed_catalogs_dir: Path = MALFORMED_CATALOGS_DIR,
+    ) -> None:
+        """Generate malformed catalogs to be used as test data for verification.
+        This only needs to be run once unless/until it is desirable to regenerate the dataset.
+        """
+        if malformed_catalogs_dir.is_dir():
+            print(f"Output directory exists. Remove it and try again.\n{malformed_catalogs_dir}")
+            return
+        print(f"Generating malformed catalogs from valid catalog at {valid_catalog_dir}...")
+
+        valid = ValidBase.from_dirs(
+            valid_catalog_dir=valid_catalog_dir, malformed_catalogs_dir=malformed_catalogs_dir
+        )
+        generate = Generate()
+        generate.valid_truth(valid)
+        generate.bad_schemas(valid)
+        generate.no_rowgroup_stats(valid)
+        generate.wrong_files_and_rows(valid)
+
+    def malformed(self, valid: ValidBase) -> None:
+        """Case: <TEMPLATE>"""
+        valid.insert_dir = ""
+        self._start_new_catalog(valid)
+        self._collect_and_write_metadata(valid)
+        print(f"Invalid catalog written to {valid.fmeta.parent}")
+
+    def bad_schemas(self, valid: ValidBase) -> None:
+        """Case: Files are altered in a way that affects the schema after _metadata gets written."""
+        valid.insert_dir = "bad_schemas"
+        self._start_new_catalog(valid)
+
+        # Write new files with the correct schema
+        fextra_col = valid.fdata.with_suffix(".extra_column.parquet")
+        fmissing_col = valid.fdata.with_suffix(".missing_column.parquet")
+        fno_metadata = valid.fdata.with_suffix(".no_metadata.parquet")
+        fwrong_types = valid.fdata.with_suffix(".wrong_dtypes.parquet")
+        for _fout in [fmissing_col, fextra_col, fwrong_types]:
+            pyarrow.parquet.write_table(valid.tbl, _fout)
+
+        # Write a _metadata that is correct except for missing file-level metadata
+        self._collect_and_write_metadata(valid, schema=valid.schema.remove_metadata())
+
+        # Overwrite the new files using incorrect schemas.
+        # drop the file-level metadata
+        pyarrow.parquet.write_table(valid.tbl.replace_schema_metadata(None), fno_metadata)
+        # drop a column
+        pyarrow.parquet.write_table(valid.tbl.drop_columns("dec_error"), fmissing_col)
+        # add an extra column
+        extra_col = pyarrow.array(random.sample(range(1000), len(valid.tbl)))
+        extra_col_tbl = valid.tbl.add_column(5, pyarrow.field("extra", pyarrow.int64()), extra_col)
+        pyarrow.parquet.write_table(extra_col_tbl, fextra_col)
+        # change some types
+        wrong_dtypes = [
+            fld if not fld.name.startswith("ra") else fld.with_type(pyarrow.float16()) for fld in valid.schema
+        ]
+        wrong_dtypes_schema = pyarrow.schema(wrong_dtypes).with_metadata(valid.schema.metadata)
+        pyarrow.parquet.write_table(valid.tbl.cast(wrong_dtypes_schema), fwrong_types)
+
+        # Write a _common_metadata with the wrong dtypes.
+        pyarrow.parquet.write_metadata(schema=wrong_dtypes_schema, where=valid.fcmeta)
+
+        # Write a _common_metadata with custom metadata and no hipscat columns.
+        # This mimics a schema that could have been passed as 'use_schema_file' upon import.
+        fcustom_md = valid.fcmeta.with_suffix(".import")
+        hipscat_cols = ["_hipscat_index", "Norder", "Dir", "Npix"]
+        import_fields = [fld for fld in valid.schema if not fld.name in hipscat_cols]
+        import_schema = pyarrow.schema(import_fields).with_metadata({b"custom_key": b"custom_value"})
+        pyarrow.parquet.write_metadata(schema=import_schema, where=fcustom_md)
+
+        print(f"Invalid catalog written to {valid.fmeta.parent}")
+
+    def no_rowgroup_stats(self, valid: ValidBase) -> None:
+        """Case: ."""
+        valid.insert_dir = "no_rowgroup_stats"
+        self._start_new_catalog(valid)
+        # drop the row group statistics
+        pyarrow.parquet.write_table(valid.tbl, valid.fdata, write_statistics=False)
+        self._collect_and_write_metadata(valid)
+        print(f"Invalid catalog written to {valid.fmeta.parent}")
+
+    def valid_truth(self, valid: ValidBase) -> None:
+        """Case: This is the valid catalog that we start with and will be used as the expected truth during testing."""
+        valid.insert_dir = "valid_truth"
+        base_dir = valid.fmeta.parent
+        base_dir.mkdir(parents=True)
+
+        # write a README pointing to the valid_catalog_dir used to generate malformed datasets
+        with open(base_dir / "README", "w") as fout:
+            fout.writelines(str(valid.valid_catalog_dir.relative_to(DATA_DIR)))
+
+        print(f"Valid, truth README written to {base_dir}")
+
+    def wrong_files_and_rows(self, valid: ValidBase) -> None:
+        """Case: ."""
+        valid.insert_dir = "wrong_files_and_rows"
+        self._start_new_catalog(valid)
+
+        fmissing_file = valid.fdata.with_suffix(".missing_file.parquet")
+        fextra_file = valid.fdata.with_suffix(".extra_file.parquet")
+        fextra_rows = valid.fdata.with_suffix(".extra_rows.parquet")
+
+        pyarrow.parquet.write_table(valid.tbl, fmissing_file)
+        pyarrow.parquet.write_table(valid.tbl, fextra_rows)
+        self._collect_and_write_metadata(valid)
+
+        fmissing_file.unlink()
+        pyarrow.parquet.write_table(valid.tbl, fextra_file)
+        pyarrow.parquet.write_table(self._tbl_with_extra_rows(valid), fextra_rows)
+
+        print(f"Invalid catalog written to {valid.fmeta.parent}")
+
+    def _tbl_with_extra_rows(self, valid: ValidBase) -> pyarrow.Table:
+        """Generate a table with extra rows."""
+        # generate new rows
+        rng = range(len(valid.tbl))
+        nrows, new_rows = 2, {}
+        for col in valid.tbl.column_names:
+            if col not in ("_hipscat_index", "id"):
+                # just take a random sample
+                new_rows[col] = valid.tbl.column(col).take(random.sample(rng, nrows))
+            else:
+                # increment the max value to avoid duplicates
+                max_id = valid.tbl.column(col).sort()[-1].as_py()
+                new_rows[col] = [i + max_id for i in range(1, nrows + 1)]
+
+        # add the rows to the table
+        new_tbl = pyarrow.concat_tables([valid.tbl, pyarrow.Table.from_pydict(new_rows, schema=valid.schema)])
+        return new_tbl
+
+    @staticmethod
+    def _start_new_catalog(valid: ValidBase, with_ancillaries: bool = False) -> None:
+        # Start a new catalog by creating the directory and copying in valid files.
+        valid.fdata.parent.mkdir(parents=True)
+        shutil.copy(valid.frag.path, valid.fdata)
+
+        root_files = valid.valid_catalog_dir.iterdir()
+        if not with_ancillaries:
+            root_files = [fin for fin in root_files if fin.name.endswith("metadata")]
+        for fin in root_files:
+            if fin.is_file():
+                shutil.copy(fin, valid.malformed_catalogs_dir / valid.insert_dir / fin.name)
+
+    @staticmethod
+    def _collect_and_write_metadata(valid: ValidBase, schema: pyarrow.Schema | None = None) -> None:
+        base_dir = valid.fmeta.parent
+        schema = schema or valid.schema
+        ignore_prefixes = [
+            ".",
+            "_",
+            "catalog_info.json",
+            "partition_info.csv",
+            "point_map.fits",
+            "provenance_info.json",
+        ]
+        dataset = pyarrow.dataset.dataset(base_dir, ignore_prefixes=ignore_prefixes)
+        metadata_collector = []
+        for frag in dataset.get_fragments():
+            frag.ensure_complete_metadata()
+            frag.metadata.set_file_path(str(Path(frag.path).relative_to(base_dir)))
+            metadata_collector.append(frag.metadata)
+        pyarrow.parquet.write_metadata(
+            schema=schema, where=valid.fmeta, metadata_collector=metadata_collector
+        )

From cafb0fc900f48feff4a9a9067d4e969c616538f5 Mon Sep 17 00:00:00 2001
From: Troy Raen <raen@ipac.caltech.edu>
Date: Wed, 16 Oct 2024 06:05:31 -0700
Subject: [PATCH 4/6] add verification fixtures

---
 tests/hipscat_import/conftest.py              |  51 ++++++
 tests/hipscat_import/verification/fixture.py  | 114 +++++++++++++
 .../verification/fixture_defs.yaml            | 156 ++++++++++++++++++
 3 files changed, 321 insertions(+)
 create mode 100644 tests/hipscat_import/verification/fixture.py
 create mode 100644 tests/hipscat_import/verification/fixture_defs.yaml

diff --git a/tests/hipscat_import/conftest.py b/tests/hipscat_import/conftest.py
index 1cd8cbf2..6747b874 100644
--- a/tests/hipscat_import/conftest.py
+++ b/tests/hipscat_import/conftest.py
@@ -10,6 +10,8 @@
 import pytest
 from hipscat import pixel_math
 
+from tests.hipscat_import.verification.fixture import VerifierFixture
+
 # pylint: disable=missing-function-docstring, redefined-outer-name
 
 
@@ -300,3 +302,52 @@ def assert_parquet_file_index(file_name, expected_values):
         npt.assert_array_equal(values, expected_values)
 
     return assert_parquet_file_index
+
+
+@pytest.fixture
+def malformed_catalog_dirs(test_data_dir):
+    base_dir = test_data_dir / "malformed_catalogs"
+    catalog_dirs = {dr.name: dr for dr in base_dir.iterdir() if dr.is_dir()}
+    # valid_truth dir contains a README pointing to the valid catalog used to generate malformed ones
+    # resolve the path
+    catalog_dirs["valid_truth"] = test_data_dir / (catalog_dirs["valid_truth"] / "README").read_text()
+    return catalog_dirs
+
+
+@pytest.fixture(params=["valid_truth", "wrong_files"])
+def verifier_for_file_sets(request, malformed_catalog_dirs, tmp_path):
+    return VerifierFixture.from_param(request.param, malformed_catalog_dirs, tmp_path)
+
+
+@pytest.fixture(params=["valid_truth", "no_rowgroup_stats"])
+def verifier_for_is_valid_catalog(request, malformed_catalog_dirs, tmp_path):
+    return VerifierFixture.from_param(request.param, malformed_catalog_dirs, tmp_path)
+
+
+@pytest.fixture(params=["valid_truth", "wrong_rows"])
+def verifier_for_num_rows(request, malformed_catalog_dirs, tmp_path):
+    return VerifierFixture.from_param(request.param, malformed_catalog_dirs, tmp_path)
+
+
+@pytest.fixture(params=["valid_truth", "no_rowgroup_stats"])
+def verifier_for_rowgroup_stats(request, malformed_catalog_dirs, tmp_path):
+    return VerifierFixture.from_param(request.param, malformed_catalog_dirs, tmp_path)
+
+
+@pytest.fixture(params=["valid_truth", "no_rowgroup_stats"])
+def verifier_for_runner(request, malformed_catalog_dirs, tmp_path):
+    return VerifierFixture.from_param(request.param, malformed_catalog_dirs, tmp_path)
+
+
+@pytest.fixture(
+    params=[
+        "valid_truth",
+        "schema",
+        "schema_with_md_truth",
+        "schema_with_cmd_truth",
+        "schema_with_import_truth",
+        "schema_with_no_truth",
+    ]
+)
+def verifier_for_schemas(request, malformed_catalog_dirs, tmp_path):
+    return VerifierFixture.from_param(request.param, malformed_catalog_dirs, tmp_path)
diff --git a/tests/hipscat_import/verification/fixture.py b/tests/hipscat_import/verification/fixture.py
new file mode 100644
index 00000000..3d549a66
--- /dev/null
+++ b/tests/hipscat_import/verification/fixture.py
@@ -0,0 +1,114 @@
+"""Run pass/fail tests and generate verification report of existing hipscat table."""
+
+from pathlib import Path
+
+import attrs
+import yaml
+
+from hipscat_import.verification.arguments import VerificationArguments
+from hipscat_import.verification.run_verification import Verifier
+
+
+@attrs.define
+class VerifierFixture:
+    """Class for pytest fixtures for verification tests. Instantiate using the 'from_param' method."""
+
+    test_targets: dict[str, list | dict] = attrs.field(validator=attrs.validators.instance_of(dict))
+    """Dictionary mapping test names to targets."""
+    verifier: Verifier = attrs.field(validator=attrs.validators.instance_of(Verifier))
+    """Verifier instance that the fixture will use to run verification tests."""
+    assert_passed: bool | dict = attrs.field(validator=attrs.validators.instance_of((bool, dict)))
+    """Expected result(s) of the test(s) this verifier will run."""
+
+    @classmethod
+    def from_param(
+        cls, fixture_param: str, malformed_catalog_dirs: dict[str, Path], tmp_path: Path
+    ) -> "VerifierFixture":
+        """Create a VerifierFixture from the given fixture parameter.
+
+        Fixture definitions, including the expected test outcomes, are defined in fixture_defs.yaml.
+
+        Parameters
+        ----------
+            fixture_param : str
+                The fixture parameter key to look up fixture definitions.
+            malformed_catalog_dirs : dict[str, Path]
+                A mapping of malformed test dataset names to their directories.
+            tmp_path : Path
+                A temporary path for output.
+
+        Returns:
+            VerifierFixture: An instance of VerifierFixture configured with the specified parameters.
+        """
+        with open(Path(__file__).parent / "fixture_defs.yaml", "r") as fin:
+            fixture_defs = yaml.safe_load(fin)
+        fixture_def = fixture_defs[fixture_param]
+
+        truth_schema = fixture_def.get("truth_schema")
+        if truth_schema is not None:
+            truth_schema = malformed_catalog_dirs[truth_schema.split("/")[0]] / truth_schema.split("/")[1]
+        args = VerificationArguments(
+            input_catalog_path=malformed_catalog_dirs[fixture_def["input_dir"]],
+            output_path=tmp_path,
+            truth_schema=truth_schema,
+            truth_total_rows=fixture_def.get("truth_total_rows"),
+        )
+
+        fixture = cls(
+            test_targets=fixture_defs["test_targets"],
+            verifier=Verifier.from_args(args),
+            assert_passed=fixture_def["assert_passed"],
+        )
+        return fixture
+
+    @staticmethod
+    def unpack_assert_passed(
+        assert_passed: bool | dict, *, targets: list | None = None
+    ) -> tuple[bool, list] | dict:
+        """Unpack assert_passed and return a tuple or dictionary based on the provided targets.
+
+        Parameters
+        ----------
+            assert_passed : bool, or dict
+                A boolean indicating pass/fail status or a dictionary with target-specific statuses.
+            targets list, or None
+                A list of targets that assert_passed should apply to. If None, the return type is a
+                tuple with a bool indicating whether the test is expected to pass and a list of
+                parquet file suffixes that are expected to fail. Otherwise, the return type is a dict
+                with a key for each target and values indicating pass/fail for the given target.
+
+        Returns
+        -------
+            tuple[bool, list] | dict:
+                - If assert_passed is a boolean:
+                    - If targets is None, returns a tuple (assert_passed, []).
+                    - Else, returns a dict of {target: assert_passed}.
+                - If assert_passed is a dictionary:
+                    - If targets is None, assert_passed is expected to contain a single item with
+                      key=False and value=list of file suffixes that should have failed. The item
+                      is returned as a tuple.
+                    - Else, assert_passed is expected to have a key for every target. The
+                      assert_passed dict is returned.
+
+        Raises
+        ------
+            AssertionError: If assert_passed is a dict but it does not have the expected key(s).
+        """
+
+        if isinstance(assert_passed, bool):
+            if targets is None:
+                return assert_passed, []
+            return {target: assert_passed for target in targets}
+
+        # assert_passed is a dict
+
+        if targets is None:
+            # Expecting a single item with key=False, value=list of file suffixes that should have failed.
+            msg = "Unexpected key. There is probably a bug in the fixture definition."
+            assert set(assert_passed) == {False}, msg
+            return False, assert_passed[False]
+
+        # Expecting one key per target
+        msg = "Unexpected set of targets. There is probably a bug in the fixture definition."
+        assert set(assert_passed) == set(targets), msg
+        return assert_passed
diff --git a/tests/hipscat_import/verification/fixture_defs.yaml b/tests/hipscat_import/verification/fixture_defs.yaml
new file mode 100644
index 00000000..c4333e91
--- /dev/null
+++ b/tests/hipscat_import/verification/fixture_defs.yaml
@@ -0,0 +1,156 @@
+# region ---- Tests and their targets
+# fixture's 'assert_passed' will be coerced to a dict indexed by test and/or target.
+test_targets:
+  num_rows:
+    - _metadata
+    - user total
+  schema:
+    schema:
+      - _common_metadata
+      - _metadata
+      - file footers
+    'schema metadata':
+      - "b'pandas' in _common_metadata"
+      - _common_metadata
+      - _metadata
+      - file footers
+# endregion
+# region ---- Fixture params and their definitions
+# valid_truth should pass all tests
+valid_truth:
+  input_dir: valid_truth
+  truth_schema: valid_truth/_common_metadata
+  truth_total_rows: 131
+  assert_passed: True
+# no_rowgroup_stats is used for test_rowgroup_stats, test_is_valid_catalog, and verification_runner
+no_rowgroup_stats:
+  input_dir: no_rowgroup_stats
+  assert_passed: False
+# schema* is used for test_schemas
+schema:
+  # Case: test bad_schemas catalog given valid_truth schema as truth_schema
+  input_dir: bad_schemas
+  truth_schema: valid_truth/_common_metadata
+  assert_passed:
+    schema:
+      _common_metadata: False  # _common_metadata has wrong dtypes
+      _metadata: True
+      file footers:
+        False:
+          - .extra_column.parquet
+          - .missing_column.parquet
+          - .wrong_dtypes.parquet
+    'schema metadata':
+      "b'pandas' in _common_metadata": True
+      _common_metadata: True
+      _metadata: False  # _metadata is missing b'pandas' metadata
+      file footers:
+        False:
+          - .no_metadata.parquet
+schema_with_cmd_truth:
+  # Case: test bad_schemas catalog given a truth_schema that has the wrong dtypes
+  input_dir: bad_schemas
+  truth_schema: bad_schemas/_common_metadata
+  assert_passed:
+    schema:
+      _common_metadata: True
+      _metadata: False  # truth_schema has wrong dtypes
+      file footers:
+        False:
+          - .extra_column.parquet
+          - .missing_column.parquet
+          - .no_metadata.parquet
+          - .parquet
+    'schema metadata':
+      "b'pandas' in _common_metadata": False  # b'pandas' dtypes != truth_schema dtypes
+      _common_metadata: True
+      _metadata: False  # _metadata is missing b'pandas' metadata
+      file footers:
+        False:
+          - .no_metadata.parquet
+schema_with_import_truth:
+  # Case: Test bad_schemas catalog given a truth_schema with custom metadata that should be preserved, but
+  #       missing hipscat fields and b'pandas' metadata. This schema could have been used during catalog import.
+  input_dir: bad_schemas
+  truth_schema: bad_schemas/_common_metadata.import
+  assert_passed:
+    schema:
+      _common_metadata: False  # _common_metadata has wrong dtypes
+      _metadata: True
+      file footers:
+        False:
+          - .extra_column.parquet
+          - .missing_column.parquet
+          - .wrong_dtypes.parquet
+    'schema metadata':
+      "b'pandas' in _common_metadata": True
+      _common_metadata: False  # _common_metadata is missing the custom metadata
+      _metadata: False  # _metadata is missing all metadata
+      file footers:
+        False:
+          # Every files fails because the custom metadata is missing.
+          - .extra_column.parquet
+          - .missing_column.parquet
+          - .no_metadata.parquet
+          - .parquet
+          - .wrong_dtypes.parquet
+schema_with_no_truth:
+  # Case: Test bad_schemas catalog given no truth_schema
+  input_dir: bad_schemas
+  truth_schema: null  # _common_metadata will be used as the source of truth
+  assert_passed:
+    schema:
+      _common_metadata: null  # this test should not run
+      _metadata: False  # truth_schema has wrong dtypes
+      file footers:
+        False:
+          - .extra_column.parquet
+          - .missing_column.parquet
+          - .no_metadata.parquet
+          - .parquet
+    'schema metadata':
+      "b'pandas' in _common_metadata": False  # b'pandas' dtypes != truth_schema dtypes
+      _common_metadata: null  # this test should not run
+      _metadata: False  # _metadata is missing b'pandas' metadata
+      file footers:
+        False:
+          - .no_metadata.parquet
+schema_with_md_truth:
+  # Case: Test bad_schemas catalog given a truth_schema with no metadata
+  input_dir: bad_schemas
+  truth_schema: bad_schemas/_metadata
+  assert_passed:
+    schema:
+      _common_metadata: False  # _common_metadata has wrong dtypes
+      _metadata: True
+      file footers:
+        False:
+          - .extra_column.parquet
+          - .missing_column.parquet
+          - .wrong_dtypes.parquet
+    'schema metadata':
+      "b'pandas' in _common_metadata": True
+      _common_metadata: True
+      _metadata: False  # _metadata is missing b'pandas' metadata
+      file footers:
+        False:
+          - .no_metadata.parquet
+# wrong_files is used for test_file_sets
+wrong_files:
+  input_dir: wrong_files_and_rows
+  assert_passed:
+    False:
+      - .missing_file.parquet
+      - .extra_file.parquet
+# wrong_rows is used for test_num_rows
+wrong_rows:
+  input_dir: wrong_files_and_rows
+  truth_total_rows: 131
+  assert_passed:
+    _metadata:
+      False:
+        - .missing_file.parquet
+        - .extra_file.parquet
+        - .extra_rows.parquet
+    'user total': False
+# endregion

From 857bad96375fc8c4f55bdac820c4f5cbaea31c3f Mon Sep 17 00:00:00 2001
From: Troy Raen <raen@ipac.caltech.edu>
Date: Thu, 19 Sep 2024 04:11:13 -0700
Subject: [PATCH 5/6] add Verifier unit tests

---
 .../verification/test_run_verification.py     | 193 +++++++++++++++++-
 .../test_verification_arguments.py            |  52 +----
 2 files changed, 193 insertions(+), 52 deletions(-)

diff --git a/tests/hipscat_import/verification/test_run_verification.py b/tests/hipscat_import/verification/test_run_verification.py
index c672af7f..85666374 100644
--- a/tests/hipscat_import/verification/test_run_verification.py
+++ b/tests/hipscat_import/verification/test_run_verification.py
@@ -1,7 +1,11 @@
+from pathlib import Path
+
+import numpy as np
+import pandas as pd
 import pytest
 
 import hipscat_import.verification.run_verification as runner
-from hipscat_import.verification.arguments import VerificationArguments
+from tests.hipscat_import.verification.fixture import VerifierFixture
 
 
 def test_bad_args():
@@ -14,12 +18,183 @@ def test_bad_args():
         runner.run(args)
 
 
-def test_no_implementation(tmp_path, small_sky_object_catalog):
-    """Womp womp. Test that we don't have a verification pipeline implemented"""
-    args = VerificationArguments(
-        input_catalog_path=small_sky_object_catalog,
-        output_path=tmp_path,
-        output_artifact_name="small_sky_object_verification_report",
+def test_basic_run(verifier_for_runner):
+    """Verification runner should execute all tests and write reports to file.
+    Tests should pass with valid catalogs and fail with malformed catalogs."""
+    args = verifier_for_runner.verifier.args
+    # start fresh. delete any existing output files.
+    filenames = [args.output_report_filename, args.output_distributions_filename]
+    [(args.output_path / filename).unlink(missing_ok=True) for filename in filenames]
+
+    # run the tests
+    verifier = runner.run(args)
+
+    # Show that the verification passed or failed as expected
+    tests_passed = verifier.results_df.passed.all()
+    assert tests_passed == verifier_for_runner.assert_passed, "runner tests"
+
+    # Show that the output files were or were not written as expected
+    all_output_written = True
+    try:
+        _check_file_output(verifier)
+    except AssertionError:
+        all_output_written = False
+    assert all_output_written == verifier_for_runner.assert_passed, "runner output"
+
+
+def _check_file_output(verifier: runner.Verifier) -> None:
+    """Verifier should have written two reports to file."""
+    # verifier.record_results() writes this file
+    freport = verifier.args.output_path / verifier.args.output_report_filename
+    assert freport.is_file(), f"File not found {freport}"
+    results = pd.read_csv(freport)
+    # the affected_files lists cause problems. just exclude them
+    cols = [c for c in results.columns if not c == "affected_files"]
+    assert results[cols].equals(verifier.results_df[cols]), "Mismatched results"
+
+    # verifier.test_rowgroup_stats() writes this file
+    fdistributions = verifier.args.output_path / verifier.args.output_distributions_filename
+    assert fdistributions.is_file(), f"File not found {fdistributions}"
+    distributions = pd.read_csv(fdistributions, index_col="field")
+    # values are floats, so use np.allclose
+    min_passed = np.allclose(distributions.minimum, verifier.distributions_df.minimum, equal_nan=True)
+    max_passed = np.allclose(distributions.maximum, verifier.distributions_df.maximum, equal_nan=True)
+    assert min_passed and max_passed, "Mismatched distributions"
+
+
+def test_test_file_sets(verifier_for_file_sets):
+    """Files on disk should match files in _metadata for catalogs that are not malformed."""
+    # run the test
+    verifier = verifier_for_file_sets.verifier
+    verifier.results = []  # ensure a fresh start
+    verifier.test_file_sets()
+
+    # check the result
+    result = verifier.results_df.squeeze()
+    _check_one_result(result, verifier_for_file_sets.assert_passed, "file_sets")
+
+
+def test_test_is_valid_catalog(verifier_for_is_valid_catalog):
+    """hipscat's is_valid_catalog should pass for valid catalogs, else fail."""
+    # run the test
+    verifier = verifier_for_is_valid_catalog.verifier
+    verifier.results = []  # ensure a fresh start
+    verifier.test_is_valid_catalog()
+
+    # check the result
+    result = verifier.results_df.squeeze()
+    _check_one_result(result, verifier_for_is_valid_catalog.assert_passed, "is_valid_catalog")
+
+
+def test_test_num_rows(verifier_for_num_rows):
+    """Row count tests should pass for catalogs that are not malformed."""
+    # run the test
+    verifier = verifier_for_num_rows.verifier
+    verifier.results = []  # ensure a fresh start
+    verifier.test_num_rows()
+
+    # check the results
+    targets = verifier_for_num_rows.test_targets["num_rows"]
+    _check_results(verifier_for_num_rows, targets)
+
+
+def test_test_rowgroup_stats(verifier_for_rowgroup_stats):
+    """Row group statistics should be present in _metadata for files that are not malformed."""
+    # run the test
+    verifier = verifier_for_rowgroup_stats.verifier
+    verifier.results = []  # ensure a fresh start
+    verifier.test_rowgroup_stats()
+
+    # check the result
+    result = verifier.results_df.squeeze()
+    _check_one_result(result, verifier_for_rowgroup_stats.assert_passed, test_name="rowgroup_stats")
+
+
+def test_test_schemas(verifier_for_schemas):
+    """Schemas should contain correct columns, dtypes, and metadata for catalogs that are not malformed."""
+    # run the tests
+    verifier = verifier_for_schemas.verifier
+    verifier.results = []  # ensure a fresh start
+    verifier.test_schemas()
+
+    # Two tests were run ('schema' and 'schema metadata') with several targets per test.
+    test_targets = verifier_for_schemas.test_targets["schema"]  # dict maps test -> targets
+    assert_passed = verifier_for_schemas.unpack_assert_passed(  # dict maps test -> assertion
+        verifier_for_schemas.assert_passed, targets=test_targets.keys()
     )
-    with pytest.raises(NotImplementedError, match="not yet implemented"):
-        runner.run(args)
+
+    # Check results for each test separately.
+    for test, targets in test_targets.items():
+        results = verifier.results_df.loc[verifier.results_df.test == test]
+        _check_results(verifier_for_schemas, targets, results=results, assert_passed=assert_passed[test])
+
+
+def _check_results(
+    verifier_fixture: VerifierFixture,
+    targets: list,
+    *,
+    results: pd.DataFrame | None = None,
+    assert_passed: bool | dict | None = None,
+) -> None:
+    """Check the results of verification tests for the given targets.
+
+    Parameters
+    ----------
+        verifier_fixture : VerifierFixture
+            The fixture containing the verifier and its results.
+        targets : list
+            The list of test targets to check. There should be one result per target.
+        results : pd.DataFrame or None
+            The test results to check. If None, verifier_fixture.verifier.results_df will be used.
+        assert_passed : bool, dict, or None
+            Whether the test should have passed for each target. If None,
+            verifier_fixture.assert_passed is used.
+
+    Raises
+    ------
+        AssertionError: If any results are unexpected.
+    """
+    results = verifier_fixture.verifier.results_df if results is None else results
+    assert_passed = verifier_fixture.assert_passed if assert_passed is None else assert_passed
+
+    # dict with one entry per target
+    _assert_passed = verifier_fixture.unpack_assert_passed(assert_passed, targets=targets)
+    for target, assertion in _assert_passed.items():
+        # Expecting one result per target so squeeze to a series
+        result = results.loc[results.target.str.startswith(target)].squeeze()
+        _check_one_result(result, assertion, test_name=target)
+
+
+def _check_one_result(result: pd.Series, assertion: bool | dict | None, test_name: str) -> None:
+    """Check the result of a single verification test.
+
+    Parameters
+    ----------
+        result : pd.Series
+            Test result reported by the verifier.
+        assertion : bool, or dict, or None
+            The expected outcome of the test. None indicates that the test should have been skipped.
+            A boolean indicates a simple pass/fail. A dict indicates expected failure and the
+            list of file suffixes expected in the result's affected_files field.
+        test_name : str
+            The name of the test being verified.
+
+    Raises
+    ------
+        AssertionError: If the result does not match the assertion.
+    """
+    if assertion is None:
+        # This test should have been skipped
+        msg = f"Unexpected result for: {test_name}. There is probably a bug in the code."
+        assert len(result.passed) == 0, msg
+        return
+
+    assert_passed, bad_suffixes = VerifierFixture.unpack_assert_passed(assertion)
+
+    # Show that the target passed or failed the test as expected
+    assert result.passed if assert_passed else not result.passed, test_name
+
+    # Show that all files that should have failed the test actually did, and no more.
+    # We're only trying to match file suffixes so strip the rest of the file path out of results.
+    found_suffixes = ["".join(Path(file).suffixes) for file in result.affected_files]
+    assert set(bad_suffixes) == set(found_suffixes), test_name + " affected_files"
diff --git a/tests/hipscat_import/verification/test_verification_arguments.py b/tests/hipscat_import/verification/test_verification_arguments.py
index 8ebd6c81..646af0c2 100644
--- a/tests/hipscat_import/verification/test_verification_arguments.py
+++ b/tests/hipscat_import/verification/test_verification_arguments.py
@@ -8,63 +8,33 @@
 
 def test_none():
     """No arguments provided. Should error for required args."""
-    with pytest.raises(ValueError):
+    with pytest.raises(TypeError):
         VerificationArguments()
 
 
 def test_empty_required(tmp_path):
     """*Most* required arguments are provided."""
     ## Input path is missing
-    with pytest.raises(ValueError, match="input_catalog_path"):
-        VerificationArguments(
-            output_path=tmp_path,
-            output_artifact_name="small_sky_object_verification_report",
-        )
+    with pytest.raises(TypeError, match="input_catalog_path"):
+        VerificationArguments(output_path=tmp_path)
 
 
 def test_invalid_paths(tmp_path, small_sky_object_catalog):
     """Required arguments are provided, but paths aren't found."""
     ## Prove that it works with required args
-    VerificationArguments(
-        input_catalog_path=small_sky_object_catalog,
-        output_path=tmp_path,
-        output_artifact_name="small_sky_object_verification_report",
-    )
+    VerificationArguments(input_catalog_path=small_sky_object_catalog, output_path=tmp_path)
 
-    ## Input path is invalid catalog
-    with pytest.raises(ValueError, match="input_catalog_path not a valid catalog"):
-        VerificationArguments(
-            input_catalog_path="path",
-            output_path=f"{tmp_path}/path",
-            output_artifact_name="small_sky_object_verification_report",
-        )
+    ## Input path is not an existing directory
+    with pytest.raises(ValueError, match="input_catalog_path must be an existing directory"):
+        VerificationArguments(input_catalog_path="path", output_path=f"{tmp_path}/path")
 
 
 def test_good_paths(tmp_path, small_sky_object_catalog):
     """Required arguments are provided, and paths are found."""
     tmp_path_str = str(tmp_path)
-    args = VerificationArguments(
-        input_catalog_path=small_sky_object_catalog,
-        output_path=tmp_path,
-        output_artifact_name="small_sky_object_verification_report",
-    )
+    args = VerificationArguments(input_catalog_path=small_sky_object_catalog, output_path=tmp_path)
     assert args.input_catalog_path == small_sky_object_catalog
     assert str(args.output_path) == tmp_path_str
-    assert str(args.tmp_path).startswith(tmp_path_str)
-
-
-def test_catalog_object(tmp_path, small_sky_object_catalog):
-    """Required arguments are provided, and paths are found."""
-    small_sky_catalog_object = Catalog.read_from_hipscat(catalog_path=small_sky_object_catalog)
-    tmp_path_str = str(tmp_path)
-    args = VerificationArguments(
-        input_catalog=small_sky_catalog_object,
-        output_path=tmp_path,
-        output_artifact_name="small_sky_object_verification_report",
-    )
-    assert args.input_catalog_path == small_sky_object_catalog
-    assert str(args.output_path) == tmp_path_str
-    assert str(args.tmp_path).startswith(tmp_path_str)
 
 
 @pytest.mark.timeout(5)
@@ -72,11 +42,7 @@ def test_provenance_info(small_sky_object_catalog, tmp_path):
     """Verify that provenance info includes verification-specific fields.
     NB: This is currently the last test in alpha-order, and may require additional
     time to teardown fixtures."""
-    args = VerificationArguments(
-        input_catalog_path=small_sky_object_catalog,
-        output_path=tmp_path,
-        output_artifact_name="small_sky_object_verification_report",
-    )
+    args = VerificationArguments(input_catalog_path=small_sky_object_catalog, output_path=tmp_path)
 
     runtime_args = args.provenance_info()["runtime_args"]
     assert "input_catalog_path" in runtime_args

From ff884550bf58049d2635e43eb88e158f95ce2db1 Mon Sep 17 00:00:00 2001
From: Troy Raen <raen@ipac.caltech.edu>
Date: Tue, 29 Oct 2024 10:48:05 -0700
Subject: [PATCH 6/6] fix up docs

---
 .../verification/run_verification.py          | 51 ++++++++++---------
 tests/hipscat_import/verification/fixture.py  |  3 +-
 2 files changed, 30 insertions(+), 24 deletions(-)

diff --git a/src/hipscat_import/verification/run_verification.py b/src/hipscat_import/verification/run_verification.py
index 670a95f4..e8e33ea8 100644
--- a/src/hipscat_import/verification/run_verification.py
+++ b/src/hipscat_import/verification/run_verification.py
@@ -13,7 +13,7 @@
 
 
 def run(args: VerificationArguments, write_mode: str = "a"):
-    """Create a Verifier using args, run all tests, and write reports.
+    """Create a `Verifier` using `args`, run all tests, and write reports.
 
     Parameters
     ----------
@@ -25,12 +25,13 @@ def run(args: VerificationArguments, write_mode: str = "a"):
     Returns
     -------
     Verifier
-        An instance of the Verifier class after running the verification process.
+        The `Verifier` instance used to perform the tests. The `results_df` and
+        `distributions_df` properties contain the same information as written reports.
 
     Raises
     ------
     TypeError
-        If 'args' is not provided or is not an instance of VerificationArguments.
+        If `args` is not provided or is not an instance of `VerificationArguments`.
     """
     if not args:
         raise TypeError("args is required and should be type VerificationArguments")
@@ -56,7 +57,7 @@ def now():
 
 @attrs.define
 class Verifier:
-    """Class for verification tests. Instantiate using the 'from_args' method."""
+    """Class for verification tests. Instantiate using the `from_args` method."""
 
     args: VerificationArguments = attrs.field()
     """Arguments to use during verification."""
@@ -78,19 +79,19 @@ class Verifier:
 
     @classmethod
     def from_args(cls, args: VerificationArguments) -> "Verifier":
-        """Create a Verifier instance from the provided arguments.
+        """Create a `Verifier` instance from the provided arguments.
 
-        This method initializes the Verifier by setting up the necessary datasets
+        This method initializes the `Verifier` by setting up the necessary datasets
         and schemas based on the input arguments.
 
         Parameters
         ----------
-            args : VerificationArguments:
+            args : VerificationArguments
                 Arguments for the Verifier.
 
         Returns
         -------
-            Verifier: An instance of the Verifier class.
+            Verifier : An instance of the `Verifier` class.
         """
         # make sure the output directory exists
         args.output_path.mkdir(exist_ok=True, parents=True)
@@ -131,10 +132,10 @@ def from_args(cls, args: VerificationArguments) -> "Verifier":
             truth_src=truth_src,
         )
 
-    def run(self, write_mode: str = "a"):
+    def run(self, write_mode: str = "a") -> None:
         """Run all tests and write reports."""
-        self.test_file_sets()
         self.test_is_valid_catalog()
+        self.test_file_sets()
         self.test_num_rows()
         self.test_rowgroup_stats(write_mode=write_mode)
         self.test_schemas()
@@ -147,7 +148,7 @@ def results_df(self) -> pd.DataFrame:
         return pd.DataFrame(self.results)
 
     def truth_schema_plus_common_metadata(self) -> pyarrow.Schema:
-        """Copy of truth_schema with hipscat fields and metadata added from common_ds.schema."""
+        """Copy of `truth_schema` with hipscat fields and metadata added from `common_ds.schema`."""
         hipscat_cols = ["Norder", "Dir", "Npix", "_hipscat_index"]
         new_fields = [
             self.common_ds.schema.field(fld) for fld in hipscat_cols if fld not in self.truth_schema.names
@@ -160,7 +161,10 @@ def truth_schema_plus_common_metadata(self) -> pyarrow.Schema:
         return pyarrow.schema(list(self.truth_schema) + new_fields).with_metadata(metadata)
 
     def test_file_sets(self) -> bool:
-        """Test that files in _metadata match files on disk. Add one Result to results.
+        """Test that files in _metadata match the parquet files on disk. Add one `Result` to `results`.
+
+        This is a simple test that can be especially useful to run after copying or moving
+        the catalog to a different local or cloud-based destination.
 
         Returns
         -------
@@ -183,7 +187,7 @@ def test_file_sets(self) -> bool:
         return passed
 
     def test_is_valid_catalog(self) -> bool:
-        """Test if the provided catalog is a valid HiPSCat catalog. Add one Result to results.
+        """Test if the provided catalog is a valid HiPSCat catalog. Add one `Result` to `results`.
 
         Returns
         -------
@@ -201,7 +205,7 @@ def test_is_valid_catalog(self) -> bool:
         return passed
 
     def test_num_rows(self) -> bool:
-        """Test the number of rows in the dataset. Add two Results to results.
+        """Test the number of rows in the dataset. Add two `Results` to `results`.
 
         File footers are compared with _metadata and the user-supplied truth (if provided).
 
@@ -268,9 +272,9 @@ def _load_nrows(self, dataset: pyarrow.dataset.Dataset, explicit_count: bool = F
         return nrows_df
 
     def test_rowgroup_stats(self, *, write_mode: str = "a") -> bool:
-        """Test that statistics were recorded for all row groups. Add a Result to results.
+        """Test that statistics were recorded for all row groups. Add a `Result` to `results`.
 
-        If the test passes, distributions_df is written to file.
+        If the test passes, `distributions_df` is written to file.
 
         Parameters
         ----------
@@ -350,13 +354,13 @@ def distributions_df(self) -> pd.DataFrame:
         return self._distributions_df
 
     def test_schemas(self) -> bool:
-        """Test the equality of schemas and their metadata. Add Results to results.
+        """Test the equality of schemas and their metadata. Add `Result`s to `results`.
 
         This method performs up to four tests:
         1. Schema metadata includes a correct pandas schema.
-        2. _common_metadata matches user-supplied truth_schema (schema and metadata), if provided.
-        3. _metadata matches Verifier truth_schema (schema and metadata).
-        4. File footers match Verifier truth_schema (schema and metadata).
+        2. _common_metadata matches user-supplied `args.truth_schema` (schema and metadata), if provided.
+        3. _metadata matches Verifier `truth_schema` (schema and metadata).
+        4. File footers match Verifier `truth_schema` (schema and metadata).
 
         Returns
         -------
@@ -380,7 +384,7 @@ def _test_schema__common_metadata(self, test_info: dict, testmd_info: dict) -> b
 
         This method performs up to two tests:
         1. Schema metadata includes a correct pandas schema.
-        2. _common_metadata matches user-supplied truth_schema (schema and metadata), if provided.
+        2. _common_metadata matches user-supplied `args.truth_schema` (schema and metadata), if provided.
 
         Parameters
         ----------
@@ -413,7 +417,8 @@ def _test_schema__common_metadata(self, test_info: dict, testmd_info: dict) -> b
         return all([pandas_passed, passed, passedmd])
 
     def _test_schema__common_metadata_pandas(self) -> bool:
-        """Test that the pandas schema in _common_metadata metadata matches the truth schema.
+        """Test that the pandas metadata in _common_metadata matches the actual field names
+        and types in `truth_schema`.
 
         Returns
         -------
@@ -507,7 +512,7 @@ def _append_result(
         passed: bool,
         affected_files: list[str] | None = None,
     ):
-        """Create a Result and append it to self.results."""
+        """Create a `Result` and append it to `self.results`."""
         self.results.append(
             Result(
                 datetime=now(),
diff --git a/tests/hipscat_import/verification/fixture.py b/tests/hipscat_import/verification/fixture.py
index 3d549a66..3a8415de 100644
--- a/tests/hipscat_import/verification/fixture.py
+++ b/tests/hipscat_import/verification/fixture.py
@@ -11,7 +11,7 @@
 
 @attrs.define
 class VerifierFixture:
-    """Class for pytest fixtures for verification tests. Instantiate using the 'from_param' method."""
+    """Class to generate pytest fixtures for verification tests. Instantiate using the 'from_param' method."""
 
     test_targets: dict[str, list | dict] = attrs.field(validator=attrs.validators.instance_of(dict))
     """Dictionary mapping test names to targets."""
@@ -47,6 +47,7 @@ def from_param(
         truth_schema = fixture_def.get("truth_schema")
         if truth_schema is not None:
             truth_schema = malformed_catalog_dirs[truth_schema.split("/")[0]] / truth_schema.split("/")[1]
+
         args = VerificationArguments(
             input_catalog_path=malformed_catalog_dirs[fixture_def["input_dir"]],
             output_path=tmp_path,