unique print added

commons-research · Aug 7, 2024 · 4777611 · 4777611
1 parent 0d19f83
commit 4777611
Showing 1 changed file with 13 additions and 6 deletions.
diff --git a/dataset_extractor_lotus/main.py b/dataset_extractor_lotus/main.py
@@ -360,15 +360,22 @@ def read_arg(argv):
                     smiles_column: "smiles"
                 }
             ).unique()
+            #).unique(subset=["smiles"])
 
-            # Find duplicates in the 'id' column
-            duplicates = df.group_by("id").count().filter(pl.col("count") > 1)
+            # Find duplicates in the columns
+            duplicates_id = df.group_by("id").count().filter(pl.col("count") > 1)
+            duplicates_smiles = df.group_by("smiles").count().filter(pl.col("count") > 1)
+
+            # info about dataframe
+            print(f"""--- Uniqueness of dataframe ---\nall columns: {df.unique().shape[1]}\nid: {df.unique(subset="id").shape[0]}\nsmiles: {df.unique(subset="smiles").shape[0]}""")
 
             # Print the duplicate IDs
-            if not duplicates.is_empty():
-                print(f'Duplicate IDs found:\n{duplicates}')
-            else:
-                print("No duplicate IDs found.")
+            if not duplicates_id.is_empty():
+                print(f'Duplicate IDs found:\n{duplicates_id}')
+
+            # Print the duplicate SMILES
+            if not duplicates_smiles.is_empty():
+                print(f'Duplicate SMILES found:\n{duplicates_smiles}')
 
             # Write the transformed DataFrame to a new CSV file
             df.write_csv(output_path_file)