Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Doppelte Imports verhindern #6

Open
j3nsch opened this issue Oct 22, 2024 · 0 comments
Open

Doppelte Imports verhindern #6

j3nsch opened this issue Oct 22, 2024 · 0 comments

Comments

@j3nsch
Copy link
Member

j3nsch commented Oct 22, 2024

Der Import sollte in der Lage sein zu erkennen, ob ein Document bereits importiert wurde. Es sollte möglich sein, die Dokumente der letzten Wochen zu importieren und dann den gleichen Import noch einmal zu starten, ohne dass Duplikate in OPUS 4 entstehen.

Beim BibTeX-Import machen wir das über Hashes der normalisierten Metadaten. Für DeepGreen gibt es sicherlich einfachere Möglichkeiten wie eine eindeutige ID für jeden Datensatz. Die DOI könnte dafür reichen, wenn sie innerhalb von DeepGreen immer unique ist, also als Key verwendet werden könnte.

Es geht hier nicht, um das Erkennen von Duplikaten bei denen der OPUS 4 Datensatz nicht ursprünglich von DeepGreen gekommen ist. Das wäre der Fall, wenn das Dokument lokal angelegt wurde und über DeepGreen später der Volltext hinzugefügt werden soll. Das zu Handhaben liegt in der Verantwortung des nachgeschalteten OPUS 4 Import Workflows.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
Status: No status
Development

No branches or pull requests

1 participant