GitHub - deutsche-nationalbibliothek/pica-rs: Tools to work with bibliographic records encoded in PICA+.

Das Toolkit pica-rs ermöglicht eine effiziente Verarbeitung von bibliografischen Metadaten, die in PICA+, dem internen Format des OCLC-Katalogsystems, kodiert sind. Mithilfe verschiedener Kommandos können aus den Metadaten elementare statistische Größen ermittelt und aufbereitet werden. Zudem kann das Toolkit als Brückentechnologie fungieren, um Metadaten für populäre Frameworks wie Polars (Python), in Programmiersprachen wie R oder für Excel nutzbar zu machen.

Das Projekt ist eine Entwicklung des Referats Automatische Erschließungsverfahren; Netzpublikationen (AEN) der Deutschen Nationalbibliothek (DNB). Es wird für die Erstellung von Datenanalysen sowie für die Automatisierung von Metadaten-Workflows (Datenmanagement) im Rahmen der automatischen Inhaltserschließung genutzt. Weiterhin wird es zur Unterstützung der Forschungsarbeiten im Projekt Automatisches Erschließungssystem und für diverse andere Datenanalysen in der DNB eingesetzt.

Die Mitwirkung an pica-rs ist sehr erwünscht. Wir würden Sie bitten, mögliche Fehler, Fragen und neue Ideen als GitHub-Issues anzulegen. Diese werden wir dann intern beraten und möglichst zeitnah ein Feedback geben. Ferner kann das Forum metadaten.community zur Diskussion genutzt werden.

Die Installation des Toolkits und alle Kommandos sind in der Dokumentation beschrieben.

Kommandos

concat — Zusammenfügen (Konkatenieren) von Datensätzen
completions — Erzeugung von Shell-Skripten zur Autovervollständigung
convert — Konvertierung zwischen verschiedenen PICA-Formaten
count — Zählen von Datensätzen, Feldern und Unterfeldern
explode — Teilt Datensätze in Lokal- oder Exemplardatensätze auf
filter — Filtert Datensätze anhand eines Kriteriums
frequency — Ermitteln einer Häufigkeitsverteilung über ein oder mehrere Unterfelder
hash — Erzeugt SHA-256-Hashwerte von Datensätzen
invalid — Findet ungültige Zeilen in der Eingabe
partition — Partitioniert Datensätze anhand eines Unterfelds
print — Gibt Datensätze in einer menschenlesbaren Form aus
sample — Wählt eine Zufallsstichprobe eines bestimmten Umfangs aus
select — Selektiert ein oder mehrere Unterfelder und gibt die Daten im CSV- bzw. TSV-Format aus
slice — Ausschneiden eines zusammenhängenden Teilbereichs aus der Eingabe
split — Teilt eine Menge an Datensätzen in Dateien fester Größe

Lizenz

Der Quellcode sowie die Releases sind lizenziert unter der EUPL-1.2.

Name		Name	Last commit message	Last commit date
Latest commit History 674 Commits
.cargo		.cargo
.config		.config
.github		.github
crates		crates
docs.bak		docs.bak
docs		docs
fuzz		fuzz
src		src
tests		tests
.gitignore		.gitignore
.rustfmt.toml		.rustfmt.toml
CHANGELOG.md		CHANGELOG.md
CITATION.cff		CITATION.cff
Cargo.toml		Cargo.toml
Cross.toml		Cross.toml
LICENSE		LICENSE
README.md		README.md
deny.toml		deny.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Kommandos

Verwandte Projekte

Lizenz

About

Releases 30

Contributors 5

Languages

License

deutsche-nationalbibliothek/pica-rs

Folders and files

Latest commit

History

Repository files navigation

Kommandos

Verwandte Projekte

Lizenz

About

Topics

Resources

License

Stars

Watchers

Forks

Releases 30

Contributors 5

Languages