Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

JSBD: Postprocessing #33

Open
fmatthies opened this issue Mar 21, 2017 · 2 comments
Open

JSBD: Postprocessing #33

fmatthies opened this issue Mar 21, 2017 · 2 comments

Comments

@fmatthies
Copy link
Contributor

Right now, the Postprocessing done by JSBD is hardcoded, as well as an abbrevation lexicon.
The postprocessing steps were probably fitted to "biomedical english abstracts". This results in some issues with "medical german discharge summaries etc."

At least the abbrevation lexicon should be "outsourced".

@fmatthies
Copy link
Contributor Author

AbbreviationsMedical wird nur im Postprocessing eingesetzt.
Abstract2UnitPipe nutzt explizit AbbreviationsBiomed. Sollte der Teil
auch umgestellt werden können?

Oh, das muss mir entgangen sein; glaub ich. Ja, sollte er.

Und meintest Du mit "outsourced" einen
generellen Lademechanismus und wie würdest Du ihn Dir vorstellen?

Ja, ich hatte selber leider keine Zeit und musste deshalb schnell diesen "dirty hack" einfügen. Im Grunde wäre es schön, wenn man per "descriptor parameter" eine Datei angeben kann, die entsprechende Abkürzungen enthält. Im Moment wird der Parameter "Postprocessing" dafür benutzt, der aber nur zwischen "medical" und "biomed" (bzw. kein PP) wechseln kann. Hier könnte dann entsprechend der Pfad zu dem Abk.-Lexikon rein oder so.

Mir ist aufgefallen, dass in dem LOW String in Abstract2UnitPipe das
kleine 'ß' fehlt.

Stimmt, so tief bin ich in den Code gar nicht eingestiegen, als dass mir das für die Verarbeitung deutscher Texte aufgefallen wäre; JSBD war ja nur für englische Texte konzipiert.

Sollte man generell auf Unicode (\p{Ll} für Letter
Lowercase und \p{Lu} für Letter Uppercase) umstellen?

Wenn das umstandslos klappt und die gleichen Ergebnisse bringt, gerne :)

@khituras
Copy link
Member

Gibt es hier noch updates? Ist das fertig? Wird das einfach nicht mehr gemacht?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants