#420 #433 - Berkeley Parser improvements #421

mjlaali · 2015-10-19T14:51:45Z

Instead of throwing an exception, it is better to print an error message.

leebecker · 2015-10-23T04:01:00Z

cleartk-berkeleyparser/src/main/java/org/cleartk/berkeleyparser/ParserAnnotator.java

    return AnalysisEngineFactory.createEngineDescription(
        ParserAnnotator.class,
        ParserAnnotator.PARAM_PARSER_MODEL_PATH,
        modelPath,
        ParserWrapper_ImplBase.PARAM_OUTPUT_TYPES_HELPER_CLASS_NAME,
-        DefaultOutputTypesHelper.class.getName());
+        DefaultOutputTypesHelper.class.getName(),
+        ParserWrapper_ImplBase.PARAM_TOKENIZER_CLASS_NAME,


@mjlaali - It is more UIMA-like to make the tokenizer a separate annotator which adds tokens to the CAS. This way the ParserAnnotator can just focus on extracting what it needs from the CAS independently of how tokenization and other preprocessing was performed.

For examples of this decoupling, I would look at our ClearNLP wrappers.

leebecker · 2015-10-23T04:18:31Z

Right now, it seems like the ParserAnnotator is too closely coupled to the tokenizers and normalizers. Before it is merged, I would prefer to see the Tokenizer split into its own annotator, so the logic of the ParserAnnotator can remain mostly unchanged.

Similarly, if you want to normalize the text and operate on changed representations of the text, I would suggest writing normalization as its own AnalysisEngine/Annotator as well. The UIMA approach would put the normalized text in a new view that the ParserAnnotator would run on instead of the initialView.

mjlaali · 2015-10-29T19:04:59Z

Lee, thank you for your feedbacks. I separated the Berkeley tokenizer and pos tagger from the parser.

Regard the normalization, I am not sure. Normalizing the text is only done to make the text compatible with the Penn Treebank conventions (such as changing '(' to '-LRB') so that parser model matches with the input text. I believe creating an extra view just to save the PTB style of text is not only add overhead, but also adding all tokens to this view does not make sense to me.

leebecker · 2015-11-20T08:09:10Z

...tk-berkeleyparser/src/test/java/org/cleartk/berkeleyparser/DefaultBerkeleyTokenizerTest.java

+public class DefaultBerkeleyTokenizerTest extends BerkeleyTestBase {
+
+  @Test
+  public void givenASentenctWhenTokenizingThenAllTokenAreReturned() throws UIMAException{


Typo in test name. Change givenASentenctWhenTokenizingThenAllTokenAreReturned to givenASentenceWhenTokenizingThenAllTokenAreReturned.

reckart · 2022-11-05T08:09:02Z

Ping? @leebecker @mjlaali @bethard anybody still listening here? Any opinion whether it might be worth saving this effort or discarding it?

Unfortunately, the PR settings does not allow other people than @mjlaali to contribute, so I cannot even let GitHub update the PR and check if it still builds...

bethard · 2022-11-05T19:54:14Z

Looks like the Java Berkeley Parser hasn't been updated in 7 years: https://github.com/slavpetrov/berkeleyparser. So I'm guessing it would be fined to abandon this (and the parser wrapper).

mjlaali added 5 commits October 18, 2015 16:02

Make the berkeley parser stand alone.

e966e1f

Add pos tags

0337b1b

Rename a test

6bd5a70

Remove extra dependencies

677c45b

Merge branch 'berkeleyparser' into issue/432

f4eb6f1

mjlaali closed this Oct 21, 2015

mjlaali reopened this Oct 21, 2015

mjlaali added 9 commits October 21, 2015 17:19

Default Berkeley Tokenizer can be customized

779ce9f

Merge branch 'berkeleyparser' into issue/420

22bb239

Solve issue when a sentence does not contain any token.

cbd2d94

Merge branch 'berkeleyparser' into issue/420

0dd51cb

Resolve duplicate annotations after parsing with Berkeley parser wrapper

9959a39

Merge branch 'berkeleyparser' into issue/420

f146d24

Create a better test case

2dbba00

Merge branch 'berkeleyparser' into issue/420

86e2aa6

Default Berkeley tokenizer does not throw an exception

95c8c41

Instead of throwing an exception, it is better to print an error message.

leebecker reviewed Oct 23, 2015
View reviewed changes

mjlaali added 2 commits October 29, 2015 14:57

Extract tokenizer and POS tagger from the Berkeley parser wrapper.

33f0685

Merge branch 'berkeleyparser' into issue/420

1c25890

mjlaali added 4 commits November 7, 2015 10:34

Fix a bug when printing not parsed sentences

0b703af

Merge branch 'berkeleyparser' into issue/420

537fb52

Default Berkeley Tokenizer

ba99fd8

Merge branch 'berkeleyparser' into issue/420

6e1e105

leebecker reviewed Nov 20, 2015
View reviewed changes

mjlaali added 4 commits November 20, 2015 10:15

Remove setPosTag() from DefaultBerkeleyTokenizer.

2b33324

remove a warning

8631f81

Set parameter for the overwrite POS tags feature.

68a1e2b

Merge branch 'master' into issue/420

bf5a76a

reckart changed the title ~~Issue/420~~ #420 / #433 - Berkeley Parser improvements Jul 29, 2022

reckart changed the title ~~#420 / #433 - Berkeley Parser improvements~~ #420 #433 - Berkeley Parser improvements Jul 29, 2022

reckart assigned mjlaali Jul 29, 2022

reckart marked this pull request as draft November 4, 2022 12:45

mjlaali closed this Feb 16, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

#420 #433 - Berkeley Parser improvements #421

#420 #433 - Berkeley Parser improvements #421

mjlaali commented Oct 19, 2015

leebecker Oct 23, 2015

leebecker commented Oct 23, 2015

mjlaali commented Oct 29, 2015

leebecker Nov 20, 2015

reckart commented Nov 5, 2022

bethard commented Nov 5, 2022

#420 #433 - Berkeley Parser improvements #421

#420 #433 - Berkeley Parser improvements #421

Conversation

mjlaali commented Oct 19, 2015

leebecker Oct 23, 2015

Choose a reason for hiding this comment

leebecker commented Oct 23, 2015

mjlaali commented Oct 29, 2015

leebecker Nov 20, 2015

Choose a reason for hiding this comment

reckart commented Nov 5, 2022

bethard commented Nov 5, 2022