Решение дорожки RuREBus в рамках DIALOGUE EVALUATION 2020 - соревнованию по извлечению отношений в бизнес-постановке. В качестве датасета использовались документы минестерства экономического развития, в котором было 17 типов именованных сущностей и 12 типов связей.
- Для задачи NER использовалась архитектура CharCNN + ELMO embeddings -> BLSTM -> CRF, что в результате дало 0.492 F1.
- Задача RE решалась архитектурой, схожей с описанной в этой статье: Две головы, состоящие из CharCNN + ELMO embeddings -> BLSTM -> CNN -> Linear. В одну подаётся предложение в исходном виде, во вторую в порядке, определяемом синтаксическим разбором -- кратчайшим путём в графе разбора между рассматриваемой парой слов. В лоссе учитывается выход каждой головы, а также выход, получаемый объединением признаков с этих голов. Описанный подход даёт 0.33 F1 на тестовых данных.