Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Публичный запуск сервиса #38

Open
iprst opened this issue Apr 9, 2024 · 10 comments
Open

Публичный запуск сервиса #38

iprst opened this issue Apr 9, 2024 · 10 comments

Comments

@iprst
Copy link

iprst commented Apr 9, 2024

Предлагаю опубликовать извещение в соборной теме

Товарищи, на сайте svodd.ru в тестовом режиме запущен новый сервис полнотекстового поиска по сайту Кремля, Минобороны и МИДа. Все существующие официальные записи этих ведомств проиндексированы и по ним легко найти нужное, всё сразу в одном месте, все новые записи на этих сайтах индексируются в режиме почти реального времени.

Найти можно как что-то конкретное по существу вопроса, так и какой-нибудь маркер, так, например, запрос «питомник 22» возвращается вовсе не пустым:
https://feed.svodd.ru/search?query=питомник+22

Теги ведомств под строкой поиска и под каждой записью позволяют отфильтровать один конкретный источник. В планах дальнейшее развитие сервиса, пользуйтесь, если возникнут идеи что-то добавить или изменить функционал, пишите в соборной теме или на гитхабе.

@iprst
Copy link
Author

iprst commented Apr 9, 2024

Данную тему предлагаю оставить для обратной связи

Вопросы и пожелания по работе feed.svodd.ru можно размещать ниже

@audetv
Copy link
Contributor

audetv commented Apr 9, 2024

Да, давайте опубликуем.

@iprst
Copy link
Author

iprst commented Apr 17, 2024

ОТЧЁТ О ПРОБЛЕМЕ

Поиск термина ATACMS по трём офсайтам не позволяет найти все записи, потому что одни записи набраны одними символами юникода, а другие — другими.

АТАСМS = \u0410\u0422\u0410\u0421\u041C\u0053 — 1 результат
ATACMS = \u0041\u0054\u0041\u0043\u004D\u0053 — 5 результатов

Совпадают только последние буквы S. Возможно нужна какая-то проверка, но пока нет идей откуда вообще берётся разница, по-видимому она появляется на этапе публикации в МО, возможно даже что это хардварный вопрос. В телеге МО точно такие результаты.

@audetv
Copy link
Contributor

audetv commented Apr 18, 2024

Да, действительно первые 5 символов \u0410\u0422\u0410\u0421\u041C\ — это коды кириллических символы, последний латинская заглавная S
Во второй строке все символы заглавные латиницей.

Это точно появилось на этапе публикации сообщения, вот как оператор в МО опубликовал, так и пошел текст распространяться и в ТГ и на сайты, как есть.

Возможно это сделано намерено, возможно это сделано «случайно» или, например, пользователю-оператору было лень переключать раскладку на первых 5 буквах, но не лень переключить раскладку на последней букве, но все же лень стереть предыдущие 5 букв, уже написанные другой раскладкой, и оставили так. Возможно в этом есть смысл. Это не запрещенные символы, это просто кириллические и латинские заглавные буквы. как бы хардварно и не никакой ошибки. все легально для программ и ИТ систем. Просто разные символы разных раскладок смешаны в одном слове. но из одной таблицы символов. Зачем? не знаю)

@iprst
Copy link
Author

iprst commented Apr 18, 2024

разные символы разных раскладок смешаны в одном слове. но из одной таблицы символов. Зачем?

Нет смысла их приравнять? Например фильтры в ютубе не пропускают слова из списка независимо от того, какие конфигурации символов из набора использованы.

@audetv
Copy link
Contributor

audetv commented Apr 18, 2024

разные символы разных раскладок смешаны в одном слове. но из одной таблицы символов. Зачем?

Нет смысла их приравнять? Например фильтры в ютубе не пропускают слова из списка независимо от того, какие конфигурации символов из набора использованы.

Я не знаю способа это сделать просто, вызвать функцию или что-то такое и чтобы заработало. В документации мантикоры не помню про это, возможно есть, видимо надо опять читать по таблицам символов. Пока есть ощущение, что в коробке такой функции нет. Вообще это не кажется тривиальной задачей, когда мы видим АТАСМS и уже установили причину, то все просто, но на вход индексера мантикоры приходят тысячи токенов-слов как программе определить так было задумано или это ошибка, или склеенные слова.

Я пробовал в ютубе вводить эти 2 слова в поиск, выдача для каждого была разная, а вот яндекс выдавал примерно одно и тоже., примерно…

Пока так, пока не знаю как это делать.

Если только не имелось ввиду составление словаря, как с концептуальным поиском, но только пока из 2х токенов. Как вариант. надо подумать)

@iprst
Copy link
Author

iprst commented Apr 18, 2024

Пока есть ощущение, что в коробке такой функции нет. Вообще это не кажется тривиальной задачей, когда мы видим АТАСМS и уже установили причину, то все просто, но на вход индексера мантикоры приходят тысячи токенов-слов как программе определить так было задумано или это ошибка, или склеенные слова.

Тогда не заморачиваемся.

Я пробовал в ютубе вводить эти 2 слова в поиск, выдача для каждого была разная, а вот яндекс выдавал примерно одно и тоже., примерно…

Я имею в виду, что в ютубе для блокировки используется что-то вроде концептуального словаря со стоп-словами, в которых буквы, использующие одинаковое начертание, представлены в разных кодировках, и подмена букв, чтобы система не смогла распознать сообщение для блокировки, не работает — комментарий будет заблокирован несмотря на ухищрения с кодировками похожих символов.

@iprst
Copy link
Author

iprst commented Apr 23, 2024

https://feed.svodd.ru/search?rid=3&query=группировка&sort=-date

Имеются записи без дат, указано «дата не установлена».

@audetv
Copy link
Contributor

audetv commented Apr 23, 2024

Да, такие записи попадаются, из не очень много вроде, надо будет глянуть. Я специально делал сценарий для обработки записей без дат, который выводит это сообщение, или записей, в которых дата спарсилась с ошибкой. В данном случае у этой записи на сайте МО нет даты.
Но есть еще одна сводка с таким же наименованием, но уже с датой, это разные url.

Details

https://function.mil.ru/news_page/country/more.htm?id=12472465@egNews
https://function.mil.ru/news_page/country/more.htm?id=12472467@egNews

Наверное их можно удалять, и оставить только одну с датой.

@iprst
Copy link
Author

iprst commented Apr 23, 2024

Любопытно, что между 465 (текст без видео) и 467 (текст с видео) нет записи 466. Словно в БД было добавлено видео и в ней номер занят им, но отдельная страница для него не создана.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants
@audetv @iprst and others