-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Публичный запуск сервиса #38
Comments
Данную тему предлагаю оставить для обратной связиВопросы и пожелания по работе feed.svodd.ru можно размещать ниже |
Да, давайте опубликуем. |
ОТЧЁТ О ПРОБЛЕМЕПоиск термина ATACMS по трём офсайтам не позволяет найти все записи, потому что одни записи набраны одними символами юникода, а другие — другими. АТАСМS = \u0410\u0422\u0410\u0421\u041C\u0053 — 1 результат Совпадают только последние буквы S. Возможно нужна какая-то проверка, но пока нет идей откуда вообще берётся разница, по-видимому она появляется на этапе публикации в МО, возможно даже что это хардварный вопрос. В телеге МО точно такие результаты. |
Да, действительно первые 5 символов \u0410\u0422\u0410\u0421\u041C\ — это коды кириллических символы, последний латинская заглавная S Это точно появилось на этапе публикации сообщения, вот как оператор в МО опубликовал, так и пошел текст распространяться и в ТГ и на сайты, как есть. Возможно это сделано намерено, возможно это сделано «случайно» или, например, пользователю-оператору было лень переключать раскладку на первых 5 буквах, но не лень переключить раскладку на последней букве, но все же лень стереть предыдущие 5 букв, уже написанные другой раскладкой, и оставили так. Возможно в этом есть смысл. Это не запрещенные символы, это просто кириллические и латинские заглавные буквы. как бы хардварно и не никакой ошибки. все легально для программ и ИТ систем. Просто разные символы разных раскладок смешаны в одном слове. но из одной таблицы символов. Зачем? не знаю) |
Нет смысла их приравнять? Например фильтры в ютубе не пропускают слова из списка независимо от того, какие конфигурации символов из набора использованы. |
Я не знаю способа это сделать просто, вызвать функцию или что-то такое и чтобы заработало. В документации мантикоры не помню про это, возможно есть, видимо надо опять читать по таблицам символов. Пока есть ощущение, что в коробке такой функции нет. Вообще это не кажется тривиальной задачей, когда мы видим АТАСМS и уже установили причину, то все просто, но на вход индексера мантикоры приходят тысячи токенов-слов как программе определить так было задумано или это ошибка, или склеенные слова. Я пробовал в ютубе вводить эти 2 слова в поиск, выдача для каждого была разная, а вот яндекс выдавал примерно одно и тоже., примерно… Пока так, пока не знаю как это делать. Если только не имелось ввиду составление словаря, как с концептуальным поиском, но только пока из 2х токенов. Как вариант. надо подумать) |
Тогда не заморачиваемся.
Я имею в виду, что в ютубе для блокировки используется что-то вроде концептуального словаря со стоп-словами, в которых буквы, использующие одинаковое начертание, представлены в разных кодировках, и подмена букв, чтобы система не смогла распознать сообщение для блокировки, не работает — комментарий будет заблокирован несмотря на ухищрения с кодировками похожих символов. |
https://feed.svodd.ru/search?rid=3&query=группировка&sort=-date Имеются записи без дат, указано «дата не установлена». |
Да, такие записи попадаются, из не очень много вроде, надо будет глянуть. Я специально делал сценарий для обработки записей без дат, который выводит это сообщение, или записей, в которых дата спарсилась с ошибкой. В данном случае у этой записи на сайте МО нет даты. Details
https://function.mil.ru/news_page/country/more.htm?id=12472465@egNews Наверное их можно удалять, и оставить только одну с датой. |
Любопытно, что между 465 (текст без видео) и 467 (текст с видео) нет записи 466. Словно в БД было добавлено видео и в ней номер занят им, но отдельная страница для него не создана. |
Предлагаю опубликовать извещение в соборной теме
Товарищи, на сайте svodd.ru в тестовом режиме запущен новый сервис полнотекстового поиска по сайту Кремля, Минобороны и МИДа. Все существующие официальные записи этих ведомств проиндексированы и по ним легко найти нужное, всё сразу в одном месте, все новые записи на этих сайтах индексируются в режиме почти реального времени.
Найти можно как что-то конкретное по существу вопроса, так и какой-нибудь маркер, так, например, запрос «питомник 22» возвращается вовсе не пустым:
https://feed.svodd.ru/search?query=питомник+22
Теги ведомств под строкой поиска и под каждой записью позволяют отфильтровать один конкретный источник. В планах дальнейшее развитие сервиса, пользуйтесь, если возникнут идеи что-то добавить или изменить функционал, пишите в соборной теме или на гитхабе.
The text was updated successfully, but these errors were encountered: