Значит нам нужно что-то что умеет делать снимки экрана, двигать мышкой, скроллить странички - это первый этап, так?
Это второй этап - распознование текста. На выходе мы должны получать текст и изображения Третий этап - выделение смысла Четвертый - семантический анализ Пятый фильтрация Дальше есть еще варианты собирать семантическую базу данных и строить по ней выводы - это шестой этап. Его полагаю еще никто в мире не делал По крайней мере успешно