Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс:
https://elib.belstu.by/handle/123456789/39325
Название: | Извлечение основного содержания из веб-страниц на основе анализа визуальных характеристик элементов и преобразования в JSON формат |
Авторы: | Каргин, Николай Сергеевич Гурин, Николай Иванович |
Ключевые слова: | JSON формат веб-страницы браузеры извлечение основного материала визуальные характеристики CSS HTML |
Дата публикации: | 2021 |
Издательство: | БГТУ |
Библиографическое описание: | Каргин Н. С., Гурин Н. И. Извлечение основного содержимого из веб-страниц на основе анализа визуальных характеристик элементов и преобразования в JSON формат // Труды БГТУ. Сер. 3, Физико-математические науки и информатика. 2021. № 1 (242). С. 54–60. |
Краткий осмотр (реферат): | В статье рассматриваются алгоритмы извлечения основного содержимого из веб-страниц и предлагается метод решения проблем, затрудняющих извлечение основного содержимого, на основе визуальных характеристик и внутреннего содержимого элементов страницы. В разработанном методе основное содержимое определяется одним корневым элементом и преобразуется в JSON формат, содержащий однозначные типы данных, описывающих абзацы, заголовки, изображения, видеозаписи, галереи и другие элементы страницы. Для отображения JSON формата не требуется браузер, что значительно расширяет его возможности применения в мобильной и встраиваемой технике ввиду большей эффективности. Применение в методе поиска корневого элемента позволяет улучшить качество и ускорить извлечение основного содержимого при обработке большого количества веб-страниц одного сайта и использовании персистентного хранилища для обработанных страниц. |
URI (Унифицированный идентификатор ресурса): | https://elib.belstu.by/handle/123456789/39325 |
Располагается в коллекциях: | выпуск журнала постатейно |
Файлы этого ресурса:
Файл | Описание | Размер | Формат | |
---|---|---|---|---|
10. Каргин .pdf | 717.28 kB | Adobe PDF | Просмотреть/Открыть |
Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.