Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: https://elib.belstu.by/handle/123456789/39325
Название: Извлечение основного содержания из веб-страниц на основе анализа визуальных характеристик элементов и преобразования в JSON формат
Авторы: Каргин, Николай Сергеевич
Гурин, Николай Иванович
Ключевые слова: JSON формат
веб-страницы
браузеры
извлечение основного материала
визуальные характеристики
CSS
HTML
Дата публикации: 2021
Издательство: БГТУ
Библиографическое описание: Каргин Н. С., Гурин Н. И. Извлечение основного содержимого из веб-страниц на основе анализа визуальных характеристик элементов и преобразования в JSON формат // Труды БГТУ. Сер. 3, Физико-математические науки и информатика. 2021. № 1 (242). С. 54–60.
Краткий осмотр (реферат): В статье рассматриваются алгоритмы извлечения основного содержимого из веб-страниц и предлагается метод решения проблем, затрудняющих извлечение основного содержимого, на основе визуальных характеристик и внутреннего содержимого элементов страницы. В разработанном методе основное содержимое определяется одним корневым элементом и преобразуется в JSON формат, содержащий однозначные типы данных, описывающих абзацы, заголовки, изображения, видеозаписи, галереи и другие элементы страницы. Для отображения JSON формата не требуется браузер, что значительно расширяет его возможности применения в мобильной и встраиваемой технике ввиду большей эффективности. Применение в методе поиска корневого элемента позволяет улучшить качество и ускорить извлечение основного содержимого при обработке большого количества веб-страниц одного сайта и использовании персистентного хранилища для обработанных страниц.
URI (Унифицированный идентификатор ресурса): https://elib.belstu.by/handle/123456789/39325
Располагается в коллекциях:выпуск журнала постатейно

Файлы этого ресурса:
Файл Описание РазмерФормат 
10. Каргин .pdf717.28 kBAdobe PDFПросмотреть/Открыть



Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.