Please use this identifier to cite or link to this item: https://elib.belstu.by/handle/123456789/39325
Title: Извлечение основного содержания из веб-страниц на основе анализа визуальных характеристик элементов и преобразования в JSON формат
Authors: Каргин, Николай Сергеевич
Гурин, Николай Иванович
Keywords: JSON формат
веб-страницы
браузеры
извлечение основного материала
визуальные характеристики
CSS
HTML
Issue Date: 2021
Publisher: БГТУ
Citation: Каргин Н. С., Гурин Н. И. Извлечение основного содержимого из веб-страниц на основе анализа визуальных характеристик элементов и преобразования в JSON формат // Труды БГТУ. Сер. 3, Физико-математические науки и информатика. 2021. № 1 (242). С. 54–60.
Abstract: В статье рассматриваются алгоритмы извлечения основного содержимого из веб-страниц и предлагается метод решения проблем, затрудняющих извлечение основного содержимого, на основе визуальных характеристик и внутреннего содержимого элементов страницы. В разработанном методе основное содержимое определяется одним корневым элементом и преобразуется в JSON формат, содержащий однозначные типы данных, описывающих абзацы, заголовки, изображения, видеозаписи, галереи и другие элементы страницы. Для отображения JSON формата не требуется браузер, что значительно расширяет его возможности применения в мобильной и встраиваемой технике ввиду большей эффективности. Применение в методе поиска корневого элемента позволяет улучшить качество и ускорить извлечение основного содержимого при обработке большого количества веб-страниц одного сайта и использовании персистентного хранилища для обработанных страниц.
URI: https://elib.belstu.by/handle/123456789/39325
Appears in Collections:выпуск журнала постатейно

Files in This Item:
File Description SizeFormat 
10. Каргин .pdf717.28 kBAdobe PDFView/Open



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.