Please use this identifier to cite or link to this item:
https://elib.belstu.by/handle/123456789/39325
Title: | Извлечение основного содержания из веб-страниц на основе анализа визуальных характеристик элементов и преобразования в JSON формат |
Authors: | Каргин, Николай Сергеевич Гурин, Николай Иванович |
Keywords: | JSON формат веб-страницы браузеры извлечение основного материала визуальные характеристики CSS HTML |
Issue Date: | 2021 |
Publisher: | БГТУ |
Citation: | Каргин Н. С., Гурин Н. И. Извлечение основного содержимого из веб-страниц на основе анализа визуальных характеристик элементов и преобразования в JSON формат // Труды БГТУ. Сер. 3, Физико-математические науки и информатика. 2021. № 1 (242). С. 54–60. |
Abstract: | В статье рассматриваются алгоритмы извлечения основного содержимого из веб-страниц и предлагается метод решения проблем, затрудняющих извлечение основного содержимого, на основе визуальных характеристик и внутреннего содержимого элементов страницы. В разработанном методе основное содержимое определяется одним корневым элементом и преобразуется в JSON формат, содержащий однозначные типы данных, описывающих абзацы, заголовки, изображения, видеозаписи, галереи и другие элементы страницы. Для отображения JSON формата не требуется браузер, что значительно расширяет его возможности применения в мобильной и встраиваемой технике ввиду большей эффективности. Применение в методе поиска корневого элемента позволяет улучшить качество и ускорить извлечение основного содержимого при обработке большого количества веб-страниц одного сайта и использовании персистентного хранилища для обработанных страниц. |
URI: | https://elib.belstu.by/handle/123456789/39325 |
Appears in Collections: | выпуск журнала постатейно |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
10. Каргин .pdf | 717.28 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.