Пожалуйста, используйте этот идентификатор, чтобы цитировать или ссылаться на этот ресурс: https://elib.belstu.by/handle/123456789/39325
Полная запись метаданных
Поле DCЗначениеЯзык
dc.contributor.authorКаргин, Николай Сергеевич-
dc.contributor.authorГурин, Николай Иванович-
dc.date.accessioned2021-03-29T05:35:50Z-
dc.date.available2021-03-29T05:35:50Z-
dc.date.issued2021-
dc.identifier.citationКаргин Н. С., Гурин Н. И. Извлечение основного содержимого из веб-страниц на основе анализа визуальных характеристик элементов и преобразования в JSON формат // Труды БГТУ. Сер. 3, Физико-математические науки и информатика. 2021. № 1 (242). С. 54–60.ru
dc.identifier.urihttps://elib.belstu.by/handle/123456789/39325-
dc.description.abstractВ статье рассматриваются алгоритмы извлечения основного содержимого из веб-страниц и предлагается метод решения проблем, затрудняющих извлечение основного содержимого, на основе визуальных характеристик и внутреннего содержимого элементов страницы. В разработанном методе основное содержимое определяется одним корневым элементом и преобразуется в JSON формат, содержащий однозначные типы данных, описывающих абзацы, заголовки, изображения, видеозаписи, галереи и другие элементы страницы. Для отображения JSON формата не требуется браузер, что значительно расширяет его возможности применения в мобильной и встраиваемой технике ввиду большей эффективности. Применение в методе поиска корневого элемента позволяет улучшить качество и ускорить извлечение основного содержимого при обработке большого количества веб-страниц одного сайта и использовании персистентного хранилища для обработанных страниц.ru
dc.format.mimetypeapplication/pdfru
dc.language.isoruru
dc.publisherБГТУru
dc.subjectJSON форматru
dc.subjectвеб-страницыru
dc.subjectбраузерыru
dc.subjectизвлечение основного материалаru
dc.subjectвизуальные характеристикиru
dc.subjectCSSru
dc.subjectHTMLru
dc.titleИзвлечение основного содержания из веб-страниц на основе анализа визуальных характеристик элементов и преобразования в JSON форматru
dc.typeArticleru
dc.identifier.udc004.023-
Располагается в коллекциях:выпуск журнала постатейно

Файлы этого ресурса:
Файл Описание РазмерФормат 
10. Каргин .pdf717.28 kBAdobe PDFПросмотреть/Открыть



Все ресурсы в архиве электронных ресурсов защищены авторским правом, все права сохранены.