Please use this identifier to cite or link to this item:
https://elib.belstu.by/handle/123456789/39325
Full metadata record
DC Field | Value | Language |
---|---|---|
dc.contributor.author | Каргин, Николай Сергеевич | - |
dc.contributor.author | Гурин, Николай Иванович | - |
dc.date.accessioned | 2021-03-29T05:35:50Z | - |
dc.date.available | 2021-03-29T05:35:50Z | - |
dc.date.issued | 2021 | - |
dc.identifier.citation | Каргин Н. С., Гурин Н. И. Извлечение основного содержимого из веб-страниц на основе анализа визуальных характеристик элементов и преобразования в JSON формат // Труды БГТУ. Сер. 3, Физико-математические науки и информатика. 2021. № 1 (242). С. 54–60. | ru |
dc.identifier.uri | https://elib.belstu.by/handle/123456789/39325 | - |
dc.description.abstract | В статье рассматриваются алгоритмы извлечения основного содержимого из веб-страниц и предлагается метод решения проблем, затрудняющих извлечение основного содержимого, на основе визуальных характеристик и внутреннего содержимого элементов страницы. В разработанном методе основное содержимое определяется одним корневым элементом и преобразуется в JSON формат, содержащий однозначные типы данных, описывающих абзацы, заголовки, изображения, видеозаписи, галереи и другие элементы страницы. Для отображения JSON формата не требуется браузер, что значительно расширяет его возможности применения в мобильной и встраиваемой технике ввиду большей эффективности. Применение в методе поиска корневого элемента позволяет улучшить качество и ускорить извлечение основного содержимого при обработке большого количества веб-страниц одного сайта и использовании персистентного хранилища для обработанных страниц. | ru |
dc.format.mimetype | application/pdf | ru |
dc.language.iso | ru | ru |
dc.publisher | БГТУ | ru |
dc.subject | JSON формат | ru |
dc.subject | веб-страницы | ru |
dc.subject | браузеры | ru |
dc.subject | извлечение основного материала | ru |
dc.subject | визуальные характеристики | ru |
dc.subject | CSS | ru |
dc.subject | HTML | ru |
dc.title | Извлечение основного содержания из веб-страниц на основе анализа визуальных характеристик элементов и преобразования в JSON формат | ru |
dc.type | Article | ru |
dc.identifier.udc | 004.023 | - |
Appears in Collections: | выпуск журнала постатейно |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
10. Каргин .pdf | 717.28 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.