国产精品久久久久婷婷一区次,熟妇人妻久久中文av字幕,日韩欧美亚洲精品中文字幕,极品欧美一级视频在线观看,亚洲av免费在线观看蜜臀av,亚洲av不卡一区二区麻豆

優(yōu)惠活動(dòng) - 12周年慶本月新客福利
優(yōu)惠活動(dòng) - 12周年慶本月新客福利
優(yōu)惠活動(dòng) - 12周年慶本月新客福利

企業(yè)做網(wǎng)站W(wǎng)eb頁(yè)面文本提取

日期 : 2021-01-29 22:55:11
        Web頁(yè)面文本提取相對(duì)比較復(fù)雜, 這也正是本文研究的Web頁(yè)面自適應(yīng)轉(zhuǎn)換系統(tǒng)的關(guān)鍵技術(shù)之一。對(duì)國(guó)內(nèi)外的文獻(xiàn)進(jìn)行分析可以發(fā)現(xiàn), Web頁(yè)面的文本提取技術(shù)基本可以分為兩類:基于DOM的Web頁(yè)面文本提取技術(shù)和非基于DOM的Web頁(yè)面提取技術(shù)。通常很多研究者會(huì)采用基于DOM的Web頁(yè)面文本提取技術(shù), 其技術(shù)發(fā)展比較成熟。

        Web頁(yè)面的標(biāo)簽和標(biāo)簽之間、標(biāo)簽和內(nèi)容之間都存在著層次關(guān)系, DOM樹(shù)是描述Web頁(yè)面結(jié)構(gòu)的常用方法, DOM樹(shù)的葉子節(jié)點(diǎn)通常就是要提取的文本信息。因此, 通過(guò)一定的算法對(duì)Web頁(yè)面的DOM樹(shù)進(jìn)行遍歷, 進(jìn)行相應(yīng)的篩查降噪處理之后, 可以得到目標(biāo)的文本內(nèi)容。

        在實(shí)際的應(yīng)用過(guò)程中, 利用Web頁(yè)面解析工具進(jìn)行頁(yè)面解析, 并修正其中不規(guī)范的地方, 構(gòu)建Web頁(yè)面的DOM樹(shù)并進(jìn)行遞歸遍歷, 識(shí)別其中的非主要文本信息, 比如廣告、圖像等內(nèi)容, 將噪聲節(jié)點(diǎn)移除即得到文本信息。
相關(guān)文章
镇沅| 东海县| 六安市| 喀什市| 雅安市| 临澧县| 绥中县| 芒康县| 南皮县| 莱阳市| 乌苏市| 济宁市| 宁南县| 乌兰县| 犍为县| 博客| 格尔木市| 龙南县| 临沭县| 瑞安市| 濉溪县| 理塘县| 虹口区| 保山市| 蒙自县| 大兴区| 内丘县| 吉林市| 永清县| 周至县| 龙陵县| 宜城市| 罗田县| 元朗区| 乌拉特后旗| 胶州市| 资兴市| 东宁县| 淅川县| 灵石县| 平安县|