php使用自帶dom擴展進行元素匹配的原理解析
DOMDocument
php提供了非常好用的解析html和xml文檔的擴展庫DOM,使用這個庫可以非常高效的進行html和xml文檔的解析,它的原理就是通過尋找首尾匹配對來進行文檔的解析。
從上面的分析可以看出,如果首位不匹配,可能就會導致一些錯誤的出現,因此,這個時候我們需要設置
libxml_use_internal_errors(true);
來進行錯誤的屏蔽,讓它可以解析整個文檔。
解析html基本用法
$dom = new DOMDocument;$content = htmlspecialchars_decode($content);libxml_use_internal_errors(true);$content = mb_convert_encoding($content, ’HTML-ENTITIES’, ’UTF-8’);$dom->loadHTML($content);
$content是要解析的html字符串,其中我們對它進行了轉義,因為可能含有實體集,然后我們有進行了編碼的轉換,因為可能文檔不是utf-8格式的,會導致日文,法文等文字亂碼。
獲取元素
$a = $dom->getElementsByTagName(’a’);$p = $dom->getElementsByTagName(’p’);
遍歷元素
$elements = $dom->getElementsByTagName(’a’);foreach ($elements as $element) { $element->textContent = ’替換成其它的文字’;}
通過上面的循環,可以將全部a標簽的文字替換掉。
元素嵌套
有些時候,html會嵌套很多層,比如
<div><p><a href='http://m.lshqa.cn/bcjs/xxx' rel='external nofollow' >我是文字</a></p><p>內容替換</p></div>
如果我們想要對p標簽文字進行替換的化,并且不想要替換含有子元素的內容,就是這里的a標簽不想替換,下面的語句不能夠解決我們的問題:
$elements = $dom->getElementsByTagName(’p’);foreach ($elements as $element) { if($element->hasChildNodes()){ $element->textContent = ’p標簽內容替換’; }}
上面的代會將a標簽的內容也替換掉,這不是我們想要的結果,因為hasChildNodes()這個函數表示的含有內容,無論它是標簽還是文字,它都是返回true的,除非它是空標簽,例如
它才會返回false.
所以我們需要自己封裝一個函數進行檢查是否含有嵌套標簽。
function hasChild($element, $tags){ foreach($tags as $v){ $elements = $element->getElementsByTagName($v); if($elements->length){ return true; } } return false;}$tags = array(’title’,’h1’,’h2’,’h3’,’h4’,’h5’,’a’,’p’,’dd’,’img’); $elements = $dom->getElementsByTagName(’p’);foreach ($elements as $element) { if(hasChild($element, $tags)){ $element->textContent = ’p標簽內容替換’; }}
通過我們自己封裝的函數,就可以判斷出$dom的node節點是否含有子標簽。
總結
到此這篇關于php使用自帶dom擴展進行元素匹配的文章就介紹到這了,更多相關php元素匹配內容請搜索好吧啦網以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持好吧啦網!
相關文章:
