ich möchte den inhalt einer seite crawlen und kämpfe da gerade mit den üblichen preg_match() tücken. der ungefähre aufbau der seite ist folgender.
1 2 3 4 5 6 7 8 9 10 | <!-- obiger html inhalt erstmal uninteressant --> < article > < h3 >< a href = "#" >Titel will ich haben</ a ></ h3 > < p > inhalt zwischen den "< p >" tags will ich auch haben </ p > </ article > <!-- unterer html inhalt erstmal uninteressant --> |
das article-tag wiederholt sich jetzt noch öfter. die genaue anzahl der <article> tags ist unbekannt.
wie komme ich jetzt am besten an den für mich interessanten inhalt heran?
ich würde mich über ein paar denkanstöße freuen,
liebste ostergrüße