sitecrawling

Gehe zu Seite:

Geschlossen

So. 08.04.2012 13:36 Uhr #1

sinan Mitglied

Registriert seit
28.10.2007

Beiträge
85

Beitragswertungen
hallo forum,

ich möchte den inhalt einer seite crawlen und kämpfe da gerade mit den üblichen preg_match() tücken. der ungefähre aufbau der seite ist folgender.
```


<article>
         <h3><a href="#">Titel will ich haben</a></h3>
		         <p>
                 inhalt zwischen den "<p>" tags will ich auch haben
             </p>
</article>


```
das article-tag wiederholt sich jetzt noch öfter. die genaue anzahl der <article> tags ist unbekannt.

wie komme ich jetzt am besten an den für mich interessanten inhalt heran?

ich würde mich über ein paar denkanstöße freuen,

liebste ostergrüße
0 Mitglieder finden den Beitrag gut.
- zitieren
So. 08.04.2012 18:02 Uhr #2

Jan Hall Of Fame

Registriert seit
17.01.2007

Beiträge
3.646

Beitragswertungen

Zitat geschrieben von sinan
wie komme ich jetzt am besten an den für mich interessanten inhalt heran?
Uns mitteilen welche Inhalte denn für dich interessant sind wäre ein guter Anfang!

Willst du nur das Erste/Letzte article-tag, oder sollen die Inhalte aller article-tags in ein Array geschrieben werden?
0 Mitglieder finden den Beitrag gut.
- zitieren
Mo. 09.04.2012 14:16 Uhr #3

sinan Mitglied

Registriert seit
28.10.2007

Beiträge
85

Beitragswertungen

ich will den inhalt des <h3> haben und was zwischen dem <p> steht für alle <article> tags!
0 Mitglieder finden den Beitrag gut.
- zitieren
Fr. 13.04.2012 22:52 Uhr #4

Jan Hall Of Fame

Registriert seit
17.01.2007

Beiträge
3.646

Beitragswertungen

ups, ganz vergessen zu antworten..
Das sollte mit der Funktion preg_match_all funktionieren..

Sorry, hab da gerade keinen Bock drauf.

Solltest du es alleine nicht hinbekommen, dann poste mal deinen Versuch - ich schaue die Tage nochmal vorbei.

Liebe Grüße
Jan
0 Mitglieder finden den Beitrag gut.
- zitieren

Beitrag zur Merkliste hinzufügen

ilch Forum » Allgemein » HTML, PHP, SQL,... » sitecrawling