ilch Forum » Allgemein » HTML, PHP, SQL,... » RegEx - Jugendschutz umgehen

Geschlossen
  1. #1
    User Pic
    Hippo4u Mitglied
    Registriert seit
    02.10.2009
    Beiträge
    19
    Beitragswertungen
    0 Beitragspunkte
    Hallo!

    Nunja hab da so ein kleines Scripttechnisches Problem. Ich will mit RegEx ein paar Informationen aus einer Homepage ziehen. Nunja mein Problem ist, dass diese Seite einen Jugendschutz als direkte Startseite hat und das Script dann auf diese Zugreift und nicht auf die, mit dem gewünschtem inhalt.

    Kann mir da jemand helfen?

    Seite: externer Link
    Seite mit gewünschtem Inhalt: externer Link
    0 Mitglieder finden den Beitrag gut.
  2. #2
    User Pic
    annemarie gelöschter User
    ja script posten, ich schreib dir keinen crawler.

    sonst schau dir curl-opt optionen von curl an.

    damit kannst du die geburtstags postfields mit in deinen URL aufruf packen.


    Zuletzt modifiziert von annemarie am 21.01.2010 - 13:28:53
    0 Mitglieder finden den Beitrag gut.
  3. #3
    User Pic
    Hippo4u Mitglied
    Registriert seit
    02.10.2009
    Beiträge
    19
    Beitragswertungen
    0 Beitragspunkte
    $link = 'http://fp.www.socom.com/de-de/Player?handle=Aaron2907';
    
    preg_match_all($pattern, file_get_contents($link), $array);
    $pattern = '<tr><td class="caption" width="60%">Einstufung</td><td class="data" width="40%">/[0-9]+/</td></tr>';
    
    echo '<pre>', print_r($array, true), '</pre>';



    Naja Das du mir den crawler schreibst hab ich ja auch nicht erwartet annemarie zunge Nur vll eine kleine hilfestellung, hab schon versucht gehabt ein paar infos im URL mitzugeben, aber genaue angaben was alles mit drinne sein muss hab ich noch nicht so ganz rausgefunden


    Zuletzt modifiziert von Hippo4u am 21.01.2010 - 13:39:50
    0 Mitglieder finden den Beitrag gut.
  4. #4
    User Pic
    annemarie gelöschter User
    ok, hilfestellung.

    die seite macht eine jugendschutzabfrage, also muss diese information irgendwo gespeichert werden, damit nicht nach jedem link das geburtsdatum neu abgefragt werden muss.

    das bringt uns zur ersten logischen konsequenz

    speicherung ob der jugendschutzcheck OK war in
    a. Sessions
    b. Cookies
    c. Beidem

    zuerst muss das jugendschutzform gesendet werden!
    und je nachdem ob ein cookie gespeichert wird (für später, weitere querys auf der seite) und/oder eine session ID vergeben wird das script leichter oder aufwändiger.

    mit file_get_contents kannst du keine 2 querys mit einer session ID machen da hier keine http header mit an den server gehen worüber du identifizierbar wärst.

    Sehe dir einmal cURL an.
    such dir mal bei phpclasses eine schöne cURL klasse und dann sieh dir die options von curl an.

    hf, annemarie`
    0 Mitglieder finden den Beitrag gut.
  5. #5
    User Pic
    Hippo4u Mitglied
    Registriert seit
    02.10.2009
    Beiträge
    19
    Beitragswertungen
    0 Beitragspunkte
    Ein bisschen bin ich schon dahinter gestiegen aber die vorgehensweise ist noch nicht ganz klar.

    Muss ich den kompletten URL als erstes mitgeben und dann z.B. die Cookies die erzeugt werden mit hinterher schreiben, oder wie ist dort die Reihenfolge?

     
    curl_setopt($ch, CURLOPT_URL, "http://www.socom.com/de-de/Player?handle=Aaron2907");


    und dort dann mit

    CURLOPT_COOKIE

    die Cookies reinhauen die ich z.B. auch in meinem Browser habe nachdem ich das Form abgeschickt habe, oder muss ich quasi das Form mit dem Script abschicken?


    Zuletzt modifiziert von Hippo4u am 21.01.2010 - 14:43:00
    0 Mitglieder finden den Beitrag gut.
Geschlossen

Zurück zu HTML, PHP, SQL,...

Optionen: Bei einer Antwort zu diesem Thema eine eMail erhalten