ilch Forum » Allgemein » HTML, PHP, SQL,... » Hilfe für robots.txt gesucht

Geschlossen
  1. #1
    User Pic
    Phoenix1303 Mitglied
    Registriert seit
    04.06.2011
    Beiträge
    137
    Beitragswertungen
    12 Beitragspunkte
    Hi Leute,

    bisher habe ich immer eine vorgefertigte robots.txt genutzt, aber mit ilch 2.x möchte ich nicht nur mein CMS oder die PHP-Version überdenken, sondern auch die bisher genutzten Standartfiles überarbeiten.

    Also die Frage: Wer von euch hätte demnächst mal 15min oder so Zeit mir zu helfen, eine auf uns angepasste robots.txt zu erstellen oder sich das Anliegen, via TS, genauer erklären zu lassen?

    Ich sag schonmal Danke und einen schönen 1. Advent euch allen.

    LG Manu


    verwendete ilch Version: 2.x

    betroffene Homepage: externer Link
    0 Mitglieder finden den Beitrag gut.
  2. #2
    User Pic
    Ahrtas Moderator
    Registriert seit
    17.12.2007
    Beiträge
    2.368
    Beitragswertungen
    210 Beitragspunkte
    Naja die robot.txt kann man auch hier im Forum besprechen, da ihr ein Multiclan seid, könnte dies auch für andere Clans interessant sein. Ebenso lernen andere Webmaster auch davon egal ob sie "eure" robot.txt komplett oder nur einzelne Passagen davon übernehmen würden.

    Nenne doch mal einfach ein paar Stichpunkte die Du mit der robot regeln möchtest oder beschreibe dein Vorhaben gleich komplett, dafür ist ein Forum da. zwinker
    0 Mitglieder finden den Beitrag gut.
  3. #3
    User Pic
    Phoenix1303 Mitglied
    Registriert seit
    04.06.2011
    Beiträge
    137
    Beitragswertungen
    12 Beitragspunkte
    Ok, geht vor allem auch darum, ob ich die Funktion der robots.txt, sowie der Bots richtig verstanden habe.

    Die robots.txt soll zB Crawler davon abhalten bestimmte Bereiche zu indexieren und zB für Google, Bing etc zu sammeln, oder?
    Da ja alle Module etc auf in *.php-Files geschrieben sind und ich keine *.htm-Files finden kann wäre die erste Frage: Können die Bots den vorhandenen Content eigentlich lesen/finden?
    Wenn das htm zur Ausgabe dynamisch im Frontend generiert wird, kann man dann überhaupt Bots davon abhalten oder gezielt hinschicken, um etwas crawlen zu lassen?

    In unserem Fall, wie auch den meisten Anderen, gibt es Bereiche, die nicht für jeden sichtbar sind und somit auch nicht erfasst werden sollen. Das wären bei uns zB:
    - Adminbereich
    - Kasse
    - Jobs
    - Kalender (da einfach unnötig den zu crawlen)
    - Galerie
    - Medienmodul
    - Geburtstag
    - Abwesenheiten
    - Auszeichnungen

    Zudem soll es ja möglich sein Bots zu sagen, wann diese eine HP oder einen Bereich erneut crawlen sollen/dürfen. Allgemein wäre es für uns ausreichend und sinnvoll, wenn Artikel und Forum (sobald das denn steht^^) weiter täglich gecrawlt werden, der restliche zugängliche Content aber nur noch wöchentlich.

    Nun weiß ich auch nicht, ob es unbedingt notwendig ist alle gängigen Bots händisch einzutragen, oder nicht einfach alle Bots insgesammt anzusprechen, da wir uns gegen Bots, die die robots.txt ignorieren oder Spammen etc mittels Bot-Trap schützen bzw zusätzlich abgesichert haben.

    Das wäre so wesentlich erstmal alles, was mir gerade so einfällt. zwinker
    Hoffe ihr könnt mir da helfen, damit ich nicht wieder etwas zusammenstückel, was entweder keinen Sinn ergibt oder nicht wie gewünscht funktioniert.

    LG Manu
    0 Mitglieder finden den Beitrag gut.
  4. #4
    User Pic
    Ahrtas Moderator
    Registriert seit
    17.12.2007
    Beiträge
    2.368
    Beitragswertungen
    210 Beitragspunkte
    ZitatZitat geschrieben von Phoenix1303
    Ok, geht vor allem auch darum, ob ich die Funktion der robots.txt, sowie der Bots richtig verstanden habe.

    Die robots.txt soll zB Crawler davon abhalten bestimmte Bereiche zu indexieren und zB für Google, Bing etc zu sammeln, oder?
    Da ja alle Module etc auf in *.php-Files geschrieben sind und ich keine *.htm-Files finden kann wäre die erste Frage: Können die Bots den vorhandenen Content eigentlich lesen/finden?

    Können sie, zum Beispiel sobald du einen Link zum jeweiligen Content gesetzt hast.

    ZitatZitat geschrieben von Phoenix1303
    Wenn das htm zur Ausgabe dynamisch im Frontend generiert wird, kann man dann überhaupt Bots davon abhalten oder gezielt hinschicken, um etwas crawlen zu lassen?

    Du kannst mittel Meta-Tags den Robots angeben ob sie die Seite indexieren sollen und den gesetzten Links folgen dürfen oder du schreibst es in die robots.txt welche Verzeichnisse / Links Tabu sind.

    ZitatZitat geschrieben von Phoenix1303
    In unserem Fall, wie auch den meisten Anderen, gibt es Bereiche, die nicht für jeden sichtbar sind und somit auch nicht erfasst werden sollen. Das wären bei uns zB:
    - Adminbereich
    - Kasse
    - Jobs
    - Kalender (da einfach unnötig den zu crawlen)
    - Galerie
    - Medienmodul
    - Geburtstag
    - Abwesenheiten
    - Auszeichnungen

    Seiten/Inhalte die nur eingeloggte User sehen können, werden die Suchmaschinen-Bots nicht sehen können, da sie nur den Inhalt (Quelltext) sehen was ein normaler Gast (nicht eingeloggt) sehen kann.
    Ansonsten wie gesagt schreibe es in die robots.txt z.B.:
    User-agent: *
    Disallow: /admin.php
    Disallow: /index.php?jobs
    Disallow: /index.php?calender
    usw...


    ZitatZitat geschrieben von Phoenix1303
    Zudem soll es ja möglich sein Bots zu sagen, wann diese eine HP oder einen Bereich erneut crawlen sollen/dürfen. Allgemein wäre es für uns ausreichend und sinnvoll, wenn Artikel und Forum (sobald das denn steht^^) weiter täglich gecrawlt werden, der restliche zugängliche Content aber nur noch wöchentlich.

    Es wäre hilfreich wenn du den Bots über Meta-Tags mitteilst wann der Foren-Beitrag/ der Artikel erstellt wurde und wann die Bots wieder kommen sollen. Kannst du per Meta-Tags regeln.

    Hier habe ich eine Übersicht für Meta-Tags.

    Merke: Die Bots vorallem Google sind oft eigensinnig und entscheiden selbst wann sie die jeweilige Seite wieder besuchen, die Meta-Tags schaden trotzdem nicht. zwinker
    Ich meine die Startseite von deinen News/Blog wird wahrscheinlich öfter besucht als dein Impressum, weil das Impressum (oder das User-profil, deine Teams etc.) nicht oft geändert wird.


    ZitatZitat geschrieben von Phoenix1303
    Nun weiß ich auch nicht, ob es unbedingt notwendig ist alle gängigen Bots händisch einzutragen, oder nicht einfach alle Bots insgesammt anzusprechen, da wir uns gegen Bots, die die robots.txt ignorieren oder Spammen etc mittels Bot-Trap schützen bzw zusätzlich abgesichert haben.

    Du kannst auch eine Sitemap als XML-Datei erstellen, die alle Seiten enthält die du gerne indexieren möchtest, entweder fügst du alle Links händisch ein oder die ilch-Entwickler automatisieren dir das.
    Zudem musst du die sitemap.xml dann auch in deiner robots.txt für die Bots angeben.
    Sitemap: http://www.beispiel.de/sitemap.xml


    Hoffe konnte dir weiterhelfen. lächeln
    0 Mitglieder finden den Beitrag gut.
Geschlossen

Zurück zu HTML, PHP, SQL,...

Optionen: Bei einer Antwort zu diesem Thema eine eMail erhalten