Google Index, Indexierung von Robots blockierten Seiten

Thema wurde von Alexander Hess, 14. September 2018 erstellt.

  1. Alexander Hess

    Alexander Hess Erfahrener Benutzer

    Registriert seit:
    10. Juni 2011
    Beiträge:
    519
    Danke erhalten:
    105
    Danke vergeben:
    22
    Ich habe die hälfte der indexierten Seiten in Google mit der Warnung, dass die Seiten indexiert sind aber von Robots blockiert sind. Sind wohl ehemals indizierte Seiten, die Google jetzt prüft.

    Es kommt dann zum unschönen Effekt, dass zum Beispiel das Rückrufformular über den Ergebnislink über Site: ... aufrufbar ist, obwohl ich es nicht mehr verwende.

    Sucht man diese Seite in Google, wird sie nicht gefunden, also doch nicht für die Allgemeinheit indiziert.

    Sucht man mit site:www.meinshop.de findet man diese Links, die von Robots blockiert sind.

    Hierdurch ergibt sich folgende Frage: Ich gelange zu Inhalten, die ich im Shop deaktiviert habe (z.B. wegen DSGVO). Wenn ich die Suche mit Site: .. verwende oder ich den Pfad von Gambioshop kenne, gelange ich auf die Seiten und kann z.B. deaktivierte Contentseiten sehen. Wie kann man dies vermeiden, müssen dann deaktivierte Contents und Artikel gelöscht werden? So etwas ist sehr wichtig z.B. im Markenrecht.
     
  2. Dennis (MotivMonster.de)

    Dennis (MotivMonster.de) G-WARD 2013/14/15/16

    Registriert seit:
    22. September 2011
    Beiträge:
    31.167
    Danke erhalten:
    6.199
    Danke vergeben:
    1.104
    Beruf:
    Mann für alles :)
    Ort:
    Weilburg
    wie genau hast du den content deaktiviert?
    Man kann auch contentseiten anelegen die nur nicht verlinkt sind im Menü. wie unsere Gambio Vorschalt Seite.

    Der Schalter "sichtbar" bedeutet nicht das der content deaktiviert ist - er wird nur nicht in menüs angezeigt.

    Wenn der content weg soll und nie mehr aufrufbar sein soll dann musst die inhalts content seite löschen.
     
  3. Alexander Hess

    Alexander Hess Erfahrener Benutzer

    Registriert seit:
    10. Juni 2011
    Beiträge:
    519
    Danke erhalten:
    105
    Danke vergeben:
    22
    Ich habe deaktivierte Artikel und auf nicht sichtbar gestellte Contentseiten, ja. Habs mir schon gedacht: was auf dem Server ist, kann auch gelesen werden. Wäre halt schön, wenn man diese Dinge nicht löschen müsste. Evtl. benötigt man es wieder. Geht da was mit Rechten von Dateien über FTP? Ich könnte mir auch so eine automatische Umleitung wie bei nicht gefundenen Artikeln vorstellen, das wäre doch eigentlich korrekt.
     
  4. barbara

    barbara G-WARD 2014-2020

    Registriert seit:
    14. August 2011
    Beiträge:
    35.544
    Danke erhalten:
    11.305
    Danke vergeben:
    1.612
    Kundengruppen-Check könnte da gehen.
    Wenn man den später einschaltet, muss man aber alle Artikel / Kategorien / Contents zuweisen.

    Wenn Du aber eine Gruppe "Sperre" einrichtest, kannst Du die Seiten nur für diese Kundengruppe freigeben.

    Artikel die inaktiv sind, sollten aber nciht auftauchen, ebenso wie Kategorien.
    Nur bei Content-Seiten gibt es das Problem, dass das "nicht sichtbar" sich nur auf den Link bezieht, nicht aber auf die Seite.
     
  5. Dennis (MotivMonster.de)

    Dennis (MotivMonster.de) G-WARD 2013/14/15/16

    Registriert seit:
    22. September 2011
    Beiträge:
    31.167
    Danke erhalten:
    6.199
    Danke vergeben:
    1.104
    Beruf:
    Mann für alles :)
    Ort:
    Weilburg
    Die Content Manager Inhalte sind in der DB. In Dateien ist nur das Grundgerüst. Sonst kaum noch was. Fast alles an variablen Inhalten ist heutzutage in einer DB Tabelle. - Sprachdateien sind da teilweise ne Ausnahme.
     
  6. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    31. Mai 2011
    Beiträge:
    339
    Danke erhalten:
    36
    Danke vergeben:
    84
    stimmt so nicht, das Problem wurde schon öfter hier und mit Ticket angesprochen
    es gibt auch immer wieder URLs die seit Jahren nicht mehr aktuell sind/nicht mehr gibt
     

    Anhänge:

  7. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    31. Mai 2011
    Beiträge:
    339
    Danke erhalten:
    36
    Danke vergeben:
    84
     
  8. barbara

    barbara G-WARD 2014-2020

    Registriert seit:
    14. August 2011
    Beiträge:
    35.544
    Danke erhalten:
    11.305
    Danke vergeben:
    1.612
    Wenn ein Artikel inaktiv ist (in der Artikelbearbeitung auf inaktiv gestellt wurde), dann ist der nicht aufrufbar.
    Das gleiche gilt auch für Kategorien.
    Das erzeugt einen 404-Error.

    Das was Du da zeigst (Post #7), hat wenig mit den Content-Seiten zu tun.
    Das sind Seiten mit Parametern, die Google nciht haben sollte, die aber mal aus irgend einem Grund bei Google gelandet sind.
    Wenn Du eine Content-Seite, z.B. "Über uns" im Content-Manager auf "nicht sichtbar" stellst, kann man diese trotzdem über Domain.tld/info/ueber-uns.html aufrufen.
     
  9. Dennis (MotivMonster.de)

    Dennis (MotivMonster.de) G-WARD 2013/14/15/16

    Registriert seit:
    22. September 2011
    Beiträge:
    31.167
    Danke erhalten:
    6.199
    Danke vergeben:
    1.104
    Beruf:
    Mann für alles :)
    Ort:
    Weilburg
    und was willst damit sagen? Bestätigst doch nur die Aussage
    nicht sichtbar = denoch aufrufbar
     
  10. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    31. Mai 2011
    Beiträge:
    339
    Danke erhalten:
    36
    Danke vergeben:
    84
    Google Index, Indexierung von Robots blockierten Seiten ist das Thema.

    das nur content Seiten indexiert werden die nur sichtbar sind ist nicht korrekt, das selbe gilt für Artikel und Kategorie Seiten, die Einträge in der robot werden entweder ignoriert oder es stimmt was am system nicht.
    genau solls ja auch bestätigen, da dies ein grundsätzliches gambio Problemchen ist
    und dieser 404 Fehler dürfte nicht angezeigt werden, da die URL ja eigentlich nicht aufrufbar ist
     
  11. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    11. Februar 2015
    Beiträge:
    1.291
    Danke erhalten:
    399
    Danke vergeben:
    237
    Der 404-Fehler wird angezeigt weil die Seite nicht aufrufbar ist.
    Wenn ich keine Sitemap hinterlege und Google schaut vorbei, dann crawlt es die sichtbaren Seiten die vorhanden sind und vorausgesetzt es sind keine internen toten Links in die Seiten eingebaut (in der Artikelbeschreibung etc), dann wird Google auch keine 404-Fehler finden.

    Wenn ich aber eine Sitemap hinterlege in der steht "folge dem Link in Kategorie irgendwas und indexiere die Seite xxx.html" und diese Seite nicht aufrufbar ist, dann wirft das einen 404-Fehler.

    Ich baue wöchentlich neue Artikel in den Shop ein und schmeiße andere raus. Jedesmal generiere ich danach die Sitemap neu. Da Google aber nicht täglich die Sitemap neu einliest ist es ganz natürlich dass da Fehler angezeigt werden wenn der Crawler mit den Daten der Sitemap von vor 2 Wochen versucht die Inhalte von heute zu lesen.
     
  12. barbara

    barbara G-WARD 2014-2020

    Registriert seit:
    14. August 2011
    Beiträge:
    35.544
    Danke erhalten:
    11.305
    Danke vergeben:
    1.612
    Meine Antworten bezogen sich auf Post #3, unabhängig von dem Titel des Beitrages.

    Die robots.txt hat nichts mit inaktiven Artikeln oder Kategorien zu tun.
    Diese werden da auch nciht rein geschrieben, es sei denn, man macht das manuell selber.
    Man sollte aber eine neue sitemap erstellen, wenn man Artikel / Kategorien inaktiv stellt, damit die da nciht mehr aufgeführt werden.

    Wird ein Aritkel aus dem Sortiment genommen, dann hatte Google den sicherlich vorher im Index.
    Deshalb versucht Google den auch immer mal wieder neu aufzurufen.
    Ist der Artikel jetzt nicht mehr da, gibt es einen 404, weil die Seite nicht gefunden wird. Das ist normal.
    Deshalb hat man eine 404-Seite, oder leitet die Artikel auf neue, ähnliche Artikel um.
     
  13. Alexander Hess

    Alexander Hess Erfahrener Benutzer

    Registriert seit:
    10. Juni 2011
    Beiträge:
    519
    Danke erhalten:
    105
    Danke vergeben:
    22
    In der robots.txt steht "Disallow: /*switch_country=*", trotzdem geht google bei mir die Länder durch und fügt einige Ergebnisse zumindest "intern" dem Index zu. (Kann man nicht nach suchen außer über site: ...) Google scheint diese Links zu kennen und folgt ihnen. Sieht dann so aus: https://www.meinshop/Kategorie/Artikel.html?switch_country=LI. Wenn man den Link in der SC überprüft, sagt google korrekt, dass die URL nicht zum Index hinzugefügt werden kann, da sie durch robots.txt blockiert wird. Das ist ja dann wir Vorratsdatenspeicherung, also Google schaut sich erst mal alles an.

    Und die Produkte nach Hersteller werden auch so z. T. indexiert, ich kann nicht sagen ob die durch robots.txt ein disallow haben. Google könnte den Links der Hersteller Box und dem Herstellerbild im Artikeldetail folgen. Sieht dann so aus: https://www.meinshop.de/?manufacturers_id=37&XTCsid=f457f5ec177e6ce3c8095bb0cc687b37

    Google indexiert auch Artikel, bei denen im englischen keine Angaben gemacht wurden. Da steht dann nur die ID des Artikels.

    Ist so bei mir seit 12.08.2018 seit dem ich die Version 3.10 nutze (11.500 Seiten im Index bei 2 Sprachen und ca. 2000 Artikeln, ). Vorher hatte ich lange die Version 3.6. (4500 Seiten im Index bei 2 Sprachen und ca. 2000 Artikeln) Dann im Juli 2018 die 3.8. Muss nicht an den neuen Versionen liegen. Ich vermute eher den Grund bei Google mit Umstellung auf die neue Searchconsole. Daher dürfte das bei vielen Shopbetreibern so sein. Könnt ihr mal nachsehen?

    Update gerade eben: jetzt zeigt mir die Search Console: 18.000 Seiten im Index, davon 10.500 mit Warnung (d.h. von Robots ausgeschlossen). 213.000 Seiten sind ausgeschlossen (198.000 durch Robots blockiert, hier hält sich Google an die robots.txt) Schein so, als kennt Google das Gambio Shopsystem und weiß, wo es was zu sehen gibt. Bei den Mengen der Seiten kann dieses Phänomen nicht ausschließlich an alten Seiten liegen.

    Ist wohl eher ein Luxusproblem? Andere klagen ja über zu wenig Seiten im Index.
     
  14. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    31. Mai 2011
    Beiträge:
    339
    Danke erhalten:
    36
    Danke vergeben:
    84
    der 404 Fehler wird auch angezeigt wenn URLs im index sind aber nicht aufrufbar zu finden sind 404 ist einiges
    es geht auch nicht um die sitmap, ich habe auch ständig neue Artikel, um die dreht sich das Thema nicht

    es geht hier nicht um alte oder neue URLs im Shop oder von mir aus bei google [beliebte Begründung für das Problem]
    es handelt sich wie siehe post #6 und #7 nicht um aus dem Sortiment genommene Artikel, die gepostetetn URLs sind inn der robot aber werden aufgerufen, ich hatte sogar schon die shop URL mit dem index dran

    darum geht es trotz Blockierung werden URLs gelistet und zwar neu neu neu... das sind keine Altlasten und auch keine auf nichtsichtbar gestellten URLs