Google Index, Indexierung von Robots blockierten Seiten

Anonymous · 14. September 2018

Ich habe die hälfte der indexierten Seiten in Google mit der Warnung, dass die Seiten indexiert sind aber von Robots blockiert sind. Sind wohl ehemals indizierte Seiten, die Google jetzt prüft.

Es kommt dann zum unschönen Effekt, dass zum Beispiel das Rückrufformular über den Ergebnislink über Site: ... aufrufbar ist, obwohl ich es nicht mehr verwende.

Sucht man diese Seite in Google, wird sie nicht gefunden, also doch nicht für die Allgemeinheit indiziert.

Sucht man mit site:www.meinshop.de findet man diese Links, die von Robots blockiert sind.

Hierdurch ergibt sich folgende Frage: Ich gelange zu Inhalten, die ich im Shop deaktiviert habe (z.B. wegen DSGVO). Wenn ich die Suche mit Site: .. verwende oder ich den Pfad von Gambioshop kenne, gelange ich auf die Seiten und kann z.B. deaktivierte Contentseiten sehen. Wie kann man dies vermeiden, müssen dann deaktivierte Contents und Artikel gelöscht werden? So etwas ist sehr wichtig z.B. im Markenrecht.

Anonymous · 14. September 2018

wie genau hast du den content deaktiviert?
Man kann auch contentseiten anelegen die nur nicht verlinkt sind im Menü. wie unsere Gambio Vorschalt Seite.

Der Schalter "sichtbar" bedeutet nicht das der content deaktiviert ist - er wird nur nicht in menüs angezeigt.

Wenn der content weg soll und nie mehr aufrufbar sein soll dann musst die inhalts content seite löschen.

Anonymous · 14. September 2018

Ich habe deaktivierte Artikel und auf nicht sichtbar gestellte Contentseiten, ja. Habs mir schon gedacht: was auf dem Server ist, kann auch gelesen werden. Wäre halt schön, wenn man diese Dinge nicht löschen müsste. Evtl. benötigt man es wieder. Geht da was mit Rechten von Dateien über FTP? Ich könnte mir auch so eine automatische Umleitung wie bei nicht gefundenen Artikeln vorstellen, das wäre doch eigentlich korrekt.

Anonymous · 14. September 2018

Kundengruppen-Check könnte da gehen.
Wenn man den später einschaltet, muss man aber alle Artikel / Kategorien / Contents zuweisen.

Wenn Du aber eine Gruppe "Sperre" einrichtest, kannst Du die Seiten nur für diese Kundengruppe freigeben.

Artikel die inaktiv sind, sollten aber nciht auftauchen, ebenso wie Kategorien.
Nur bei Content-Seiten gibt es das Problem, dass das "nicht sichtbar" sich nur auf den Link bezieht, nicht aber auf die Seite.

Anonymous · 15. September 2018

Zitat von Alexander Hess: ↑

Geht da was mit Rechten von Dateien über FTP?
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Die Content Manager Inhalte sind in der DB. In Dateien ist nur das Grundgerüst. Sonst kaum noch was. Fast alles an variablen Inhalten ist heutzutage in einer DB Tabelle. - Sprachdateien sind da teilweise ne Ausnahme.

Anonymous · 15. September 2018

Zitat von barbara: ↑

Artikel die inaktiv sind, sollten aber nciht auftauchen, ebenso wie Kategorien.
Nur bei Content-Seiten gibt es das Problem, dass das "nicht sichtbar" sich nur auf den Link bezieht, nicht aber auf die Seite.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

stimmt so nicht, das Problem wurde schon öfter hier und mit Ticket angesprochen
es gibt auch immer wieder URLs die seit Jahren nicht mehr aktuell sind/nicht mehr gibt

Anonymous · 15. September 2018

Zitat von barbara: ↑

Nur bei Content-Seiten gibt es das Problem, dass das "nicht sichtbar" sich nur auf den Link bezieht, nicht aber auf die Seite.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Anonymous · 15. September 2018

Wenn ein Artikel inaktiv ist (in der Artikelbearbeitung auf inaktiv gestellt wurde), dann ist der nicht aufrufbar.
Das gleiche gilt auch für Kategorien.
Das erzeugt einen 404-Error.

Das was Du da zeigst (Post #7), hat wenig mit den Content-Seiten zu tun.
Das sind Seiten mit Parametern, die Google nciht haben sollte, die aber mal aus irgend einem Grund bei Google gelandet sind.
Wenn Du eine Content-Seite, z.B. "Über uns" im Content-Manager auf "nicht sichtbar" stellst, kann man diese trotzdem über Domain.tld/info/ueber-uns.html aufrufen.

Anonymous · 15. September 2018

und was willst damit sagen? Bestätigst doch nur die Aussage
nicht sichtbar = denoch aufrufbar

Anonymous · 15. September 2018

Google Index, Indexierung von Robots blockierten Seiten ist das Thema.

das nur content Seiten indexiert werden die nur sichtbar sind ist nicht korrekt, das selbe gilt für Artikel und Kategorie Seiten, die Einträge in der robot werden entweder ignoriert oder es stimmt was am system nicht.

Zitat von Dennis (Print-Weilburg.de): ↑

und was willst damit sagen? Bestätigst doch nur die Aussage
nicht sichtbar = denoch aufrufbar
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

genau solls ja auch bestätigen, da dies ein grundsätzliches gambio Problemchen ist

Zitat von barbara: ↑

Wenn ein Artikel inaktiv ist (in der Artikelbearbeitung auf inaktiv gestellt wurde), dann ist der nicht aufrufbar.
Das gleiche gilt auch für Kategorien.
Das erzeugt einen 404-Error.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

und dieser 404 Fehler dürfte nicht angezeigt werden, da die URL ja eigentlich nicht aufrufbar ist

Anonymous · 15. September 2018

Zitat von Anonymous: ↑

und dieser 404 Fehler dürfte nicht angezeigt werden, da die URL ja eigentlich nicht aufrufbar ist
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Der 404-Fehler wird angezeigt weil die Seite nicht aufrufbar ist.
Wenn ich keine Sitemap hinterlege und Google schaut vorbei, dann crawlt es die sichtbaren Seiten die vorhanden sind und vorausgesetzt es sind keine internen toten Links in die Seiten eingebaut (in der Artikelbeschreibung etc), dann wird Google auch keine 404-Fehler finden.

Wenn ich aber eine Sitemap hinterlege in der steht "folge dem Link in Kategorie irgendwas und indexiere die Seite xxx.html" und diese Seite nicht aufrufbar ist, dann wirft das einen 404-Fehler.

Ich baue wöchentlich neue Artikel in den Shop ein und schmeiße andere raus. Jedesmal generiere ich danach die Sitemap neu. Da Google aber nicht täglich die Sitemap neu einliest ist es ganz natürlich dass da Fehler angezeigt werden wenn der Crawler mit den Daten der Sitemap von vor 2 Wochen versucht die Inhalte von heute zu lesen.

Anonymous · 15. September 2018

Meine Antworten bezogen sich auf Post #3, unabhängig von dem Titel des Beitrages.

Die robots.txt hat nichts mit inaktiven Artikeln oder Kategorien zu tun.
Diese werden da auch nciht rein geschrieben, es sei denn, man macht das manuell selber.
Man sollte aber eine neue sitemap erstellen, wenn man Artikel / Kategorien inaktiv stellt, damit die da nciht mehr aufgeführt werden.

Wird ein Aritkel aus dem Sortiment genommen, dann hatte Google den sicherlich vorher im Index.
Deshalb versucht Google den auch immer mal wieder neu aufzurufen.
Ist der Artikel jetzt nicht mehr da, gibt es einen 404, weil die Seite nicht gefunden wird. Das ist normal.
Deshalb hat man eine 404-Seite, oder leitet die Artikel auf neue, ähnliche Artikel um.

Anonymous · 15. September 2018

In der robots.txt steht "Disallow: /*switch_country=*", trotzdem geht google bei mir die Länder durch und fügt einige Ergebnisse zumindest "intern" dem Index zu. (Kann man nicht nach suchen außer über site: ...) Google scheint diese Links zu kennen und folgt ihnen. Sieht dann so aus: https://www.meinshop/Kategorie/Artikel.html?switch_country=LI. Wenn man den Link in der SC überprüft, sagt google korrekt, dass die URL nicht zum Index hinzugefügt werden kann, da sie durch robots.txt blockiert wird. Das ist ja dann wir Vorratsdatenspeicherung, also Google schaut sich erst mal alles an.

Und die Produkte nach Hersteller werden auch so z. T. indexiert, ich kann nicht sagen ob die durch robots.txt ein disallow haben. Google könnte den Links der Hersteller Box und dem Herstellerbild im Artikeldetail folgen. Sieht dann so aus: https://www.meinshop.de/?manufacturers_id=37&XTCsid=f457f5ec177e6ce3c8095bb0cc687b37

Google indexiert auch Artikel, bei denen im englischen keine Angaben gemacht wurden. Da steht dann nur die ID des Artikels.

Ist so bei mir seit 12.08.2018 seit dem ich die Version 3.10 nutze (11.500 Seiten im Index bei 2 Sprachen und ca. 2000 Artikeln, ). Vorher hatte ich lange die Version 3.6. (4500 Seiten im Index bei 2 Sprachen und ca. 2000 Artikeln) Dann im Juli 2018 die 3.8. Muss nicht an den neuen Versionen liegen. Ich vermute eher den Grund bei Google mit Umstellung auf die neue Searchconsole. Daher dürfte das bei vielen Shopbetreibern so sein. Könnt ihr mal nachsehen?

Update gerade eben: jetzt zeigt mir die Search Console: 18.000 Seiten im Index, davon 10.500 mit Warnung (d.h. von Robots ausgeschlossen). 213.000 Seiten sind ausgeschlossen (198.000 durch Robots blockiert, hier hält sich Google an die robots.txt) Schein so, als kennt Google das Gambio Shopsystem und weiß, wo es was zu sehen gibt. Bei den Mengen der Seiten kann dieses Phänomen nicht ausschließlich an alten Seiten liegen.

Ist wohl eher ein Luxusproblem? Andere klagen ja über zu wenig Seiten im Index.

Anonymous · 15. September 2018

Zitat von "Horst": ↑

Der 404-Fehler wird angezeigt weil die Seite nicht aufrufbar ist.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

der 404 Fehler wird auch angezeigt wenn URLs im index sind aber nicht aufrufbar zu finden sind 404 ist einiges
es geht auch nicht um die sitmap, ich habe auch ständig neue Artikel, um die dreht sich das Thema nicht

Zitat von barbara: ↑

Wird ein Aritkel aus dem Sortiment genommen, dann hatte Google den sicherlich vorher im Index.
Deshalb versucht Google den auch immer mal wieder neu aufzurufen.
Ist der Artikel jetzt nicht mehr da, gibt es einen 404, weil die Seite nicht gefunden wird. Das ist normal.
Deshalb hat man eine 404-Seite, oder leitet die Artikel auf neue, ähnliche Artikel um.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

es geht hier nicht um alte oder neue URLs im Shop oder von mir aus bei google [beliebte Begründung für das Problem]
es handelt sich wie siehe post #6 und #7 nicht um aus dem Sortiment genommene Artikel, die gepostetetn URLs sind inn der robot aber werden aufgerufen, ich hatte sogar schon die shop URL mit dem index dran

Zitat von Alexander Hess: ↑

In der robots.txt steht "Disallow: /*switch_country=*", trotzdem geht google bei mir die Länder durch und fügt einige Ergebnisse zumindest "intern" dem Index zu. (Kann man nicht nach suchen außer über site: ...)
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

darum geht es trotz Blockierung werden URLs gelistet und zwar neu neu neu... das sind keine Altlasten und auch keine auf nichtsichtbar gestellten URLs

Foren

Google Index, Indexierung von Robots blockierten Seiten

Alexander Hess Erfahrener Benutzer

Dennis (MotivMonster.de) G-WARD 2013/14/15/16

Alexander Hess Erfahrener Benutzer

barbara G-WARD 2014-2020

Dennis (MotivMonster.de) G-WARD 2013/14/15/16

Anonymous Erfahrener Benutzer

Anhänge:

indexierung trotz blockierung.JPG

Anonymous Erfahrener Benutzer

Anhänge:

nicht sichtbare-existente URLs google hat diese trotzdem gecrawlt.JPG

barbara G-WARD 2014-2020

Dennis (MotivMonster.de) G-WARD 2013/14/15/16

Anonymous Erfahrener Benutzer

Anonymous Erfahrener Benutzer

barbara G-WARD 2014-2020

Alexander Hess Erfahrener Benutzer

Anonymous Erfahrener Benutzer