Ich habe die hälfte der indexierten Seiten in Google mit der Warnung, dass die Seiten indexiert sind aber von Robots blockiert sind. Sind wohl ehemals indizierte Seiten, die Google jetzt prüft. Es kommt dann zum unschönen Effekt, dass zum Beispiel das Rückrufformular über den Ergebnislink über Site: ... aufrufbar ist, obwohl ich es nicht mehr verwende. Sucht man diese Seite in Google, wird sie nicht gefunden, also doch nicht für die Allgemeinheit indiziert. Sucht man mit site:www.meinshop.de findet man diese Links, die von Robots blockiert sind. Hierdurch ergibt sich folgende Frage: Ich gelange zu Inhalten, die ich im Shop deaktiviert habe (z.B. wegen DSGVO). Wenn ich die Suche mit Site: .. verwende oder ich den Pfad von Gambioshop kenne, gelange ich auf die Seiten und kann z.B. deaktivierte Contentseiten sehen. Wie kann man dies vermeiden, müssen dann deaktivierte Contents und Artikel gelöscht werden? So etwas ist sehr wichtig z.B. im Markenrecht.
wie genau hast du den content deaktiviert? Man kann auch contentseiten anelegen die nur nicht verlinkt sind im Menü. wie unsere Gambio Vorschalt Seite. Der Schalter "sichtbar" bedeutet nicht das der content deaktiviert ist - er wird nur nicht in menüs angezeigt. Wenn der content weg soll und nie mehr aufrufbar sein soll dann musst die inhalts content seite löschen.
Ich habe deaktivierte Artikel und auf nicht sichtbar gestellte Contentseiten, ja. Habs mir schon gedacht: was auf dem Server ist, kann auch gelesen werden. Wäre halt schön, wenn man diese Dinge nicht löschen müsste. Evtl. benötigt man es wieder. Geht da was mit Rechten von Dateien über FTP? Ich könnte mir auch so eine automatische Umleitung wie bei nicht gefundenen Artikeln vorstellen, das wäre doch eigentlich korrekt.
Kundengruppen-Check könnte da gehen. Wenn man den später einschaltet, muss man aber alle Artikel / Kategorien / Contents zuweisen. Wenn Du aber eine Gruppe "Sperre" einrichtest, kannst Du die Seiten nur für diese Kundengruppe freigeben. Artikel die inaktiv sind, sollten aber nciht auftauchen, ebenso wie Kategorien. Nur bei Content-Seiten gibt es das Problem, dass das "nicht sichtbar" sich nur auf den Link bezieht, nicht aber auf die Seite.
Die Content Manager Inhalte sind in der DB. In Dateien ist nur das Grundgerüst. Sonst kaum noch was. Fast alles an variablen Inhalten ist heutzutage in einer DB Tabelle. - Sprachdateien sind da teilweise ne Ausnahme.
stimmt so nicht, das Problem wurde schon öfter hier und mit Ticket angesprochen es gibt auch immer wieder URLs die seit Jahren nicht mehr aktuell sind/nicht mehr gibt
Wenn ein Artikel inaktiv ist (in der Artikelbearbeitung auf inaktiv gestellt wurde), dann ist der nicht aufrufbar. Das gleiche gilt auch für Kategorien. Das erzeugt einen 404-Error. Das was Du da zeigst (Post #7), hat wenig mit den Content-Seiten zu tun. Das sind Seiten mit Parametern, die Google nciht haben sollte, die aber mal aus irgend einem Grund bei Google gelandet sind. Wenn Du eine Content-Seite, z.B. "Über uns" im Content-Manager auf "nicht sichtbar" stellst, kann man diese trotzdem über Domain.tld/info/ueber-uns.html aufrufen.
Google Index, Indexierung von Robots blockierten Seiten ist das Thema. das nur content Seiten indexiert werden die nur sichtbar sind ist nicht korrekt, das selbe gilt für Artikel und Kategorie Seiten, die Einträge in der robot werden entweder ignoriert oder es stimmt was am system nicht. genau solls ja auch bestätigen, da dies ein grundsätzliches gambio Problemchen ist und dieser 404 Fehler dürfte nicht angezeigt werden, da die URL ja eigentlich nicht aufrufbar ist
Der 404-Fehler wird angezeigt weil die Seite nicht aufrufbar ist. Wenn ich keine Sitemap hinterlege und Google schaut vorbei, dann crawlt es die sichtbaren Seiten die vorhanden sind und vorausgesetzt es sind keine internen toten Links in die Seiten eingebaut (in der Artikelbeschreibung etc), dann wird Google auch keine 404-Fehler finden. Wenn ich aber eine Sitemap hinterlege in der steht "folge dem Link in Kategorie irgendwas und indexiere die Seite xxx.html" und diese Seite nicht aufrufbar ist, dann wirft das einen 404-Fehler. Ich baue wöchentlich neue Artikel in den Shop ein und schmeiße andere raus. Jedesmal generiere ich danach die Sitemap neu. Da Google aber nicht täglich die Sitemap neu einliest ist es ganz natürlich dass da Fehler angezeigt werden wenn der Crawler mit den Daten der Sitemap von vor 2 Wochen versucht die Inhalte von heute zu lesen.
Meine Antworten bezogen sich auf Post #3, unabhängig von dem Titel des Beitrages. Die robots.txt hat nichts mit inaktiven Artikeln oder Kategorien zu tun. Diese werden da auch nciht rein geschrieben, es sei denn, man macht das manuell selber. Man sollte aber eine neue sitemap erstellen, wenn man Artikel / Kategorien inaktiv stellt, damit die da nciht mehr aufgeführt werden. Wird ein Aritkel aus dem Sortiment genommen, dann hatte Google den sicherlich vorher im Index. Deshalb versucht Google den auch immer mal wieder neu aufzurufen. Ist der Artikel jetzt nicht mehr da, gibt es einen 404, weil die Seite nicht gefunden wird. Das ist normal. Deshalb hat man eine 404-Seite, oder leitet die Artikel auf neue, ähnliche Artikel um.
In der robots.txt steht "Disallow: /*switch_country=*", trotzdem geht google bei mir die Länder durch und fügt einige Ergebnisse zumindest "intern" dem Index zu. (Kann man nicht nach suchen außer über site: ...) Google scheint diese Links zu kennen und folgt ihnen. Sieht dann so aus: https://www.meinshop/Kategorie/Artikel.html?switch_country=LI. Wenn man den Link in der SC überprüft, sagt google korrekt, dass die URL nicht zum Index hinzugefügt werden kann, da sie durch robots.txt blockiert wird. Das ist ja dann wir Vorratsdatenspeicherung, also Google schaut sich erst mal alles an. Und die Produkte nach Hersteller werden auch so z. T. indexiert, ich kann nicht sagen ob die durch robots.txt ein disallow haben. Google könnte den Links der Hersteller Box und dem Herstellerbild im Artikeldetail folgen. Sieht dann so aus: https://www.meinshop.de/?manufacturers_id=37&XTCsid=f457f5ec177e6ce3c8095bb0cc687b37 Google indexiert auch Artikel, bei denen im englischen keine Angaben gemacht wurden. Da steht dann nur die ID des Artikels. Ist so bei mir seit 12.08.2018 seit dem ich die Version 3.10 nutze (11.500 Seiten im Index bei 2 Sprachen und ca. 2000 Artikeln, ). Vorher hatte ich lange die Version 3.6. (4500 Seiten im Index bei 2 Sprachen und ca. 2000 Artikeln) Dann im Juli 2018 die 3.8. Muss nicht an den neuen Versionen liegen. Ich vermute eher den Grund bei Google mit Umstellung auf die neue Searchconsole. Daher dürfte das bei vielen Shopbetreibern so sein. Könnt ihr mal nachsehen? Update gerade eben: jetzt zeigt mir die Search Console: 18.000 Seiten im Index, davon 10.500 mit Warnung (d.h. von Robots ausgeschlossen). 213.000 Seiten sind ausgeschlossen (198.000 durch Robots blockiert, hier hält sich Google an die robots.txt) Schein so, als kennt Google das Gambio Shopsystem und weiß, wo es was zu sehen gibt. Bei den Mengen der Seiten kann dieses Phänomen nicht ausschließlich an alten Seiten liegen. Ist wohl eher ein Luxusproblem? Andere klagen ja über zu wenig Seiten im Index.
der 404 Fehler wird auch angezeigt wenn URLs im index sind aber nicht aufrufbar zu finden sind 404 ist einiges es geht auch nicht um die sitmap, ich habe auch ständig neue Artikel, um die dreht sich das Thema nicht es geht hier nicht um alte oder neue URLs im Shop oder von mir aus bei google [beliebte Begründung für das Problem] es handelt sich wie siehe post #6 und #7 nicht um aus dem Sortiment genommene Artikel, die gepostetetn URLs sind inn der robot aber werden aufgerufen, ich hatte sogar schon die shop URL mit dem index dran darum geht es trotz Blockierung werden URLs gelistet und zwar neu neu neu... das sind keine Altlasten und auch keine auf nichtsichtbar gestellten URLs