amazon - bedenklich starkes Crawling + htaccess ip Range Ban

Thema wurde von DKG - Die Kleine Geschenkidee (Peter), 14. Mai 2019 erstellt.

  1. DKG - Die Kleine Geschenkidee (Peter)

    Registriert seit:
    2. Oktober 2017
    Beiträge:
    323
    Danke erhalten:
    164
    Danke vergeben:
    107
    #1 DKG - Die Kleine Geschenkidee (Peter), 14. Mai 2019
    Zuletzt bearbeitet: 14. Mai 2019
    Hallo liebe Community,

    sind Euch in letzter Zeit in Eurer gambio "Wer ist online" Statistik auch vermehrt IPs aufgefallen, oft mit vielen Sitzungen gleichzeitig, welche mit 52.xxx anfangen ?

    Mir ist es aufgefallen und ich hab natürlich mal Whois Abfragen gemacht wer denn dahintersteckt.
    Es ist amazon.

    Gewundert hat es mich nicht.
    Nachdem ich vor Kurzem auch den Aktionärsbrief von Jeff Bezos gelesen habe, erst recht nicht.
    Darin beschreibt Herr Bezos das Third-Party-Geschäft, also Retailer wie Du und ich,
    als zu starke Konkurrenz für seine First-Party Geschäfte.

    Wer auf amazon handelt, kennt dort sicher auch die Automatische Preisanpassung.
    Dort gibt es auch einen Punkt "Mit Preisen außerhalb amazon vergleichen" oder so ähnlich (hab jetzt aktuell nicht nachgesehen).

    Schon als ich das vor langer Zeit einmal gelesen habe, war mir klar, dass amazon wohl Technologien zum Einsatz bringt um externe Webseiten / Shops zu durchforsten / zu crawlen.

    Als ich nun also das verstärkte Crawling in unserem Shop bemerkte, musste ich mir also überlegen: Was tun?

    Nicht nur das amazon im Laufe der Zeit alle Preise kaputtmacht und man nur noch über die Masse gehn kann,
    sondern was bin ich bereit zuzulassen und was nicht?

    Ich hab mich dafür entschieden amazon "auszusperren" und hab mir in geduldiger Auslesearbeit von Logfiles die kompletten Ranges, welche bisher bei uns aufgelaufen sind, rausgesucht und via htaccess gesperrt.

    Nachtrag / Änderung:
    Danke barbara für Hinweis auf die ip_blacklist.txt.
    Wer amazon aussperren möchte, kann dies im Ordner GProtector, in der Datei ip_blacklist.txt.
    Dazu einfach folgendes hineinposten:
    Code:
    52.0
    52.1
    52.2
    52.3
    52.4
    52.5
    52.6
    52.7
    52.8
    52.9
    52.10
    52.11
    52.12
    52.13
    52.14
    52.15
    52.16
    52.17
    52.18
    52.19
    52.20
    52.21
    52.22
    52.23
    52.24
    52.25
    52.26
    52.27
    52.28
    52.29
    52.30
    52.31
    52.32
    52.33
    52.34
    52.35
    52.36
    52.37
    52.38
    52.39
    52.40
    52.41
    52.42
    52.43
    52.44
    52.45
    52.46
    52.47
    52.48
    52.49
    52.50
    52.51
    52.52
    52.53
    52.54
    52.55
    52.56
    52.57
    52.58
    52.59
    52.60
    52.61
    52.62
    52.63
    52.64
    52.65
    52.66
    52.67
    52.68
    52.69
    52.70
    52.71
    52.72
    52.73
    52.74
    52.75
    52.76
    52.77
    52.78
    52.79
    Ich lasse meinen originalen Vorschlag aber dennoch stehen.
    Müsst Ihr als Shopbetreiber selbst abwägen, welche Methode Ihr bevorzugt.
    Wenn ich Doku zu der ip_blacklist.txt richtig gelesen habe, kann man leider keine CIDR sperren.
    Daher für mich uninteressant, da ich neben amazon Ranges auch noch viele CIDR gesperrt habe.


    So sieht das dann aus (könnt ihr am Anfang Eurer gambio .htaccess Datei einfügen):

    Code:
    order allow,deny
        deny from 52.0
        deny from 52.1
        deny from 52.2
        deny from 52.3
        deny from 52.4
        deny from 52.5
        deny from 52.6
        deny from 52.7
        deny from 52.8
        deny from 52.9
        deny from 52.10
        deny from 52.11
        deny from 52.12
        deny from 52.13
        deny from 52.14
        deny from 52.15
        deny from 52.16
        deny from 52.17
        deny from 52.18
        deny from 52.19
        deny from 52.20
        deny from 52.21
        deny from 52.22
        deny from 52.23
        deny from 52.24
        deny from 52.25
        deny from 52.26
        deny from 52.27
        deny from 52.28
        deny from 52.29
        deny from 52.30
        deny from 52.31
        deny from 52.32
        deny from 52.33
        deny from 52.34
        deny from 52.35
        deny from 52.36
        deny from 52.37
        deny from 52.38
        deny from 52.39
        deny from 52.40
        deny from 52.41
        deny from 52.42
        deny from 52.43
        deny from 52.44
        deny from 52.45
        deny from 52.46
        deny from 52.47
        deny from 52.48
        deny from 52.49
        deny from 52.50
        deny from 52.51
        deny from 52.52
        deny from 52.53
        deny from 52.54
        deny from 52.55
        deny from 52.56
        deny from 52.57
        deny from 52.58
        deny from 52.59
        deny from 52.60
        deny from 52.61
        deny from 52.62
        deny from 52.63
        deny from 52.64
        deny from 52.65
        deny from 52.66
        deny from 52.67
        deny from 52.68
        deny from 52.69
        deny from 52.70
        deny from 52.71
        deny from 52.72
        deny from 52.73
        deny from 52.74
        deny from 52.75
        deny from 52.76
        deny from 52.77
        deny from 52.78
        deny from 52.79
    allow from all 
    Das ist keine Stimmungsmache gegen amazon.
    Jeder muss für sich entscheiden wie er mit der Thematik umgeht.
    Ich selbst habe mich für diesen Weg entschieden.
    amazon ist bereits viel zu mächtig und unkontrolliert - aus meiner persönlichen Sicht.
    Ich bin nicht bereit noch meine letzten Karten offenzulegen.

    Soll er woanders crawlen - bei mir/uns nicht.

    Wichtiger Satz zum Abschluß:
    Ich vertrete hier meine persönliche, alleinige, private Meinung.
    Nicht die meines Arbeitsgebers / unseres Unternehmens.

    LG
    kugelschubs
    Head of IT & amazon Prime Sales
    (eindeutschergambiomustershop.de - Scherz:p)
     
  2. barbara

    barbara G-WARD 2014-2020

    Registriert seit:
    14. August 2011
    Beiträge:
    35.546
    Danke erhalten:
    11.305
    Danke vergeben:
    1.612
    Für so etwas gibt es im GProtctor die ip_blacklist.txt
     
  3. DKG - Die Kleine Geschenkidee (Peter)

    Registriert seit:
    2. Oktober 2017
    Beiträge:
    323
    Danke erhalten:
    164
    Danke vergeben:
    107
    #3 DKG - Die Kleine Geschenkidee (Peter), 14. Mai 2019
    Zuletzt bearbeitet: 14. Mai 2019
    Hallo Barbara,

    danke für die Info.

    Hab gerade mal wieder das Handbuch gewälzt und festgestellt das es dort sogar drinsteht.
    Viele Wege führen nach Rom, werde es bei mir aber in der .htacces lassen, weil ich auch viele CIDR gesperrt habe um mir die Arbeit zu erleichtern.
    Falls CIDR sperren auch mit GProtector funzt, steige ich gerne um.

    Nochmals Danke.
     
  4. Wilken (Gambio)

    Wilken (Gambio) Erfahrener Benutzer

    Registriert seit:
    7. November 2012
    Beiträge:
    18.737
    Danke erhalten:
    7.310
    Danke vergeben:
    2.208
    Ich würde das in der .htaccess Datei machen statt im G-Protector. Der Unterschied ist da in der Performance unter Last. Die htaccess Datei wird ausgewertet bevor der PHP Interpreter angeworfen wird, also früher in der Kette, böse Requests werden früher verworfen.

    Auch ein Unterschied: der G-Protector kann nur Requests blocken die Code ausführen. Würde ein Crawler direkt Assets (z.B. Bilder) crawlen würde, wie auch immer der vorher an eine Liste davon gekommen wäre, ginge das bei einer htaccess Sperre nicht, bei einer G-Protector Sperre schon.
     
  5. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    11. Februar 2015
    Beiträge:
    1.291
    Danke erhalten:
    399
    Danke vergeben:
    237
    Und "Bezahlen mit Amazon" funktioniert dann trotzdem noch?
     
  6. Wilken (Gambio)

    Wilken (Gambio) Erfahrener Benutzer

    Registriert seit:
    7. November 2012
    Beiträge:
    18.737
    Danke erhalten:
    7.310
    Danke vergeben:
    2.208
    Angenommen man würde Amazon komplett blockieren, dann nein. Das ist aber ein Theoriewert. Man kriegt nicht alle IPs zusammen mit denen Amazon weltweit arbeitet, das sind echt viele und die sind nirgends perfekt aufgeschlüsselt. Wenn man mit Amazon Payments arbeitet weiss man auch nicht genau von welchen IPs da die Callbacks kommen, das heisst am Ende: Das geht nicht wirklich gleichzeitig.
     
  7. barbara

    barbara G-WARD 2014-2020

    Registriert seit:
    14. August 2011
    Beiträge:
    35.546
    Danke erhalten:
    11.305
    Danke vergeben:
    1.612
    Wenn die Einträge in der .htaccess besser aufgehoben sind, warum gibt es dann die Blacklist im GProtector?
    Dann wäre es doch Sinnvoller in der .htaccess einen Bereich für gesperrte IPs einzuführen, so wie für die Rewrites.
     
  8. Wilken (Gambio)

    Wilken (Gambio) Erfahrener Benutzer

    Registriert seit:
    7. November 2012
    Beiträge:
    18.737
    Danke erhalten:
    7.310
    Danke vergeben:
    2.208
    Als das im G-Protector gebaut wurde, das war noch vor meiner Zeit bei Gambio, hatten wir sowas wie eine sonderlich organisierte .htaccess Datei noch gar nicht. Ausserdem kann man auch Anwendungsfälle skizzieren, wo eine Sperre von aktiven Inhalten ohne Assets wünschenswert ist. Ja, ist obskur, aber Amazon sperren wollen ist auch obskur...

    Unabhängig vom Amazon Marktplatz ist Amazon auch grosser Vermieter von Servern mit Rechenzeit und Internetanbindung. Viele Dienstleister für Shops liefern alle Dienste aus der Amazon Cloud, und das auf erwünschte/unerwünschte Requests zu unterscheiden ist sanft untertrieben haarig.

    Sagen wir trotzdem nochmal kurz das wäre kein Hindernis, dann bleibt immernoch das Problem einer einigermassen vollständigen Sperre der Amazon Netze. Nehmen wir da mal Informationen der ARIN:

    https://whois.arin.net/rest/org/AT-88-Z/nets

    Und das dürften noch nicht alle Netze sein, bei anderen Verwaltungen gibts relativ sicher auch noch Blumensträusse davon.

    Sagen wir trotzdem nochmal kurz auch das sei kein Hindernis und wir kriegen eine vollständige Liste böser IP Netze zusammen, dann wird die etwas lang. Wirft man die alle in seine htaccess Datei, wird der Webserver bei jedem Seitenaufruf überprüfen ob die Sperrliste matched. Aufgrund der Länge wird das für jeden Aufruf ebenfalls Rechenzeit fressen, messbare Rechenzeit. Die Seite wird für alle langsamer, immer.

    Wenn wir annehmen das sei auch kein Problem, dann ist das tatsächlich einfach, es sei denn ich überseh was :)
     
  9. DKG - Die Kleine Geschenkidee (Peter)

    Registriert seit:
    2. Oktober 2017
    Beiträge:
    323
    Danke erhalten:
    164
    Danke vergeben:
    107
    Hallo Wilken,

    dazu (Geschwindigkeit) kann ich Erfahrungswerte liefern:

    Vorab:
    Hosting bei uns ist ein eigener Server mit 2 Kunden / 2 gambio Shops darauf.
    Festplatten SSD, eigene 100 Mbit/s Anbindung, Standort Frankfurt (direkt am DE-CIX) usw. ...

    Meine Startseite:
    Aktuell 5 Teaser-Slider Grafiken in der Größe 2000 x 684 Pixel (jpg)

    Anzahl Angebote: 20
    Anzahl neue Artikel: 40 (Neue Artikel nicht im Swiper sondern gekachelt)
    Anzahl empfohlene Artikel: 40

    Meine htaccess Datei hat derzeit ca. 500 (fünfhundert) Zeilen mit IPs / Ranges / CIDR

    Execution time: 0,8 Sek bis 0,9 Sek

    Selbst gestetet mit Telekom 100k Leitung und Unitymedia 400k Leitung.

    Hab mir selbst die Obergrenze 1 Sek gesetzt.
    Mehr sollte es nicht sein um auch bei google nicht im Ranking zu verlieren.

    Wie Du siehst hab ich amazon lieber die Adressräume einzeln gesperrt, nicht die CIDR.
    Wollte bei amazon auf Nummer sicher gehen / möglichst viel erwischen.
    Kann das bei Bedarf also auch noch schmälern.

    LG