httpd-users-de mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From Holger Bast <b...@mpi-sb.mpg.de>
Subject Fehlende HTTP Header + beliebiger Text an URL anhängbar
Date Tue, 12 Jul 2005 18:26:41 GMT

Hallo!

Folgende ZWEI Probleme bereiten mir seit einiger Zeit Kopfzerbrechen. Das
lustige ist, sie scheinen erstmal nichts miteinander zu tun zu haben,
kommen aber, so meine Erfahrung bisher, immer nur zusammen vor.

--------------------------------------------------------------------------

(1) Unter bestimmten Domains, z.B. http://www.mpi-inf.mpg.de, kommen alle
HTML-Seiten ohne einige der Standard-Header zurück, insbesondere ohne

      * Last-Modified
      * ETag
      * Content-Length

Dasselbe auch z.B. bei http://www.uni-karsruhe.de (ich checke die Info mit
wget --spider -S http://...). Bei den allermeisten Domains dagegen werden
diese Header geschickt.

(2) Genau bei den o.g. Domains gibt es nun auch folgendes Phänomen. Hinter
jede korrekte URL, lässt sich, nach einem Slash, beliebiger Text anhängen,
also z.B.

http://www.mpi-inf.mpg.de/about/index.html/und/noch/irgend/was/XYZ

und man bekommt trotzdem noch die eigentliche Seite, in dem Fall

http://www.mpi-inf.mpg.de/about/index.html

--------------------------------------------------------------------------

Beide Punkte machen Probleme beim Crawlen: (1) weil ohne das Last-Modified
jeder Re-Crawl wieder alles von neuem crawlt; (2) weil der Crawler so in
eine nicht leicht zu bemerkende Endlosschleife kommen kann.

Bin dankbar für jeden Hinweis, was das Problem sein könnte!

Holger



PS: In das httpd.conf file für die www.mpi-inf.mpg.de Domain habe ich
Einsicht, aber keine Ahnung was da für (1)+(2) verantwortlich sein könnte.

--------------------------------------------------------------------------
                Apache HTTP Server Mailing List "users-de" 
      unsubscribe-Anfragen an users-de-unsubscribe@httpd.apache.org
           sonstige Anfragen an users-de-help@httpd.apache.org
--------------------------------------------------------------------------


Mime
View raw message