httpd-users-de mailing list archives

Site index · List index
Message view « Date » · « Thread »
Top « Date » · « Thread »
From Erik Abele <e...@codefaktor.de>
Subject Re: Fehlende HTTP Header + beliebiger Text an URL anhängbar
Date Tue, 12 Jul 2005 18:46:34 GMT
On 12.07.2005, at 20:26, Holger Bast wrote:

>
> Hallo!
>
> Folgende ZWEI Probleme bereiten mir seit einiger Zeit  
> Kopfzerbrechen. Das
> lustige ist, sie scheinen erstmal nichts miteinander zu tun zu haben,
> kommen aber, so meine Erfahrung bisher, immer nur zusammen vor.
>
> ---------------------------------------------------------------------- 
> ----
>
> (1) Unter bestimmten Domains, z.B. http://www.mpi-inf.mpg.de,  
> kommen alle
> HTML-Seiten ohne einige der Standard-Header zurück, insbesondere ohne
>
>       * Last-Modified
>       * ETag
>       * Content-Length

Die Erklärung ist einfach: es handelt sich um _dynamisch generierte_  
Seiten, also um Seiten die nicht so wie sie zum Client geschickt  
werden schon auf der Harddisk zur Verfügung stehen sondern aus  
versch. Quellen (DB, ...) und u.U. unter Einfluss des Users (Übergabe- 
Parameter in URL, ...) 'zusammengebastelt' werden.

Da bei dynamisch generierten Seiten die Infos die in den Headern  
stehen müssten nicht unbedingt sofort zur Verfügung stehen, fehlen  
eben häufig auch einfach die Header. Einerseits lassen sich teilweise  
wirklich keine sinnvollen Werte finden (welches Datum gibst Du in  
Last-Modified bei einer Seite an die in RealTime Daten aus einer DB  
anzeigt, z.B. Kontostand, Aktienwerte, ...), andererseits ist es  
häufig auch nur Unwissenheit bzw. Nachlässigkeit der Programmierer.

Daß sich bei Deinen Beispielen jeweils etwas an die URL anhängen  
lässt sich ebenfalls einfach erklären: wie gesagt handelt es sich um  
dyn. Seiten und diese akzeptieren eben i.d.R. sog. Übergabe-Parameter  
bzw. PathInfo-Angaben.

Achso, um auf Dein ursprüngliches Crawling-Problem zurückzukommen:  
damit musst Du wohl Leben. Dies verursacht auch in anderen Gebieten  
des Internets (Upstream-Proxies, ...) Probleme die vermeidbar wären,  
aber so ist es halt.

Cheers,
Erik


Mime
View raw message