Auf dem Fenster stand Freiheit und ich sprang Suicide Apartment

 
Oeffentliches » ACAP vs robots.txt von GEEK1

ACAP steht für "Automated Content Access Protocol" und wurde unter anderem im Auftrag einiger größerer Verlage entwickelt (siehe Golem.de), die der Meinung sind ihre auf den Websites präsentierten Daten werden von den Suchmaschinen zu ausführlich und intensiv an die breite Öffentlichkeit durchgereicht.

Um einen kleinen Vergleich anzustreben, vorweg eine kleine Auflistung der aktuekll gängigen und anerkannten Methoden um Suchmaschinen durch die eigene Website zu leiten:

robots.txt
Klassisch und meines erachtens das beste Mittel um einen Spider zu "kontrollieren".
Die robots.txt beinhaltet Angaben dazu, welche Suchmaschine welche Bereiche der Website nicht betreten und speichern darf. Eine etwas erweiterte Version beinhaltet auch explizite Angaben, welche Bereich betreten werden dürfen, diese müssen aber nicht beachtet werden (siehe robotstxt.org).
Suchmaschinen, die sich nicht an die in der robots.txt angegebenen restriktiven halten werden nicht zu unrecht meist als Harvester, Spambots oder ähnliches Gesindel tituliert und gesperrt (siehe Honeypot).

Sitemap
Eine für Sider verwertbare Sitemap, im XML-Format, wurde vor einiger Zeit (siehe Golem.de)in Zusammenarbeit von Google, MSN und Yahoo entwickelt (siehe Sitemaps.org). Diese gibt dem Websitebetreiber die Möglichkeit, die Adressen der einzelnen Seiten direkt an die Suchmaschine auszuliefern und mit Zusatzinformationen wie dem Datum der letzten Änderung, der Häufigkeit der Aktualisierungen und interner Wichtigkeit zu versehen.

Metatags
Metatgs sind der robots.txt recht ähnlich, bieten allerdings auch zusätzliche Informationen, die man an die Spider übergeben kann. Da leider ein Großteil der Welt immer noch ausschließlich auf Google fixiert ist, greife ich im Vergleich auf einen entsprechenden Beitrag aus dem Googleblog zurück.

Related
Der a-Tag kann mit dem Attribut "rel" versehen werden, welches Ursprünglich dazu gedacht einen "Vorwärtslink" zu definieren und mit einer Art Definition zu versehen (siehe W3). rel="contact" könnte bspw. dafür stehen, dass dieser Link - im Sinne der Websitestruktur - "vorwärts" zum Kontakformular führt.
2005 wurde von Google der Wert "nofollow" eingeführt (siehe Blog von Matt Cutts), welcher ursprünglich nur dem Googlebot mitteilen sollte, dass er die Existenz des entsprechenden Links zu ignorieren hat. Der Attributwert wurde unter dem Vorwand von Kommentarspam und der negativen Auswirkung auf die PageRank-Berechnung eingeführt und sehr schnell auch von anderen (meist großen) Suchmaschinen übernommen.
nofollow (wie es im allgemeinen genannt wird), ist stark umstritten und es gibt bereits Seiten, die explizit dafür "werben", jenes Attribut auf keinen Fall zu verwenden. Die Argumentation ist allerdings mehr als Fragwürdig (siehe nonofollow.net)

Mit diesen sehr simplen und allgemein gültigen Ansatzpunkten hat jeder Webmaster die Möglichkeit einen Spider sehr Zielgerichtet durch die eigene Website zu führen.
Und nun kommen gewisse Verlage (Man hat gelernt lieber keine Namen zu nennen - Aber das ist ein eigenes Thema für sich) auf die Idee, dass ihnen dies noch nicht genug Kontrolle über die öffentlich verfügbaren Inhalte ihrer Website ist.

Nun zu dem oben erwähnten Vergleich:

[...] [ACAP] erlaubt es Websitebetreibern beispielsweise festzulegen, welche Inhalte wie lange zwischengespeichert werden dürfen oder welchen Links die Suchmaschinen nicht folgen dürfen.
Quelle: Golem.de

  1. Welche Inhalte wie lange zwischengespeichert werden dürfen:
    Hierzu bietet bspw Google das Metatag "unavailable_after:[Datum]" an, welches es dem Websitebetreiber ermöglicht die betroffene Seite zum Zeitpunkt X aus den Suchergebnissen wieder entfernen zu lassen. (Auch als robots.txt - Version)
    Zusätzlich lässt sich dies mit der XML-Sitemap kombinieren, welche angibt wie häufig eine Seite aktualisiert wird.
  2. Welchen Links die Suchmaschinen nicht folgen dürfen:
    Hierführ gibt es die robots.txt, Metatags und das Related-Attribut. Wenn das keine ausreichende Auswahl ist, kann man ihnen nun wirklich nicht mehr weiterhelfen.

Ich würden den Vergleich gerne ausfüührlicher Gestalten, doch leider liesen sich auf der zugehörigen Website von ACAP keine detailierten Informationen finden. Lediglich der folgende Text umreist die Zielsetzung in recht groben Zügen.
Die in meinen Augen wichtigsten Passagen wurden unterstrichen.

ACAP enables the providers of all types of content published on the World Wide Web to communicate permissions information (relating to access and use of that content) in a form that can be automatically recognized and interpreted, so that business partners can systematically comply with the publishers' policies. In the first instance, ACAP provides a framework that will allow any publisher, large or small, to express access and use policies in a language that search engines' crawlers (also known as robots or spiders) can be taught to understand. [...]
Quelle: ACAP

Meines erachtens liegt liegt Golem.de mit der in einem Artikel verwendeten Bezeichnung "Robots.txt 2.0" garnicht mal so verkehrt. Es ist nur eine alte Idee in neuer Verpackung, die dann noch mit allerlei Ecken und Kanten versehen wird, um den Gebrauch auch möglichst Komplex zu gestalten.

Entgegen der Hoffnungen der Initiatoren, hat sich bisher keine große Suchmaschine dazu bereit erklärt, ihr neues Protokoll zu berücksichtigen, was leider auch inidrekt wieder von der Macht Google's zeugt. Eine Aussage, wie die nun folgende sollte eigentlich jedem zu denken geben:

Es scheint nicht so, als würde ACAP in absehbarer Zeit zu einer Erfolgsgeschichte (aus Verlegersicht) werden. Solange Google nicht vorangeht, werden sich konkurrierende Suchmaschinen hüten, ihr Angebot nach den Wünschen der Verleger einzuschränken. [...]
Quelle: Golem.de

Es ist ein Armutszeugniss, wenn sich keine kommerzielle Unternehmung mehr erlauben kann Google zu boykottieren.


Name: eMail: Homepage:
 
  aktuellen Tag schließen
fettgedruckter Textkursiver Textunterstrichener Text zentrierter Text Hyperlink einfügenE-Mail-Adresse einfügenBild einfügen Zitat einfügenLiedtext einfügen Hilfe   alle Tags schließen

 
Achtung: Dieser Blog wird moderiert, daher wird der Kommentar erst nach manueller Prüfung angezeigt.
 
- error -
Bestätigungscode:
 
Optionen:
BB-Code aktivieren
Smilies aktivieren
  5 Jahre

Patient †
Medikamentenausgabe †  
Krankengeschichte †  
Besuchszeiten †  
Aktenschrank †  
Schubladen †  
Verstecken †  
Einblicke †  

Chronik †
Oktober 2017
Mo Di Mi Do Fr Sa So
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31          
« Aktuell »

Öffentlichkeitsarbeit †
Wunschzettel Analog †  
Wunschzettel Digital †  
Identi.ca †  
Läääärm †  
Lenore †  

Gruppenfoto
Ablage P. †  
anonyme liebesunfähige †  
Innerlich zerissen... †  
Seelenwechsel †  
Sonnen.Vogel.Nest †  

Kategorien †
Schall und Rauch †  
Öffentliches †  
LiveJournal †  

Paranoid ? †
Fingerabdruck †  
DNA Abstrich †  

Verwaltung †
Überweisungsschein †  
Zwangseinweisung †  

Statistik †
58448 Patienten †  
362 Stationär †  
17 Langzeit †  
1 Besucher †  

Betreiber




 
Keine Zielgruppe xHTML Valid Valid CSS! IE Banned