Sonstiges

klingeling

es freut mich zu hören, dass Thomas etwas in Richtung Suchmaschine plant. Mehr dazu in seinem Artikel: Mensch vs. Maschine: Human Powered Search

Zumal es mich seit Ewigkeiten in den Fingern juckt, Googles monopolartige Stellung in Deutschland (>90% Marktanteil = Weltspitze) verfallen zu sehen. Und sooo schwer ist das jetzt auch wieder nicht. Hey, Suchmaschinen sind keine Rocket Science. Was muss man alles nicht lesen, wie toll und wie weit weg Googles System ist. Jesus, solange Menschen Systeme bauen, ist kein System auch nur annähernd perfekt. Die Vorstellung ist sowas von lächerlich. Nichts und Niemand ist unangreifbar. Zumal Google aufgrund seiner alternden Dominanz immer mehr die Rolle von Microsoft einnimmt, was auf Dauer das Branding, das für die beherrschende Stellung in D sorgt, bröckeln lassen wird. Dabei beschäftigt mich ein zentraler Punkt: an sich hat sich für den User am System von Google seit Jahren nix geändert. Suche wird so definiert, wie Google eben aussieht. Pferdekutschenfabrikanten haben sich eben das Auto nicht ausgedacht:) Ich glaube immer daran, dass was nach den Pferdekutschen kommt, man darf nur nicht an Pferde denken, wenn man weiterdenken will.

Über den Autor

Robert Basic

Robert Basic ist Namensgeber und Gründer von BASIC thinking und hat die Seite 2009 abgegeben. Von 2004 bis 2009 hat er über 12.000 Artikel hier veröffentlicht.

18 Kommentare

  • Ich muss wiedersprechen: Maschinelle Suchmaschinen, also das, was Google, Yahoo!, Microsoft und Ask (und andere) machen, IST Rocket Science. Und Google ist ganz schön weit voraus. Die Relevanz-Algorytmen von Google passen sich besser den einzelnen Mitgliedern an als bei den anderen, und die Geschwindigkeit ist ungeschlagen.

    Es hat einen Grund, wieso die Millionen-Investitionen in die Windows Live-Suchmaschine durch Microsoft nicht die gleiche Relevanz der Suchergebnisse ermöglicht, wie das bei Google der Fall ist.

    Aber, und da stimme ich dir zu: Google ist einholbar, Google kann geschlagen werden. Sowohl in ihrem angestammten Gebiet, das man zur Zeit als „klassische Web-Suche“ bezeichnet, als auch durch neue Ideen/Technologien.

    Mahalo als „Human-edited Search Directory“ ist für Such-Anfänger/innen sicher eine starke Sache und hat gute Chancen, wesentliche Anteile am Suchmarkt zu erhalten – wenn Jason Calacanis es schafft, die richtige Zielgruppe anzusprechen.

    Powerset oder Hakia, also Firmen, die darauf setzen, das ganze Internet zu _verstehen_, können Google auch einen Hieb verpassen, auch wenn sie noch lange nicht den ganzen Suchmarkt bedienen werden können. (Sie werden eher für Spezial-Anwendungen und Nischen-Produkte wie Sprach-gesteuerte Suche interessant sein, als für allgemeine Web-Suche.)

    Und so weiter.

    Nur: Was Google jetzt macht, IST Rocket Science. Und sie sind allen anderen um Jahre voraus. Sie hier einzuholen wird sehr, sehr schwierig werden.

  • Wenn das nicht Rocket Science ist, warum schafft es dann keiner Google auch nur annaehernd Konkurrenz zu machen? Scheint ja doch etwas schwieriger zu sein.

    Mal davon abgesehen dass Du den viel wichtigeren Teil des ganzen und die echte Rocket Science vollkommen ignorierst: Google’s Server Farmen. Wie Google die Dinger nutzen kann, das ist deren echtes Erfolgsgeheimnis, etwas das man eben nicht mal eben so nachmachen kann. Darum geht es.

    Und human edited directories? Hat so nicht mal Yahoo angefangen? Oder DMOZ, die inzwischen mehr oder weniger von Google uebernommen worden sind? Nee, das ist nun wirklich nicht gerade die neueste Idee…

  • Was das algorithmische Suchen angeht, muss ich meinen Vorkommentatoren Recht geben, das ist Rocket Science. Zu hinterfragen ist eben nur, ob es der optimale Ansatz ist.

    Dass das Yahoo Directory oder DMOZ sich nicht durchsetzen konnten, heisst ja nicht, dass der Ansatz redaktioneller Suchseiten an sich fehlerhaft ist. Genau so könnte ich etwa zehn maschinelle Suchmaschinen aufzählen, die in den letzten Jahren vor die Hunde gegangen sind. Vergleiche ich Mahalo mit dem Yahoo Verzeichnis, so sehe ich da schon einen Quantensprung. Das DMOZ hat sehr unter den internen Querelen der Editoren gelitten, AOL hat ihm dann den Todesstoss gegeben.

  • Hi ,
    ich denke auch das die DMOZ Leute mehr aus dem Projekt heraushollen könnte, wenn sie den nur wollten. Aber so wie es im Moment aussieht, ruht man sich auf dem Erfolgen aus und ist sich nicht ganz einig über den weiteren Werdegang.*SCHADE*

    Aber ob ein anders Projekt in der Richtung mehr Erfolg hat, wäre wirklich mal einen Versuch wert.

  • Das Problem ist doch, dass niemand etwas anders nutzen wird, solange er/sie mit den erzielbaren Ergebnisse zufrieden ist. Weiterhin ist es für die meisten Menschen unglaublich anstrengend Gewohnheiten zu ändern (Stichwort: Aufhören mit Rauchen).

  • Ein Problem von Google ist, dass die tatsächliche Beliebtheit einer verlinkten Seite bei Besuchern nur geschätzt werden kann. Linkcount und Linkauthority sagen letztlich nur, wie beliebt eine Seite bei den Betreibern anderer Seiten ist.

    Einen Ansatz, der zuallererst tatsächlich verfolgte Kanten im Netz berücksichtigt verfolgt YaCy http://www.yacy.net/ eine dezentral aufgebaute Suchmaschine, zu der jeder mit einem eigenen Knoten beitragen kann. Der Knoten läuft als Proxy und analysiert und indexiert besuchte Seiten. Auch bei YaCy kann man einen Crawler losschicken, dessen Ergebnisse schließlich in die Suchergebnisse einfließen. YaCy-Ergebnisse fließen mittlerweile in Metager ein und es spräche nichts dagegen, wenn jemand ein Portal aufbaut, das YaCy ebenfalls integriert.

    Ich verstehe oft das Rufen nach neuen Anbietern nicht. Am YaCy-Netz kann jeder mitmachen, der einen Rechner an einem DSL-Anschluss hat, der sechs oder mehr Stunden am Tag läuft. Mit ein paar Hundert Knoten haben WIR unsere eigene Suchmaschine, bei der WIR sagen, wie indexiert und mit welchen Gewichtungen gesucht wird. Das ist oft besser als auf Dritte zu setzen, die den Spagat zwischen Nutzerzufriedenheit und Finanzierung hinbekommen müssen.

  • @Mattias
    Sorry, aber YaCy wird niemals Google auf großem Niveau verdrängen. Nicht primär, weil sie das Crawlen nicht schaffen werden. (Google hat hunderttausende Server, „ein paar Hundert Knoten“ werden da nichts ausrichten). Primär, weil sie die Ranking-Algorytmen nicht haben.

    Das wesentliche bei einer Suchmaschine ist das Ranking. Nur, weil der Crawler auf dem eigenen Computer läuft, ist das Ranking nicht besser. Crawling hat eigentlich überhaupt nichts mit Ranking zu tun. Klar, man kann schnell fest legen, welche Websites beliebt sind. (Auf Basis der Stimmen von „ein paar Hundert Knoten“? Das wird große Websites bevorzugen.) Aber das ist längst nicht alles.

    YaCy ist ein netter Versuch, ein Experiment, eine Case Study. Aber niemals – NIEMALS – ein ernsthafter Konkurrent für Google.
    Da hat DMOZ noch mehr Chancen…

  • Auch Google kocht nur mit Wasser. Und ein Ranking, das primär darauf aufbaut, die Zahl der eingehenden Kanten zu berücksichtigen und diese nach der Relevanz der verlinkenden Seite zu gewichten, ist blind für die tatsächliche Zahl der Besucher einer Seite und damit für die tatsächliche Beliebtheit. Deshalb ist so viel SEO-Schmuh möglich.

    Tatsächlich versucht Google mit dem Webaccelerator (einem kleinen lokalen Proxy, der auch den Google Cache als Proxy mitbenutzt), das YaCy-Prinzip der tatsächlichen Aufrufe einer Seite (und damit die Beliebtheit beim Surfer, nicht beim Webmaster) in sein Ranking einfließen zu lassen. Der Proxy als Suchmaschinenkomponente ist etwas, das Google verstanden hat.

    Die Zahl der bislang existenten YaCy-Knoten ist tatsächlich vergleichsweise gering. Die derzeit im deutschsprachigen Raum anzutreffenden ca. 100 liefern aber in einigen Themenbereichen (Datenschutz, Webthemen, freie Software) oft recht gute Ergebnisse, was einfach daran liegt, dass sich in diesen Bereichen die Interessen vieler Knotenbetreiber widerspiegeln. Mit einigen Hundert könnte man tatsächlich auch andere Bereiche im deutschsprachigen Netz besser abdecken. Was glaubst Du, was erst mit einigen zehntausend möglich wäre?

    Wie gesagt: Jeder kann mitmachen und wenn sich noch ein paar weitere Unis finden, die ihren gesamten Netzverkehr über YaCy-Proxies laufen lassen, ist eine gute Abdeckung in ein paar Jahren überhaupt nicht utopisch. Über die geringe Anzahl der Knoten sollten also nicht diejenigen jammern, die nichts dazu beitragen.

  • Ahm, ich hab’s vorher schon versucht, zu sagen: Ranking ist mehr, als die Seiten nach Beliebtheit zu sortieren. Man muss überhaupt erst einmal finden, was relevant ist. Und dafür braucht’s mehr, als einen Proxy.

    Webaccelerator ist übrigens ein sehr kleines Programm, das kaum verwendet wird. Vielleicht von ein paar zehntausend oder hunderttausend Leuten. Wäre Google so dämlich, diesem Programm einen wesentlichen Einfluss auf die Suchergebnisse zu geben, wäre ich schockiert, und ich glaube es auch nicht. Google will keine Nerd-Suchmaschine erstellen, sondern eine „One-Fits-All“-Maschine.

    Generell hoffe ich, dass keine Uni YaCy-Knoten zur Verfügung stellen wird – man muss es den Datensammlern ja nicht gar so einfach machen, an meine Surf-Statistiken zu kommen.

    Dass YaCy zu bestimmten Themen ganz gute Resultate liefert, glaub ich gern. Aber was hilft mir eine Suchmaschine, die 3% dessen, was ich im Internet suche, abdeckt? Zehntausend Knoten ändern das Grundsatzproblem nicht: Es wird nur ein kleiner, bestimmter Teil der Internet-Benutzer repräsentiert, nämlich Nerds, die sich so ein Programm installieren. Dadurch ist es dann eine sehr undemokratische Sache. Und sobald erfolgreich, ist es auch sehr anfällig für Spammer.

    Die geringe Anzahl der Knoten bei YaCy ist also nur ein kleiner Teil des Problems. YaCy hat ein Grundsatzproblem: Es ist undemokratisch, Fehler-/SPAM-anfällig und hat ein großes Datenschutz-Problem.
    Und deshalb kommt mir YaCy nicht auf den Computer. Und die meisten der paar tausend Leute, die YaCy vielleicht kennen, denken offensichtlich genauso.

    Wer eine Suchmaschine für die Massen schaffen will, darf nicht als Nerd denken.

  • Wer eine Suchmaschine für die Massen schaffen will, darf nicht als Nerd denken.

    Danke. Und auch ein wichtiger Grund warum Digg, del.icio.us und Konsorten Suchmaschinen noch lange nicht abloesen werden: Weil sie zur ueberwiegenden Mehrheit nur von Geeks und Nerds genutzt werden die dort die ewigen immergleichen Seiten einstellen und nach oben pushen. Aber halt nicht die wirklich die grosse Breite der anderen Themen abdecken.

  • @Armin
    Ich bin froh, dass ich nicht der einzige bin, der so denkt. 🙂 Digg, del.icio.us und Konsorten können, werden und _sollen_ in Zukunft Einfluss auf die Suchmaschinen haben. ABER: So, dass das für jeden einzeln entschieden wird. Leute, die auf solchen Seiten aktiv sind, werden in Zukunft ihre eigenen Suchergebnisse durch diese Seiten beeinflusst sehen.
    APML (Attention Profiling Mark-up Language) ist der Schüssel dazu. (Digg unterstützt APML bzw. plant die Unterstützung.)

    Und: Das macht maschinelle Suchmaschinen noch mehr zu Rocket Science, und nur wenige werden in der Lage sein, das auch wirklich zu tun.

  • @Sebastian: Jede Suchmaschine ist anfällig für Spammer. Auch bei YaCy gibt es mittlerweile tägliche Pornocrawls, die man dann halt — je nach Attitüde — laufen lässt oder auf dem eigenen Knoten blockt. Es geht auch nicht darum, Google abzulösen oder abzuschaffen, sondern Alternativen zu bieten. „Freedom of Choice“ ist das Stichwort.

    Google ist mittlerweile im Suchmaschinenbereich extrem schwerfällig und schon lange kein Vorreiter mehr hinsichtlich Innovativität. Die Suchmaschine Google lebt von ihrem riesengroßen Index, von nichts anderem. Natürlich beobachtet Google, was da draußen geht und sobald einer kommt und eine Nische besetzen möchte, ist Google da. Das ist bei der Blog- oder der News-Suche so und es wird mit den Sets so weitergehen. Clustering ist ein interessantes Thema, das Google stiefmütterlich behandelt. Angenommen, MS steigt bei Vivisimo ein: Google wird dann ganz schnell Clustering können…

    Die Datenschutzbedenken hinsichtlich YaCy kann ich nur teilweise nachvollziehen. Viele Universitäten nutzen eh Proxies, iin dem dynamische Seiten natürlich nicht gecachet werden. Da macht es keinen Unterschied, den Cache auch noch zu indexieren. Logfiles sollten natürlich anonymisiert werden, keine Frage. Auch die Bedenken, dass der eigene Knoten zuviel über Dein Surfverhalten aussagt, ist zwar nachvollziehbar, aber in der Realität lässt sich durch den Indexaustausch nicht sagen, wie ein Indexfragment auf Deinen Rechner gelangt ist.

    Das angesprochene Problem der Manipulation existiert mit „Link-Inzest“ auch bei Google. Allerdings existiert bei zu unrecht hoch gerankten Sites (Doorway-Pages etc.) nur das Mittel des Petzens. Die Seite wird dann aus dem Index geschmissen. Bei YaCy kann sich jeder Knotenbetreiber und Programmierer einen Kopf um das Aufdecken von Manipulationen machen.

  • @Mattias
    Du meinst jetzt aber nicht ernst, Google wär im Suchbereich nicht mehr innovativ, oder?

    Dir ist schon bewusst, dass Google die stärkste Personalisierung bei den Suchergebnissen anbietet, oder? Jedes Google-Mitglied, das die Google Web History verwendet, bekommt völlig eigene Suchergebnisse. Google passt seine Algorytmen wöchentlich an.
    Keine der großen Suchmaschinen investiert so viel in die Technologie, wie Google. (Ein Drittel der Mitarbeiter bei Google arbeiten an Suche-bezogenen Themen. Und das sind tausende.)

    Google bietet neben der Web-Suche 11 spezialisierte Suchmaschinen an. (Blog Search, Book Search, Images, Maps, News, News Archive, Patent, Products, Scholar, Video, Code.) und bietet mit Co-op und Customized Search Engines auch ein ziemlich starkes Produkt für eigene Sub-Suchmaschinen an.

    Ich versteh jetzt nicht ganz, wie das als „schwerfällig“ bezeichnet werden kann.

    Ist das eigentlich gut, wenn jeder YaCy-Knotenbetreiber „Manipulationen“ „aufdecken“ kann? Was ist, wenn eine Website einen Knoten betreibt, und alle Konkurrenten raus löscht?

  • @Sebastian:

    GOOGLE WEB HISTORY: Wer mit der Google Web History argumentiert, sollte bei YaCy Privacy-Bedenken nicht als Argument einbringen.

    INVESTITIONEN: Ja, Google investiert in Technologie, verdammt viel sogar. Dabei handelt es sich aber zu einem sehr großen Teil um Investitionen in Infrastruktur: eigene Backbones, ja sogar Unterseekabel, eigene Kraftwerksprojekte, viele Investitionen in ein verteiltes Dateisystem. Der Anteil an Investitionen in die Suche selbst ist im Vergleich zu Infrastrukturinvestitionen gering.

    INNOVATIONEN ANDERSWO: Vivisimo hat mit Clusty einen interessanten Ansatz mit Clustering. Google fehlt das noch vollkommen. Google hat das semantische Web lange ignoriert und fängt gerade erst an hCards zu indexieren, bis Google eine hCalendar basierte Veranstaltungsübersicht bietet, wird es wohl noch dauern. Was ist mit einem komfortableren, Ajax basierten Interface, mit dem man gleich in den Unterergebnissen suchen kann?

    AUF MEINEM KNOTEN BIN ICH CHEF: Jeder Betreiber eines Knotens kann mit seinem Cache machen, was er will. Es steht Dir also tatsächlich frei, von Deinem Proxy nur eigene Sites indexieren zu lassen. Dieser Index wandert dann zu den anderen Knoten und damit in die Ergebnisse. Werden aber die so von Dir gelieferten Teile der Ergebnisse kaum angeklickt oder von Nutzern als „irrelevant“ eingestuft, bleiben Deine Ergebnisse relativ schlecht gerankt. Werden sie dagegen häufig von anderen Knoten aufgerufen und dadurch neu indexiert, steigen Deine Ergebnisse im Ranking. Dieses Verhalten ist nicht gerade unerwünscht, weil damit Betreiber großer Websites dem Rest des YaCy-Netzes viel Arbeit abnehmen können. Oder anders ausgedrückt: Wer seine eigenen Sites als sauberes XHTML anbietet und in den eigenen YaCy-Index einpflegt wird mit einem höheren Ranking belohnt.

  • Bei Google weiß ich, wem ich meine Daten gebe, (Nämlich einem Unternehmen, das seine Daten besser gegen Angreifer schützen kann als sonst jemand, und das auch nicht ohne weiteres Zugriffsdaten heraus rückt.) und hab außerdem die volle Kontrolle. (Ich kann meine Web History jederzeit löschen.)

    Zu den Innovationen: Ich habe einige Male den Clusty-Ansatz ausprobiert, als ich nach sehr allgemeinen Begriffen suchen musste, und bei den Google-Ergebnissen viel „Noise“ dabei hatte. Clusty war noch schlechter. Ich bekam grundsätzlich kaum Ergebnisse, die Kategorisierung funktionierte mehr Schlecht als Recht.
    Bei populäreren Suchbegriffen funktioniert das System zwar besser, nur bekomme ich da mit Google genauso, was ich will.
    Das ist zumindest meine persönliche Erfahrung. Kann leicht sein, dass die Kategorisierung mehr Sinn machen würde, wenn Google sie vornimmt.
    Zum Thema Ajax-Interface: Das meinen Sie nicht ernst, oder? Wieso zum Teufel soll Google langsame, nervige Ajax-Interfaces einsetzen? Nur, weil andere das auch tun?

    Ahm, es ist eigentlich Blödsinn, dass Google zum Großteil in Infrastruktur investiert, auch wenn das natürlich ein Teil dessen ist, was Google macht. Immerhin werden immer mehr Websites mehrmals pro Tag indiziert, was die Qualität des Suchindexes verbessert und für mehr Daten sorgt, als YaCy mit seinem Mini-Index jemals kriegen wird.

  • Interessante Diskussion! Ich bin aber immer wieder erstaunt, wie wenig Leute das Wort Algorithmus richtig schreiben können.
    So schwer ist das ja nicht. Just my two cents 😉

  • Ja, die Diskussion finde ich auch sehr interessant. Geht mir allerdings zu stark um Pferdedroschkentechnik und zu wenig um Pferdeäpfel – um mal im Bild zu bleiben.
    In diesem Sinne weiß man zwar, Sebastian, wem man seine Daten gibt und dass Google die sicher gegen jeden verteidigen wird (der nicht ordentlich zahlt), aber niemand weiß, was Google draus macht. Und bei anderen, weiß man das auch nicht.
    Leider gibt es in dieser Hinsicht überhaupt keine Konkurrenz, unabhängig davon, ob es um klassische Suchmaschinen, redaktionelle Verzeichnisse oder social bookmarking geht. Spielt also eigentlich keine Rolle ob der Marktanteil 90 oder mehr Prozent ist. Wie wäre es denn, wenn ich in meinem Google- oder sonst einem Profil sehen könnte, welche Schlüsse aus meiner Search-History gezogen werden. Da fände ich ein wenig mehr Transparenz ganz nett und es hätte einmal einen ganz anderen „touch“… Und vielleicht lernt man auch noch etwas über sich selbst dabei 😉

  • Haha. 🙂 So ein doofes Wort!

    Bei der Transparenz-Frage stimme ich dir natürlich zu, es wäre wünschenswert, wenn Google den Benutzern anzeigen würde, welche Kategorien bzw. Tags sie ihnen gibt.

    Ich stimme dir auch zu, dass ein Monopol, so wie Google es hat, sehr bedenklich ist.

    Mir ist es in der Diskussion aber um die technische Frage gegangen: YaCy wird mit seinem Ansatz nie einen ähnlich großen Index haben, und auch mit Ranking wird es immer Probleme haben, und es wird auch immer sehr anfällig für SPAM sein.
    Außerdem wird es immer eine Nischenlösung bleiben, weil nur die wenigsten Benutzer aktiv mittun werden.
    Den Schlüssel, um mit Google zu konkurrieren, halten einerseits die großen Suchmaschinen-Konkurrenten in der Hand (Microsoft, Yahoo!, Ask), andererseits einige, wenige Such-Start-Ups (Powerset, Mahalo, und einige andere).

    Zum Thema „Transparenz“ noch: Wenn man auf iGoogle einen Tab mit dem Namen „Recommendations“ anlegt, werden verschiedene Module geladen, unter anderem mit Beispiel-Suchabfragen, Beispiel-Websites, wo auch angezeigt wird: „Du siehst diesen Link, weil du nach XXX und XXX gesucht hast.“
    Kann ich nur empfehlen.

    (Auch wenn’s längst nicht das ist, was man sich erwünschen würde.