Search Engine

  • Hat sich wer mal mit dem Thema Suchmaschinen auseinandergesetzt?
    Suchmaschinen für's Web gibt's nen haufen, die interessieren mich aber nicht wirklich.. Für (Windows) Filesystem wäre es relevant.


    Müsste folgendes haben
    - Filesystem indexieren
    - Web indexieren (nicht soo wichtig)
    - 1,5Mio Files handlen
    - "Meinten sie:" Funktion wäre sicher gut
    - Unter WS2008 oder neuer laufen (bzw. Blackbox mässig wie GSA)


    Was ich bis jetzt kenne:
    - Google Search Appliance (GSA) -> relativ "teuer" bei über 1Mio Dokumente
    - SearchBlox -> Bis jetzt eher verbuggt. Werde mal mit dem Support reden (out of memory, Dateien lassen sich nicht öffnen)
    - ?

    Gaming: AMD Ryzen 5 2600X, MSI B450M, 32GB RAM, Sapphire RX6900XT Nitro+ SE, 4TB SSD, 10TB HDD, Win11, Samsung Odyssey G7 32" 1440p@165Hz
    Server: AMD Ryzen 5 3600, Gigabyte B450M4, Quadro P400, 16Gb RAM, 500GB SSD, Plex Encoder

    Storage: Intel i3 3220T, ASRock Z77 Pro4, 4Gb RAM, 111 TB Storage (Seagate Exos), Plex Storage

  • Ich benutze für Serverlogs elasticsearch (http://www.elasticsearch.org/) als Suchengine. Abgeholt werden die logs mit logstash und das ganze mit Kibana schön dargestellt.
    1.5Mio. Files sind sicher kein Problem. Mit einem Atom + 512MB Ram kannst du problemlos 10 Mio. Linien Logs pro Tag indexieren und ca. 2 Wochen --> 140 Mio. Linien Logs im Index halten. Ich denke mal eine Linie Log sollte in etwa einer Datei entsprechen.


    Mit einem passenden Indexer (z.B. fsriver http://www.pilato.fr/fsriver/) solltest du elasticsearch aber auch dazu nutzen können deine Dateien zu durchsuchen (mit etwas Aufwand inkl. Dateiinhalte).
    Frontend kannst du dir hier eins aussuchen: http://www.elasticsearch.org/g…y/current/front-ends.html
    Kibana das ich benutze ist wirklich nur für Logs geeignet, aber sowas wie Calaca sollte reichen.


    Für Autocomplete und "Meinten sie:" hat elasticsearch schon eingebaute Funktionen (http://www.elasticsearch.org/g…arch-suggesters-term.html und http://www.elasticsearch.org/blog/you-complete-me/)


    Wenn du was damit machst darfst du dann gerne mal ein paar Screenshots zeigen :cheers

  • Kenne für so Sachen auch nur elasticsearch. Wird glaub noch recht verbreitet eingesetzt.

  • Scheint aufwendig zu sein. Werde es aber in die Evaluation miteinbeziehen.



    Habe nun auch andere gefunden, aber bei gewissen ist man sich irgendwie nicht sicher, was die alles können da sie lieber schöne Grafiken machen wie fakten aufzählen.. manomann! :D

    Gaming: AMD Ryzen 5 2600X, MSI B450M, 32GB RAM, Sapphire RX6900XT Nitro+ SE, 4TB SSD, 10TB HDD, Win11, Samsung Odyssey G7 32" 1440p@165Hz
    Server: AMD Ryzen 5 3600, Gigabyte B450M4, Quadro P400, 16Gb RAM, 500GB SSD, Plex Encoder

    Storage: Intel i3 3220T, ASRock Z77 Pro4, 4Gb RAM, 111 TB Storage (Seagate Exos), Plex Storage

    Einmal editiert, zuletzt von CruSher ()