Volltextsuche

Wie kriegen wir eine effiziente und schnell Volltextsuche hin?

Beispiel: Jemand sucht nach allen Einträge mit dem Ausdruck 仕事

Folgende Möglichkeiten der Suche gibt es:

LIKE-Suche: LIKE mit führendem Wildcard, also z.B. LIKE '%仕事%'
wohl die einfachste Variante aber doch sehr prozessor- und speicherlastig.
Token-Suche: Vorherige Indizierung bestimmter bzw. möglichst vieler Tokens. Welche Möglichkeiten gibt es auf den Tokens zu suchen?
- A: LIKE ohne führendes Wildcard aber mit der Suche auf allen automatisch berechneten Tokens also z.B. LIKE '仕事%'
  das wäre wie bisher, oder? auf alle Fälle sollte noch die Suche am Ende möglich sein also LIKE '%仕事'
- B: mittels SearchEngine wie z.B. Lucene
  eine interessante Alternative, ist nur die Frage, wie das mit japanisch klarkommt.
  Für deutsch könnte man auch problemlos die Volltextsuche von mysql benutzen, die nicht mit japanisch klarkommt.

Vor- und Nachteile?

LIKE ist möglichst zu vermeiden, da die Suche ineffizient ist
besser wäre ein Volltextindex, welcher aber auch japanischtauglich sein muss

Eine Idee wäre vielleicht noch, einen Index mit allen Teilstrings aufzubauen. In etwa wie folgt, wenn man wie gehabt alles mit '仕事%' durchsucht. Also für 機械効率 enthält der Index dann

機械効率
械効率
効率
率

Und für die Endsuche nochmal das ganze andersrum. Das frisst natürlich viel Speicher, darum muesste man mal schauen, wie gross und wie performant das Ganze ist.
altes Thema im Forum dazu

Wadoku

Inhaltsverzeichnis

Zuletzt aktualisiert

Untergeordnete Seiten

Wie kriegen wir eine effiziente und schnell Volltextsuche hin?

Folgende Möglichkeiten der Suche gibt es:

Vor- und Nachteile?