Einträge löschen

Es werden viele Einträge der folgenden Art angelegt:

朝食を食べる
朝食に…を食べる
朝食をたくさん食べる

Sollten das wirklich alles separate Wörterbuch-Einträge sein?
Müssen diese Einträge überhaupt existieren?
Wenn ja, wäre es dann nicht besser, sie als Beispiel unter dem Eintrag 朝食 zu führen?
Wenn ja, gehören diese Beispiele dann in den Kommentarteil oder in das Feld "Deutsch" des Haupteintrages?

Ein anderes Beispiel:
Eintrag 47069 lautet 観念的
Eintrag 47070 lautet 観念的な

Welcher von beiden ist zu löschen?
Oder sollen beide stehenbleiben?

Ich habe ein wenig Hemmungen, Einträge zu löschen, weil das doch ein krasser Eingriff ins Wörterbuch ist...

Auswahl, was in das Wörterbuch aufgenommen wird, ist eine wichtige Frage. Da geht es um ganz Grundsätzliches. Nicht zuletzt dreht es sich darum, welche Philosophie man mit dem Projekt allgemein verfolgen will. Ich gebe weiter unten aber auch noch ein paar pragmatischere Antworten.

Es gibt bei elektronischen Wörterbüchern einmal die Philosophie: möglichst große "Wörter-bzw. Ausdrückeliste". Alles was existieren könnte, darf in die Wörterliste. Die Suche muss dann so intelligent sein, dass die User tatsächlich finden, was sie suchen. Das halb-kommerzielle englisch-japanisches Projekt namens Eijiro verfährt etwa so. Eijiro hat, glaube ich, 1,5 Mio. Datensätze.

So eine Datensammlung kann insbesondere für Maschinenübersetzungen sehr sinnvoll sein. Bei Eijiro ist beeindruckend, für was man alles eine Übersetzung findet. Problematisch ist jedoch, dass die Qualität und die Form der Einträge stark variieren, und dass man weiter, wenn man weniger Ausgefallenes sucht, mit Einträgen so zugeschüttet wird, dass man mit dem Suchergebnis kaum noch etwas anfangen kann.

Das Datenmodell von WaDoku.de verfolgt übrigens eine ähnliche Strategie. Es ist nur eine flache Datei, deren Einträge man durchsuchen kann. Datenseitig gibt es z.B. eigentlich Markierung, was als Schlagwort betrachtet werden sollte und deshalb wichtiger wäre als andere Einträge.

Ein anderer Ansatz ist der eines "Wörterbuches", der versucht, ein Wort in seinen verschiedenen Bedeutungen zu erfassen. Diese Bedeutungen werden dann durch sinnvolle ausgewählte Wendungen und Beispiele ergänzt.

Das ist der Ansatz, den die meisten allgemeinen Wörterbücher verfolgen, die man so kaufen kann. Bei 食べる taberu gibt es da also z.B. einmal die Übersetzung "essen" mit einem Beispiel wie etwa das erwähnte 朝食を食べる chōshoku o taberu = "frühstücken" etc. und dann die Übersetzung "von etwas leben" mit Beispielen wie "蓄えで食べていく" takuwae de tabete iku, = "von Ersparnissen leben". Den letzten Beispieleintrag findet man bei der Suche nach "食べる" übrigens nicht, weil es ja in einer konjugierten Form erscheint.

Man kann einen solchen Ansatz auch bei einem elektronischen Wörterbuch und mit einer Datenbank verfolgen. Es stellt allerdings sehr viel höhere Anforderungen an die Artikelautoren aber auch an die Programmierung.

Bei meiner FileMaker-Datei sind Haupteinträge bzw. Schlagwörter oder Lemmata mit entsprechenden Ableitungen, Zusammensetzungen, Verwendungsbeispielen und Beispielsätzen über eine Datenbankrelation miteinander verknüpft. Auch die EPWING-Version stellt die Daten entsprechend dar. Man könnte die Sortierung und die Darstellung sicher noch verbessern.

Bei WaDoku.de hat eine entsprechende Darstellung eines Schlagwortes mit seinen entsprechenden Untereinträgen bisher noch nicht geklappt.

Das WaDoku-Wörterbuch wird sich also irgendwo zwischen den Extremen "Wörterliste" und "Wörterbuch" befinden. Es liegt an uns, die entsprechenden Schwerpunkte zu setzen.

Bei einer Wörterliste findet man recht leicht Mitarbeiter; jeder der es schafft, japanischen Text in die Eingabemaske von WaDoku.de einzufügen, kann mitmachen und hat das Gefühl einen wichtigen Beitrag zu leisten. Wir bekommen schnell viele Einträge, es gibt eine prima Userbindung etc.

Wenn sich die Sache in Richtung "richtiges" Wörterbuch bewegen soll, wird es wesentlich schwieriger. Zunächst müsste die Programmierung darauf ausgelegt werden. Dann erhöhen sich die Anforderungen an die Artikelautoren recht dramatisch. Die Autoren müssten einen Überblick über die unterschiedlichen Bedeutungen eines Wortes haben, müssen sich darüber Gedanken machen, was ein sinnvolles Beispiel ist und müssen technisch in der Lage sein, eine Verknüpfung zwischen ihrem Untereintrag und dem Haupteintrag zu erstellen.

Ich persönlich wünsche mir, dass das Projekt mehr in Richtung Wörterbuch geht und würde mich vor allem über entsprechende Neuenträge freuen.

Das war jetzt die grundsätzliche Version. Jetzt einige pragmatische Hinweise:

Einträge am besten nur löschen, wenn sie offensichtlich falsch sind und wenn es unwahrscheinlich ist, dass jemand denselben Fehler wiederholt, sonst muss man das jedesmal wieder erneut korrigieren.

Ein Beispiel, wo ein Fehler bewusst in der Datei verblieben ist, ist etwa お酒落 für お洒落 o-share (mit 酒 sake statt 洒), weil man davon ausgehen kann, dass das in absehbarer Zeit wieder jemand fälschlich sucht und einen neuen Eintrag dazu anlegt.

Also: Lieber Einträge vorläufig z.B. als "[wenig nützlich]" oder "[falsch für wahrscheinlich . . . ]" markieren. Damit sie herausgefiltert werden können. Wir könnten uns dazu noch ein besseres Tagsystem ausdenken. Das kommt bestimmt noch.

Bei 観念的 und 観念的な ist das erste die "Wörterbuchform", das zweite die Form mit Partikel. Dass die Wörterbuchform nicht gelöscht werden sollte, versteht sich von selbst. Nach der Version mit Partikel werden User sicher auch suchen, also sollte auch diese nicht gelöscht werden. Am geschicktesten wäre es, wenn man der Datenbank beibringen könnte, jeweils nur eine Version anzuzeigen.

Bei den Einträgen zu 朝食 etc.: Das wären alles Untereinträge zu 朝食 und/oder 食べる. Bei 朝食を食べる gibt es eine besonders schöne deutsche Übersetzung "frühstücken", die man nicht unbedingt erschließen kann, wenn man weiß, dass 朝食 "Frühstück" ist und 食べる "essen". Das ist also ein Grund, warum das auf jeden Fall in die Datei gehört.

Die Version mit dem たくさん kann man problemlos übersetzen, wenn man die einzelnen Teile übersetzen kann. Das kann man also getrost als "[wenig nützlich]" markieren oder gar löschen.

Aus technischer und wirtschaftlicher Sicht ist es am besten, wenn man nur das pflegt, was man nicht automatisch generieren kann. So vermeidet man überflüssige Redundanzen, welche die Datenintegrität stören und den manuellen Pflegeaufwand erhöhen.

Deswegen bin ich dafür, dass man 観念的な löscht, und 観念的 markiert, dass es mit な gebraucht werden kann (was es ja jetzt schon ist, siehe Wordtype ダナ). Dann kann man die Suchlogik enstprechend anpassen, dass eine Suche nach 観念的な eben auch 観念的 findet, was ja sogar jetzt auch schon der Fall ist, wegen der automatischen Kompositasuche. Falls die Suchlogik in anderen Fällen noch nicht greift, dann muss ich das noch nachziehen. Ein Beispiel wäre klasse.

Ganz so einfach wird es wohl doch nicht werden, alles was mit ダナ gebildet wird, nur an einer Stelle zu pflegen.

"Wortart" ダナ weist auf ein Nominal-Adjektiv hin. Das sind ursprünglich Nomen, und sie werden in der Grundform, wenn möglich, als Nomen übersetzt. Mit ダ wird das prädikativ verwendet und mit ナ endlich als Adjektiv.

Mit der Endung …的 kann man normale Nomen in Nominal-Adjektive verwandeln. Diese Verwendung ist in der Übersetzungsliteratur nach der Landesöffnung aufgekommen. Weil ein Nomen in ein Adjektiv verwandelt wurde, kann man schlecht wie sonst als Nomen übersetzten. Das ist aber eine Ausnahme. Wenn man versucht, alle Ausnahmen abzufangen, ist man ziemlich beschäftigt und hat möglicherweise in der Zwischenzeit schon einiges gelöscht, was man eigentlich behalten sollte.

Ich bin wie gesagt, sehr dafür — wenigstens vorläufig — beide Versionen in der Datei zu behalten. Das hat auch Vorteile für Datenbank-Abgleich.

Wir müssen uns zur Anzeige von Haupt- und Untereinträgen grundsätzlicher Gedanken machen, wann und wie die angezeigt werden. Bei dieser Gelegenheit sollten wir uns dann auch diesem Problem widmen.

Nur zur Klärung eine Rückfrage an Ulrich:
Bist du tatsächlich dafür, dass man z.B. für
観念的な
観念的
im Wörterbuch zwei separate Einträge braucht?
In was unterscheiden sich die beiden Einträge außer dem な? Bedeutung?
Im Daijrin und Daijisen gibt es jeweils nur 観念的, was mir einleuchtet.

Oder habe ich da etwas mißverstanden?
Dass 観念 und 観念的 zwei unterschiedliche Einträge brauchen, steht ja außer Frage.

Es ist tatsächlich so gemeint, dass man meiner Meinung nach derzeit sowohl 観念的 als auch 観念的な in der Datei haben sollte, weil das formal verschiedene Dinge sind.

Das Kenkyusha Wörterbuch verfährt beispielsweise so, dass es 観念的 als Stichwort aufführt, aber keine Übersetzung dafür angibt. Die kommt dann bei dem Untereintrag 観念的な, und dieser wird als Ableitung des Haupteintrages als ～な dargestellt.

So etwas nur mittels Berechnung zu erstellen, scheint mir recht aufwendig. Es ist ja schließlich nicht der einzige Spezialfall, der uns begegnen wird. Man müsste denselben Eintrag sowohl als Haupt- als auch als Untereintrag behandeln, und das wo wir bei einer besseren Darstellung ohnehin noch nicht recht wissen, wie wir verfahren wollen.

Es wird noch eine ganze Reihe andere Fälle gebe, wo es bei Haupt- und Untereinträgen Redundanzen geben wird. Wir werden Regeln entwickeln müssen, wie damit verfahren wird, wenn Haupt- und Untereinträge gemeinsam dargestellt werden.

Ich bin dafür, zunächst zusammeln, was uns an Einträgen "in die Hände kommt". Wir müssen uns dabei merken, wo es Probleme und Redundanzen geben könnte. Wir versuchen in einem nächsten Schritt eine bessere Darstellung von Haupt- und Untereinträgen hinzubekommen und uns auf die wichtigsten/nützlichsten Beispiel zu beschränken. Bei diesem Schritt fallen für die Nutzeransicht Redundanzen heraus. In einem nächsten Schritt können wir uns dann überlegen, ob wir echte oder vermeintliche Redundanzen auch physisch in der Datei löschhen.

Ok, danke Ulrich für die Klärung.

Wenn ich dich richtig verstehe, sollte es dann irgendwann mal so sein:
- Haupteintrag 観念的 (ohne Translation)
- Untereintrag 観念的な (mit Translation)
- Referenz von Haupteintrag auf Untereintrag

Gilt diese Strutkur dann für alle (viele oder wenige?) Wörter, die auf 的 enden, dass man dies machen sollte?

Ich denke, dass ist ein gutes Beispiel wo wir uns über die zukünftige XML- bzw DB-Struktur klar werden können.
http://www.umwelt24.de/wiki/display/WAD/XML

Also denke ich, dass diese Diskussion sehr ergiebig sein kann, und es sich hier nicht nur um einen Einzelfall handelt.

Danke fürs geduldige Nachfragen! Offenbar konnte ich mich aber immer noch nicht ganz verständlich machen.

Derzeit sollte das folgendermaßen aussehen:

- Haupteintrag 観念的 (_mit_ Übersetzung)
- Untereintrag 観念的な (auch mit Übersetzung)
Der Untereintrag enthält eine Referenz auf den Haupteintrag

Wir wissen nicht, mit welcher Suche ein Nutzer auf einen Datensatz kommt. Möglicherweise hat er nur diesen einen Datensatz auf dem Bildschirm. Deshalb sollte jeder Datensatz aus sich selbst heraus verständlich sein. In anderen Worten: Auf Datensatzeebene sollte das Wörterbuch "zellulär" aufgebaut sein.

Wenn man Haupteintrag und Untereintrag gemeinsam anzeigt, hat man einen "anlogen" Aufbau. Redundanzen sind dann für den Nutzer tatsächlich störend, und wir müssen uns wirklich überlegen, wie wir damit verfahren. Dafür müssen wir wohl grundsätzlichere Regeln aufstellen.

Bei den Einträgen mit 的 kann man reltav leicht eine Regel aufzustellen. Etwas ähnliches gibt es aber z.B. auch, wenn der Haupteintrag gleichzeitig Abkürzung für den Untereintrag ist: 沢庵 takuan ist z.B. auch Abkürzung für 沢庵漬け (eingelegter getrockneter Rettich). Die Erklärung, was das ist, und warum das so heißt, genügt den Nutzern dann einmal.

Es gibt etwa 200 Haupteinträge mit 的 — also weniger als ein Promille der Einträge, und das dürfte auch nicht weiter zunehmen. Wenn man Regeln für die Ableitung mit na einführt, müsste man eigentlich gleichzeitig auch Regeln für die Ableitungen mit ni und evtl. auch da einführen. Wir sollten 的 als Kandidaten für eine Regel im Auge behalten und uns dem evtl. später wieder widmen.

Es läuft jedoch darauf hinaus, zu markieren oder unmarkiert zu lassen, welche Informationen für analoge Anzeige wichtig sind und welche für zelluläre Anzeige. Um das zu entscheiden, hätten wir am besten auch schon eine analoge Anzeige der Einträge.

Direkte Nachfrage: Heisst dass, die Übersetzung von
観念的
観念的な
ist nicht identisch?

- Wenn sie identisch wäre, würde ich sie nur einmal pflegen, und darauf verlinken.
- Wenn sie nicht identisch wäre, nur dann getrennt.

Zu Klärung: Wir diskutieren hier nicht die Suchlogik oder die Anzeige, sondern nur die Datenhaltung (also Tabellenstrutkur). D.h. ob zelluläre oder analoge Anzeige spielt ja keine Rolle.

Angaben zur Wortarten werde ich wie angekündigt ins Übersetzungfeld packen und nur noch für Haupteinträge pflegen. Diese Information würden im Datensatz von 観念的な fehlen bzw. nicht gebraucht.

Der Inhalt des Übersetzungsfeldes von 観念的 wird weiter zu einem späteren Zeitpunkt Tags enthalten, wie der Inhalt dargestellt werden soll, wenn der Eintrag mit seinem Untereintrag dargestellt wird oder wie der Eintrag dargestellt werden soll, wenn der Eintrag z.B. für ein Zeichenlexikon verwendet wird – ein Zeichenlexikon braucht möglichst konzise Einträge.

Auch insofern würde ich das nicht für identisch halten, weil es diese Tags im Datensatz für 観念的な nicht geben wird. Dieser Datensatz könnte jedoch – weil er speziell für ein allgemeines Sprachwörterbuch gedacht ist – ausführlicher sein.

Bei allen Überschneidungen halte ich die formalen und inhaltlichen Unterschiede für wichtig genug, um zwei Datensätze zu pflegen.

Gibt es eigentlich schon weitere Ueberlegungen, wie man Henkan-Misses usw. markiert?

Bei dem Beispiel fuer o・share z.B. wuerde ich mir einen Verweis wuenschen, welches die korrekte Version ist. Sonst wuerde sich diese ja eigentlich falsche Variante wohl weiterverbreiten. Eventuell sollte man diese falschen oder dubitativen Eintraege in einer anderen Farbe anzeigen.

Dan wrote:Gibt es eigentlich schon weitere Ueberlegungen, wie man Henkan-Misses usw. markiert?

Ja, gibt es. Allerdings ist das auch noch nicht endgültig.

Eigentlich müsste es so sein, dass die falsche Schreibung im Index steht und gefunden wird, aber normalerweise nicht angezeigt wird. In der neuen Datenversion gibt es ein eigenes Feld für eine kompakte Anzeige der japanischen Schreibung. Da kommt dann die "falsche" Version natürlich nicht vor.

Dann habe ich in meinen Daten eigentlich auch noch ein Feld für Kommentare. Dort steht z.B. als Kommentar, dass お酒落 eine häufige falsche Schreibung ist.

Optimal wäre natürlich eine eigene direkte Markierung der falschen Schreibung. Dabei gäbe es noch mehr, was man bei den indizierten Schreibungen markieren könnte bzw. markieren sollte, etwa Ateji, Schreibung, bei der Nicht-Toyo-Kanji durch Kana ersetzt ist, Kana-Schreibung, bei der es um einen biologischen Terminus geht, Okurigana-Variante etc. Wahrscheinlich kann man da einiges automatisch markieren, trotzdem macht das Arbeit und kostet Zeit. Außerdem muss man das erst einmal gründlich durchdenken.

Es gibt jetzt bereits eine Markierung für viele Ateji im Japanisch-Feld -- nämlich "{ir.}" hinter der entsprechenden Schreibung -- z.B. 田舎 {ir.}; いなか. Mein pragmatischer Vorschlag wäre jetzt, bis wir eine bessere Lösung haben, bei häufigen falschen Schreibungen entsprechend zu verfahren und in geschweiften Klammern "{häufiger Fehler}" zu schreiben.