Wadoku.de Forum
  [Search] Search   [Recent Topics] Recent Topics   [Hottest Topics] Hottest Topics  
[Register] Register /  [Login] Login 
Messages posted by: dokuwajiten
Forum Index » Profile for dokuwajiten » Messages posted by dokuwajiten
Message
... im Moment eher mau, da ich beruflich ziemlich eingespannt bin, und mich derzeit nicht viel um die Pflege (also sowohl Online, als auch vor allen Dingen Pflege der Einträge). Die Plattform existiert nach wie vor, und ist online und benutzbar.

http://www.dokuwajiten.de

Ich werde mal schauen, ob ich in nächster Zeit finde einen SQL Dump zu machen, wobei ich dazu sagen muss, dass sich editorisch halt nicht so viel geändert hat...
Ricky wrote:Aber in Wadoku kann man doch auch nach deutschen Wörtern suchen. Kann man den export in Edict/epwing nicht einfach so machen, dass da auch beides funktioniert?
Oder - falls nicht (sry, hab mir die spec zu beiden noch nicht angeguckt) - einfach eine zweite Export-Version erstellen, die dann in die andere Richtung funktioniert?

Wenn ich nebenbei in ferner Zukunft mal Zeit habe, werde ich das auch selbst mal versuchen, falls es bis dahin nichts gibt.


Bevor Du jetzt völlig neu anfängst, erlaube ich mir mal hinzuweisen, dass
http://www.dokuwajiten.de/
durchaus funktioniert, auch wenn bisher nur als Weboberfläche, und wenn auch lange nicht ein Umfang wie bei wadoku erreicht ist.

Ein Dump der Datenbank nach XML ist in Arbeit, und ich hoffe, daß sich dann freiwillige finden, die das ganze weiterkonvertieren.

Eigentlich war geplant, das ganze auch irgendwann mal nach wadoku.de rückzuportieren, aber zeitlich kriege ich das im Moment einfach zeitlich nicht hin, SpringMVC zu lernen und verstehen...
Ich habe die Strukturen jetzt dementsprechend angepaßt. Also z.B.

Student
http://www.dokuwajiten.de/dokuwa/web/index.php?id=27840

bzw.

essen
http://www.dokuwajiten.de/dokuwa/web/index.php?id=35147

Die Darstellung der Einträge und das Layout der Eingabeformulare sind momentan noch nicht so optimal; das wird später noch geändert...
Auch wenn ich den Link auf Pons eher so lese, als wären das zwei separate Einträge, so verstehe ich doch die Problematik.

Vielleicht ist es am besten, wenn ein Eintrag nicht direkt Übersetzungen enthält, sondern einen grammatikalischen Kontext. Also etwa so:

Eintrag
- Aussprache
- weibliche Form
- Verbkonjugation
- Links ...
- 1 bis n "Grammatischer Kontext"

Grammatischer Kontext
- männlich/weiblich
- Adjektiv/Adverb
- transitiv/intransitiv/reflexiv
- +sein/+haben
- 1 bis n "Übersetzungen"

Übersetzung
...

so kann man dann sämtliche diskutierten Dinge zusammenfassen, auch weibl. männl.

Student
- männliche Form:
1.) studierende Person
2.) ein männlicher Student
- weibliche Form
1.) eine weibliche Studentin

fliegen
- transitiv +hat
1.) er hat ein Flugzeug geflogen
2.) er hat jemanden irgendwohin geflogen
...
- transitiv +sein
1.) er ist ein Looping geflogen
...


Gibt es außer für m/w, adj/adv, trans/intrans/refl und sein und haben noch mehr grammatische Strukturen, in der ein Wort so unterschieden werden muss?
Dan wrote:
Allgemein:
Synonyme/Antonyme sollten per Relation realisiert werden.
Eigentlich müsste man mit Bedeutungen, die Übersetzungen enthalten, arbeiten, so dass man für eine Bedeutung mehrere Übersetzungsmöglichkeiten angeben kann.


Da stimme ich vollkommen zu. Bisher mache ich es so, daß ich Einträge mit gleicher deutscher Bedeutungserklärung und gleichen Tags bei der Ausgabe gruppiere. Das sollte aber, wie Du ganz richtig sagst, in der Datenbanklogik enthalten sein. Ich schlage folgendes vor:

Bedeutung 1
- deutsche Erklärung/Stichwort
- Tags
- Haupteintrag Japanisch
- Lesung Japanisch
- Liste von Synonymen
- (evtl.: Liste von Antonymen)
- Verwendungsbeispiele zu dieser Bedeutung

Ein Synonym ist dann ein japanisches Wort + Lesung

Alternativ könnte man auch statt Haupteintrag Jap+Lesung und Liste an Synonymen einfach nur eine >1 Liste an Synonymen dort eintragen.
Ich mag obiges Modell aber mit einem "Haupteintrag" ("im Zweifel ist es das!").

Bei deutschen Synonymen ist vielleicht eine Verlinkung auf den anderen Beitrag angebrachter.

Dan wrote:
Zu Nomen:
Vielleicht ist es zweckmäßig männliche und weibliche Formen in einem Eintrag zusammenzufassen, z.B. Student/Studentin.


Ich denke, es sollten zwei Einträge sein; aber jeweils auf den anderen linken, bzw. die jeweils andere Form sollte vermerkt sein.

Denn im Deutschen haben männliche Worte oft (auch wenn das vielleicht von manchen nicht als PC angesehen wird bzw. da Genderdebatten da sind) oft zweierlei Bedeutung: Einmal die genderneutrale, und eine sehr geschlechtsspezifische. Bei der weiblichen Form fehlt die genderneutrale Bedeutung dann oft. Also als Beispiel:

Student
- eine studierende Person 学生
- ein (explizit) männlicher Student 男子学生

Studentin
- eine weibliche Studentin 女子学生

Bei nur einem Eintrag sieht das dann irgendwie komisch aus:

Student(in)
Bedeutung 1: eine studierende Person 学生
Bedeutung 2: ein (explizit) männlicher Student 男子学生
Bedeutung 3: eine weibliche Studentin 女子学生 (???)

Das Langenscheidt DaF z.b. schreibt dann deswegen (?) Bedeutungen 2 und 3 nicht explizit hin:
Student(in)
Bedeutung: eine studierende Person

Ich finde das problematisch, denn dann denken Japaner möglicherweise: Ist es eine Frau=> Studentin, ist es ein Mann => Student.
Dabei geht dann unter, daß man auch eine weibliche Studentin oft "Student" nennen darf.

Außer vielleicht, sie studiert Politik oder Sozialpädagogik. [1]


Nichtsdestotrotz sollte die weibliche Form bei männlichen, und die männliche Form bei weiblichen Einträgen vermerkt werden. Das Crown dokuwa macht es in etwa so:

Student (weibl Form: siehe Studentin)
大学生
(ein paar Beispiele ...)

Studentin (siehe auch: Student)
女子学生

Dan wrote:
Die Genitivform sollte noch mit aufgenommen werden.


wird gemacht.

Dan wrote:
Die Verwendung mit Genitiv/Dativ/Akkusativ kann sich nach der Bedeutung richten und ist in der bisherigen Form vielleicht nicht sehr hilfreich.

Ack. Vielleicht ist es besser, das einfach raus zu nehmen. Alle Wörterbücher, die ich bisher gesehen habe, machen das über Beispiele. Manchmal wird dann ein kleiner Marker gesetzt (2,3,4). Also z.B. "an etwas(3)..."

Dan wrote:
Möglichkeit der Auswahl der Perfektbildung mit 'ist' oder 'hat', eventuell sogar je Bedeutung.

existiert bereits (+sein) bzw. (+haben), ist vlt. etwas unglücklich formuliert.

Je nach Bedeutung ist imho nicht nötig:
1.) gibt es afaik solche Verben gar nicht so häufig
2.) Wenn es sie gibt, unterscheidet sich die Bedeutung und die Verwendungsweise meist deutlich.

Ich habe das Flugzeug geflogen vs. Ich bin mit dem Flugzeug geflogen.

Gleiches gilt imho für reflexiv vs. transitiv. Z.b. listet das Crown Dokuwa drei Einträge für fliegen

1.) trans. + haben
"Ich habe einen Hubschrauber geflogen"
2.) trans + sein
"Ich bin einen Umweg geflogen"
3.) intransitiv + sein "Der Schmetterling fliegt"

1.+2. könnte man eventuell noch in einen Eintrag gruppieren; imho ist es aber besser, so etwas jeweils als getrennte Einträge aufzufassen, anstatt zu versuchen, all dies unbedingt in einem Eintrag unterzubringen...
Oder?

Dan wrote:
Hinweis, schwaches oder starkes Verb.

Wenn die Konjugation des Verbes angegeben ist, wahrscheinlich nicht so wichtig.
Werde ich trotzdem hinzufügen.

weiterhin hinzufügen werde ich niremori's Vorschlag der Verlinkung auf daijirin; außerdem fehlt noch ein tag für dialekte (bisher können nur varianten getaggt werden, nicht aber der eintrag selbst)

Alles wahrscheinlich nicht vor WE.

[1] eine große Entschuldigung an alle Politikstudentinnen und Sozialpädagogikstudentinnen an dieser Stelle.
Niremori wrote:
Mir ist nicht klar, welche Zielgruppe DOKUWA im Blick hat. Auch im Abschnitt 'Was ist das Ziel von DokuWa?' steht nichts dazu.


Über: DokuWa richtet sich ausdrücklich sowohl an japanische, als auch an deutsche Muttersprachler.

Auch wenn die Situation im Bereich "Dokuwa's für deutsche Muttersprachler" sicherlich noch viel problematischer ist als im
Bereich "von Japanern für Japaner" sehe ich absolut keinen Grund, warum man sich auf die Gruppe der deutschen Lernenden
beschränken sollte. Und selbst wenn die Verlage so langsam aufwachen, und Dokuwas von Japanern für Japaner so langsam
auch ihren Weg in elektronischer Form auf Mobilplatformen finden (auf z.B. Android afaik bis jetzt nicht), ist ein _freies_
Wörterbuch doch Selbstzweck und Begründung genug.

Niremori wrote:
Dafuer sollte der japanische Eintrag umfangreicher, d.h. benutzerfreundlicher gestaltet werden (z.B. ob man ~を、~に、~で verwendet).


Sind - ähnlich wie deutsche Präpositionen - Informationen zur Verwendung mit ~を、~に、~で nicht am Besten erklärbar
in Verwendungsbeispielen?

Welche Informationen würdest Du denn gern auf welche Art strukturiert im Eintrag sehen wollen?

Bedenke auch, daß es sicherlich kein Problem ist, die japanischen Einträge mit der Suche auf
Wadoku zu verknüpfen...

Niremori wrote:
Verwendungsbeispiele sind notwendig, allerdings sollten sie gleich nach der jeweiligen Uebersetzung stehen.


Offenbar war meine Formulierung bzw. die Eingabemaske nicht eindeutig genug. Das bisherige Schema sieht so aus:

Übersetzung 1
- Verwendungsbeispiel 1.1
- Verwendungsbeispiel 1.2
- Verwendungsbeispiel 1.3
...
Übersetzung Nr 2.
- Verwendungsbeispiel 2.1
- Verwendungsbeispiel 2.2
...

Niremori wrote:
Zum Thema Nutzbarkeit:
Die Verben 'sagen', 'lesen', 'essen', 'stehen', 'legen' und viele andere elementare Worte fehlen.
Wenn ich nach 'reisen' suche, kommt zuerst 'Reißen', dann 'reisen' und 'Reisen (走行!)'



Ich sollte vielleicht genauer erklären, was bisher geleistet ist:
- Je spezieller/präziser ein Wort ist, desto einfacher war die Umkehr, da die Gegenrichtung meist auch nur aus einem Match besteht.
- Wenn kein präziser Match gefunden, so wurde das Wort nicht mit aufgenommen. Das erklärt das Fehlen von vielen sehr universell
verwendbaren Verben.
- Wenn (nach Ausfiltern von geringen Worthäufigkeiten) eine 1:1 Relation bestand, habe ich nicht weiter korrigiert. So blieben Fehler
wie 走行
- Wenn nach der Umkehrung eine 1:n Relation bestand, so habe ich den Eintrag korrigiert - ich will dabei aber gar nicht behaupten, daß
die Einträge danach immer perfekt geworden sind.

Es bleibt also durchaus noch einiges zu tun, keine Frage.

Niremori wrote:
Wie wird das 'ß' in der Suche behandelt?


Auf technischer Seite werden Umlaute wie Nicht-Umlaute (also z.B. 'ä' wie 'a') und das 'ß' wie ein 's' behandelt.
Zur Diskussion stelle ich hier auch gleich mal das Design der Einträge/Datenmodellierung

So ein Wörterbuch lebt davon, daß sich auch "normale" Lerner beteiligen. Je mehr
Komplexität einem Nutzer bei der Eingabe eines neuen Eintrags abverlangt wird,
desto höher ist die Hürde einen Beitrag zu leisten.
Auf der anderen Seite nutzt niemand ein Wörterbuch, bei dem essentiell wichtige
Informationen fehlen. Diese Informationen sind wiederum für japanische (Verbdeklinationen)
und für deutsche Muttersprachler (Furigana) unterschiedlich.

Nachdem ich mit Dan per PN sowie einem japanischen Muttersprachler ein wenig diskutiert habe, und
einige kommerzielle Dokuwas und Deutsch-als-Fremdsprache Wörterbuücher gelesen habe, sieht das
Design derzeit so aus:

ein Eintrag hat
- ein deutsches Schlagwort
- eine Aussprache in IPA
- eine Info zur Wortart (Nomen Verb Adjektiv Adverb Präposition Konjunktion Interjektion)
- bei trennbaren, zusammengesetzten Verben und Komposita: die Worttrennung
- bei Nomen: Genus, und ggf. Pluralform bzw. Kategorisierung als Pluralwort oder Singularwort
- bei Verben: Verlaufsform, Wortstamm Präteritum sowie Partizip Perfekt
- weiterhin bei Verben: Kategorisierung intransitiv, transitiv, reflexiv, Verwendung mit sein oder haben
- Marker für Verwendung mit Genitiv, Dativ und Akkusativ,
- weitere Kategorie-Tags: altertümlich, Anatomie, Architektur ... Zoologie
- 0 bis n Schreibvarianten
- eine Schreibvariante hat 0 bis n Tags: Deutsch, Schweiz, Österreich, alte Rechtschreibung, neue Rechtschreibung
- 0 bis n Links auf andere Einträge
- ein Link hat eine Nummer, die auf den anderen Eintrag zeigt, sowie eine kurze Erklärung

- 1 bis n Übersetzungen

eine Übersetzung hat
- ein japanisches Wort
- eine Lesung in Hiragana
- (optional) eine deutsche Bedeutungserklärung
- Kategorie-Tags (wie oben): altertümlich, Anatomie, Architektur ... Zoologie
- 0 bis n Verwendungsbeispiele

ein Verwendungsbeispiel hat
- einen kurzen Text auf Deutsch
- die japanische Übersetzung
- die Lesung der japanischen Übersetzung

Das technische Design ist derzeit (hoffentlich) so gestaltet, daß man auch in Zukunft das Design flexibel
mit weiteren Relationen erweitern kann.

Bei einer Suche werden derzeit Schreibvarianten und Deklinationsformen ("gelaufen") mitberücksichtigt.

Ein paar Begründungen bzw. Schwierigkeiten

- Warum Kategorien sowohl für den Eintrag als auch für die Übersetzung? Reicht es nicht aus, nur
die Übersetzungen zu taggen? Imho nicht:

Tags für die Übersetzungen sind notwendig. Bsp:
Depression
Übersetzung 1: {Medizin} 鬱病
Übersetzung 2: {Ökonomie} 不況

Problematisch wird es aber, wenn man einen Tag braucht, um das deutsche Schlagwort zu kennzeichnen:

gülden {altertümlich}
Übersetzung 1: 黄金の

Würde man nur Tags für Übersetzungen haben, wäre für deutsche Muttersprachler nicht klar,
ob {altertümlich} sich auf gülden bezieht, oder auch auf die Übersetzung 黄金の

- Wozu die deutsche Bedeutungserklärung?

Kategorien-Tags reichen nicht aus, um verschiedene Bedeutungen voneinander abzugrenzen.
Hauptsächlich ein Problem für deutsche Muttersprachler, weniger für japanische.
Bsp:

Ablauf
Übersetzung 1: 経過[けいか] dt. Bedeutungserklärung: "Planung"
Übersetzung 2: 流出[りゅうしゅつ] dt. Bedeutungserklärung: "Wasserablauf" oder "Abfließen"

Natürlich können auch einfach mehrere japanische Synonyme dort stehen. Mit oder ohne
deutsche Bedeutungserklärung. Also z.B.

Geld
Übersetzung 1: 金銭
Übersetzung 2: 通貨

Wobei ein erklärendes deutsches Synonym als Bedeutungserklärung fast immer nützlich ist imho.

- Warum nicht immer die Worttrennung mit angeben?

Worttrennungen für alle Wörter sind natürlich auch nicht schädlich. Aber nach
Rücksprache für japanische Muttersprachler nicht sonderlich interessant.
Problematisch sind für Japaner im Wesentlichen zusammengesetzte Verben, z.B.

ablaufen -> ab|laufen bzw. läuft ab.

sowie längere Komposita.
Donau-dampf-schiff ... ihr wisst schon

gerade bei letzterem ist es sogar eher hinderlich, wenn alle Trennungen
dort stehen (Do-nau-) ..., da die einzelnen Teile des zusammengesetzten Wortes
schwieriger zu identifizieren sind.

- Marker für Verwendung mit Genitiv, Dativ und Akkusativ?

sind zunächst nur gedacht, damit man generell Suchanfragen machen kann a la
"suche alle Verben, die mit Genitiv verwendet werden"
Die deutsche Sprache ist imho zu komplex, als das man generell die Verwendungen
von Worten strukturiert abbilden kann. Dazu sollen die Verwendungsbeispiele dienen.

- Verlaufsform

z.B. laufen -> läuft
Ist afaik überflüssig in dem Sinne, daß die Verlaufsform aus dem Infinitiv strukturiert
abgeleitet werden kann, aber andererseits für Japaner sehr praktisch.

Nicht alle Infos sind bei existierenden Einträgen mit Daten gefüllt, aber ich denke, daß sollte
das Ziel sein. Manche kann man vlt. auch in Zukunft automatisiert aus existierenden Quellen (ispell/aspell)
Infos hinzufügen.

Wer Anmerkungen hat, bitte posten. Nach vielem Ausprobieren und hin- und herändern bin ich
jetzt hier angekommen. Auch wenn ich nicht wirklich vorhabe, das Design von Grund auf neu zu machen,
sind doch sicherlich noch einige Details zu verändern. Daher sind konstruktive Vorschläge
sehr willkommen.
Planungen für ein DokuWa gibt es ja schon seit langem, siehe z.B.

http://www.wadoku.de/forum/posts/list/129.page

Nach etwa einem halben Jahr Arbeit ist jetzt

http://www.dokuwajiten.de

auf einem Level, wo ich die Seite öffentlich zugänglich machen kann. Es ist aber alles noch beta und zum Teil ungetestet. Ich freue mich über Bugreports, Verbesserungsvorschläge und Kritik, auch wenn ich nicht versprechen kann, all die Dinge zügig umzusetzen, da privat und beruflich in der nächsten Zeit einiges ansteht.

Nähere Infos zum Projekt gibt es auch hier:
http://www.dokuwajiten.de/dokuwa/web/uber.php

--
vlt. noch etwas ausführlicher zur Entstehung:
Zunächst habe ich die Daten aus Wadokku.de mit frei verfügbaren japanische Worthäufigkeitslisten abgeglichen. Danach habe ich die Daten aus wadoku.de in die Richtung Deutsch->Japanisch umgedreht. Dabei habe ich nur exakte Hits der Übersetzung berücksichtigt (Zum Beispiel gibt es den Eintrag すっかり承知している mit der Übersetzung „über etwas vollkommen Bescheid wissen.“ Obwohl „etwas“ in der Übersetzung vorkommt, ist das sicherlich kein Kandidat für die deutsche Übersetzung von „etwas“).

Weiterhin nicht berücksichtigt für potentielle Übersetzungen wurden Wörter, deren Worthäufigkeit im Japanischen zu gering ist, um historische Übersetzungen, oder falsche bzw. ungewöhnliche Schreibweisen auszuschließen. Natürlich wurden in diesem Prozess auch viele sinnvolle Übersetzungen ausgeschlossen.

Übrig blieb ich mit einer Liste von ca. 35.000 Einträgen. Trotzdem waren viele dieser Einträge nicht brauchbar. Um ein Beispiel zu nennen, ein Resultat dieser Konvertierung war
Sache{f}/ん[ん]/奴[やつ]/訳[わけ]/案件[あんけん]/物[もの]/モノ[もの]/実 物[じつぶつ]/事故[じこ]/事柄[ことがら]/事項[じこう]/用[よう]/問題[もんだ い]/物事[ものごと]/事[こと]/物品[ぶっぴん]/

In einem Zeitraum von etwa vier Monaten bin ich diese generierten Übersetzungen manuell durchgegangen, und habe die Einträge entsprechend gekürzt. Danach habe ca. drei Wochen lang ein rudimentäres PHP-Interface um eine MySQL Datenbank geschrieben, das Resultat ist dokuwajiten.de
------


Die derzeitigen 35.000 Einträge sind zwar noch nicht besonders viel, und es gibt natürlich auch noch einige ungenau bzw. falsche Einträge - ich hoffe aber der Umfang reicht trotzdem, damit das Projekt so gerade an der Schwelle zur Nutzbarkeit startet.

------
TODO:
1.) Portierung
2.) Datenmodelllierung

zu 1.)
Ich denke es wäre sinnvoll - und nach ein paar PN-Wechseln mit Dan sieht er das glaube ich genauso - dokuwajiten.de in wadoku.de zu integrieren, um von der gewachsenen Infrastruktur und vom Knowledge von wadoku.de zu profitieren.
Da das aber auf eine komplette Neuimplementierung und eine Menge Arbeit hinausläuft (ich bin mit Java für Webprogrammierung nicht sonderlich vertraut) , sehe ich das momentan als mittelfristiges Ziel. Steht zwar ganz oben auf der todo-List, aber mal schauen, wie schnell wir dabei vorankommen. Bis dahin sollte bzw. muss die derzeitige dokuwajiten.de-Platform (im Moment recht wildes PHP, mein ehemaliger Supervisor würde es wohl als kitanai bezeichnen ausreichen.

zu 2.) Im Moment kann man die Struktur noch relativ einfach verändern. Auch wenn das Design schon jetzt relativ flexibel ist, gibt es sicherlich noch hier und da etwas zu verbessern. Im nächsten Post stellte ich daher einmal grob dar, wie derzeit ein (perfekter) Wörterbucheintrag aussehen soll.
 
Forum Index » Profile for dokuwajiten » Messages posted by dokuwajiten
Go to: