Überblick über das WaDoku-Projekt und statistische Daten dazu
Das WaDoku-Wörterbuch ist das mit großem Abstand umfassendste und aktuellste japanisch-deutsche Wörterbuch. Es enthält zurzeit (Mai 2008) über 110.000 Stichwörter und insgesamt knapp 260.000 Datensätze.
Ein Großteil der Daten sind also Ableitungen, Komposita, Verwendungsbeispiele, Beispielsätze, Sprichwörter und so weiter. Solche Datensätze sind per Datenbankrelation fest bestimmten Stichwörtern zugeordnet.
Eine besondere Schwierigkeit des Japanischen für Wörterbücher ist die große orthografische Varianz - also die Tatsache, dass dasselbe „Wort" auf bis zu zehn oder mehr unterschiedliche Weise geschrieben werden kann, die alle korrekt sind. Nur ein Teil dieser Varianten lässt sich durch klare Regeln erfassen. Das Projekt legt daher großen Wert darauf, die übliche Varianten in die Datei aufzunehmen, weil sonst Abfragen zu keinem Ergebnis führen, obwohl der gesuchte Eintrag eigentlich da ist bzw. Abgleich mit anderen Wörterbüchern erschwert wird. Für die 260.000 Datensätze gibt es knapp 350.000 unterschiedliche Schreibungen.
Es werden etwa 300.000 unterschiedliche Bedeutungen der japanischen Einträge erläutert und über 460.000 Übersetzungsvorschläge dafür angeboten.
Viele Online-Wörterbücher stellen einer Schreibung der Quellsprache genau eine Übersetzung der Zielsprache gegenüber. Wenn man einen solchen Ansatz auf die Daten des WaDoku-Wörterbuches übertragen würde, käme man auf über 730.000 solcher Paare.
Bei mehr als 60.000 Datensätzen ist das Fachgebiet der Einträge angegeben. Knapp 20.000 Datensätze verweisen auf andere Datensätze, z.B. weil diese Synonyme oder Antonyme sind, eine andere Aussprache der angegebenen Schreibung aufführen oder eine andere japanische Transkription eines Fremdwortes angeben. Je nach Datenformat sind diese Verweise als Sprungverweis anzuklicken.
Etwa 200 Datensätze verweisen auf Bilddaten. Unsere Bilddaten liegen im SVG-Format (Scalable Vector Graphics) vor und sind bei entsprechender Ausgabe ohne Qualitätsverlust beliebig vergrößerbar.
Für alle Datensätze gibt es Umschrift der Aussprache in japanischer Silbenschrift und in lateinischer Schrift. Lateinische Transkription ist in verschiedenen Stilen möglich. Die Kana-Umschrift ließe sich relativ leicht auch als Furigana (Ruby) darstellen.
Die Wörterbuch-Daten sind in verschiedenen Formaten und Versionen zugänglich - online z.B. unter <http://wadoku.de/>, als Download in verschiedenen Formaten für die Verwendung in bestimmten Wörterbuch-Programmen oder als Datenbank-Laufzeitprogramm. Es gibt vielfältige Kooperationen mit anderen Projekten. Die WaDoku-Daten werden etwa in JMdict <http://www.csse.monash.edu.au/~jwb/j_jmdict.html>, Papillon-Projekt <http://www.papillon-dictionary.org/>, Reading-Tutor <http://language.tiu.ac.jp/index_g.html>, w3dict <http://wadokujt.w3dict.com/> und POPjisyo <http://www.popjisyo.com/WebHint/Portal_e.aspx> verwendet
Da die Daten elektronisch vorliegen, ist es möglich, auch die deutsche Seite zu durchsuchen. Dadurch wird das Wörterbuch allerdings noch kein richtiges deutsch-japanisches Wörterbuch. Es war bislang zum Beispiel nicht die Absicht, den gesamten deutschen Wortschatz abzudecken. Japanische Nutzer werden weiter Informationen zur Grammatik, zur Aussprache oder zu Verwendungsweise deutscher Wörter vermissen.
Wir arbeiten daran, auf der deutschen Seite z.B. Ergänzungen vorzunehmen, die besonders für japanische Muttersprachler interessant sind, und wir versuchen, eine bessere deutsch Suche zu erreichen.
Beginn des Wörterbuch-Projektes im Frühjahr 1998 und Motivation dazu
Bei der Recherche zu seiner Dissertation über japanische Zukunftsforschung und Zukunftsplanung stand Ulrich Apel vor dem Problem, dass die existierenden japanisch-deutschen Wörterbücher die damit zusammenhängenden Themengebiete wie aktuelle Soziologie oder Zukunftstechnologien nicht abdeckten.
Das nach wie vor neueste und mit über 50.000 Stichwörtern halbwegs umfassende gedruckte japanisch-deutsche Sprachwörterbuch - das "Wörterbuch der deutschen und japanischen Sprache - Japanisch-Deutsch" von Robert Schinzinger et al., verlegt bei Sanshusha - ist bereits 1980 erschienen. Das bedeutet, dass Computertechnologie und andere moderne Technikfelder weitgehend fehlen - nicht unbedingt die besten Voraussetzungen für die Forschung über Japans Zukunft.
Die Originalfassung von Kinji Kimuras "Großes Japanisch-Deutsches Wörterbuch", erschien 1937. Das Buch wird seither ohne inhaltliche Veränderung gedruckt. Auch wenn es mit knapp 60.000 Lemmata etwas umfassender als das Schinzinger-Wörterbuch ist, ist es für Forschung über ein aktuelles Thema keine Alternative.
Bei japanisch-englischen Wörterbüchern ist die Situation nicht wesentlich besser. Einige mittelgroße Wörterbücher werden regelmäßig aktualisiert. Aber ein großes Wörterbücher wie das Shinwaei Daijiten von Kenkyusha erfuhr auch erst 2004 nach 30 Jahren eine komplette Aktualisierung. Zu diesem Zeitpunkt war das oben erwähnte Dissertationsprojekt schon längst erfolgreich abgeschlossen.
Ulrich Apel begann also zunächst ein Glossar für Terminologie der Zukunftsforschung anzulegen. Weil eine Textdatei nach sehr kurzer Zeit nicht mehr sonderlich befriedigend war, war der Umstieg auf das Datenbank-Programm FileMaker einer der wichtigsten Schritte zum heutigen Wörterbuch. Die legendär einfache und trotzdem mächtige Programmierung von Datenbanken mit dieser Software erleichterte Arbeit an den Daten und ermöglichte eine sehr einfache Veröffentlichung der Daten zum Download und als Online-Version.
1999 konnten Nutzer erstmals Laufzeit-Datenbanken von einem Server der Universität Osaka herunterladen, und es gab wenig später eine erste Online-Version der Datenbank. Im selben Jahr hat Ulrich Apel das Projekt auch auf dem deutschsprachigen Japanologentag vorgestellt.
Steigender Umfang und Popularität von Wadoku seit 2000
Im Jahre 2000 richtete Thomas Latka die Webadresse "www.wadoku.de" ein, die zunächst auf den von Ulrich Apel genutzten Server in Osaka verwies. Im Jahre 2001 wurde daraus eine eigene Wörterbuch-Seite mit SQL-Datenbank. Die Suche und Indizierung wurde optimiert, sowie die Möglichkeit geschaffen, bestehende Wörterbucheinträge zu kommentieren oder auch neue Einträge vorzunehmen. In den darauffolgenden Jahren gewann die Seite immer mehr an Popularität und hatte täglich mehrere tausende Suchanfragen sowie immer mehr Vorschläge für Neueinträge erhalten, die von einem Editorenteam überprüft werden. Im Jahre 2006 kam ein Forum und 2007 auch ein Wiki dazu, das die immer größer werdende Community dazu nutzt, um sich auszutauschen und die gemeinsame Arbeit zu koordinieren.
Bei den Japanologentagen 2002 und 2006 wurden neue Ergebnisse der Arbeit am Projekt vorgestellt.
Seit 2003 ist die Umschrift mit Markierungen versehen, um korrekte Lateinumschrift nach dem Hepburn-System zu ermöglichen. Seit 2005 konnten wir für einen großen Teil der Einträge den japanischen Tonakzent markieren. 2006 und 2007 wurde die gesamte Datei strukturell überarbeitet um bessere Suche und bessere Darstellung zu ermöglichen.
Vorbilder
Natürlich gibt es für das Projekt auch Vorbilder, insbesondere das von Prof. em. Jim Breen, Monash University, 1991 initiierte edict-Projekt, ein sehr umfassendes freies japanisch-englisches Wörterbuch. Im gleichen Daten-Format und unter dem Namen "jddict" gab es auch eine japanisch-deutsche Datei, basierend auf Wolfgang Hadamitzkys "Kanji und Kana", erschienen bei Langenscheidt. Unter dem Namen "jddict" findet man heute mitunter eine Untermenge des WaDoku-Wörterbuches, nämlich die Einträge, die sowohl in edict bzw. der multilingualen Version JMdict und WaDokuJT vorhanden sind (JMdict umfasst jedoch wesentlich weniger Datensätze als WaDokuJT). Weiter sind die Daten von Wolfgang Hadamitzkys Zeichenwörterbuch "Langenscheidt Großwörterbuch Japanisch-Deutsch" 1993 auch in einer elektronischen Version namens "MacSUNRISE KanjiBank" fürs Macintosh-Betriebssystem erschienen.
14 Comments
Anonymous
Wie wird das lange o mit dem Strich oben getippt? Welche Tastenkombination? DANKE IM VORAUS
Anonymous
http://wadoku.de/wiki/display/WAD/Makron-Eingabe Auch wenn das hier eigentlich nicht die richtige Seite für so eine Frage ist oo
Anonymous
kann man bei euch irgendwie mit einsteigen
ich denke wenn ich die möglichkeit habe die sprache irgendwie anzuwenden wäre es ein leichteres dies zu lernen.
gibt mir bescheid inwie fern eine möglichkeit bestünde
mfg
Anonymous
Wann wurde der Datensatz von WaDokuJT denn das letzte mal aktualisiert, bzw. in welchen Interval geschieht das?
Wörter wie 駐車券 finden sich darin (im Gegensatz zu Wadoku selbst) nicht.
Danke!
Anonymous
Als Datensatz ist das vorhanden, aber es gibt Probleme bei Programmierung bzw. neuen Markierungen. In der neuen Version, deren Test eigentlch bereits abgeschlossen ist, wird das auch angezeigt. Da sind es dann auch knapp 390.000 Datensätze.
Anonymous
Eine Testversion läuft jetzt unter https://wadoku.eu:10000/?query=%E9%A7%90%E8%BB%8A%E5%88%B8. Da wird der Datensatz gefunden und angezeigt. Ein Abgleich zwischen Daten von WaDoku.EU und wadoku.de ist jetzt abgeschlossen.
Anonymous
Die Programmierung wird jetzt auch verbessert. Deshalb die Testversion mit dem Port https://wadoku.eu:10000/.
Anonymous
Kann jemand mich auf die Quelle des Morenakzents, die in wadoku Projekt verwendet wird, verweisen?
wäre euch dankbar!
Anonymous
Hier erst einmal eine Kurzversion – eine Dokumentation zum Wörterbuch wird sicher in einiger Zeit noch folgen! Es gibt nicht eine Quelle sondern die Angaben beruhen auf einem Abgleich von verschiedenen Quellen; diese sind vor allem: Eigene Forschung (Mitarbeit bzw. Befragung von standardsprachlichen Informanten, sowie Arubaito von muttersprachlichen Tōkyōter Studierenden), EDR Japanese Word Dictionary, NHK Nihongo Hatsuon Akusento Jiten, Shinmeikai Nihongo Akusento Jiten, Shinmeikai Kokugo Jiten, Daijirin von Sanseido, Nihon Kokugo Daijiten, die vierte Ausgabe des Shin Waei Daijiten von Kenkyūsha (die fünfte Ausgabe gibt keinen Akzent mehr an). Bei unterschiedlichen Möglichkeiten bzw. Angaben wird normalerweise der ersten Version im NHK-Wörterbuch Vorrang gegeben. Die Daten auf WaDoku.EU enthalten auch mehrere mögliche Akzente. Die entsprechende Anzeige ist in Arbeit. Auf WaDoku.EU gibt es weiter für den Grundwortschatz auch Tondateien, die eine ehemalige Fernsehsprecherin für das Projekt eingesprochen hat. Das wäre eine weitere Referenz, da die Angaben beim Einsprechen auch noch einmal geprüft worden sind.
Anonymous
vielen vielen dank für die schnelle Antwort. Das ist echt beeindruckend. Kudos!
Anonymous
"JMdict umfasst jedoch wesentlich weniger Datensätze als WaDokuJT"
Is this really true? JMdict has 184,300 separate entries, Wadoku has around 120,000 (?). JMdict entries often have more readings/kanji/senses included than WaDoku entries.
Anonymous
WaDokuJT on WaDoku.DE seems to have more than 370,000 records/entries at the moment with more than 750,000 translation equivalents. About 140,000 records can be considered main entries, which printed dictionaries would give as head word. The other records are derivations, compounds, multiword expressions, examples of usage, example sentences, proverbs etc. These subentries are linked to their main entries via database relation. To my knowledge, JMDict doesn't make such an distinction and uses a different approach. The number of 120,000 entries for WaDoku, that you gave, might be either a rather old version or might be the subset of entries which have or had a corresponding entry in JMDict. WaDoku.EU may attach more importance to different writings. The corresponding data contains more than 600.000 different writings. Anyway, it might be interesting, to integrate better links to JMDict data in WaDoku and perhaps also the other way round.
Anonymous
It might be good to list these up to date numbers somewhere. On this very page, it says "110.000 Stichwörter"
Anonymous
No, it isn't true, and the sentence should really be removed. In the strictest technical sense it might be true that Wadoku has more entries than the JMdict file, but JMdict comes as a pair with the proper name dictionary file JMnedict, which is handled in the same database by the same team, and has by itself more than 700,000 entries. Wadoku on the other hand makes no such distinction between proper nouns and other words and probably has tens of thousands of such entries. You can argue over which approach is best, but it's still is rather disingenuous to claim that the other project is much smaller because it's split between two files.
Add Comment