Author |
Message |
|
Dan
Joined: 24/05/2006 16:58:45
Messages: 1285
Offline
|
Hallo liebe Wadoku-Nutzer!
Oft nachgefragt und jetzt endlich in greifbarer Nähe ist nun eine EDICT(2)-Version [1] zum Testen erschienen.
Diese Daten wurden direkt aus dem aktuellen Datenbestand unserer kommenden Wadoku-Version erstellt, was es uns nach Ausmerzen der Kinderkrankheiten erlauben wird, regelmäßige Schnappschüsse zu veröffentlichen.
Es ist einmal die traditionelle EDICT-Version [2], die mit den meisten (utf-8-)kompatiblen Programmen funktionieren sollte und eine kompaktere EDICT2-Version [3].
An dieser Stelle gleich eine Warnung:
Es ist damit zu rechnen, dass strukturelle Fehler enthalten sind. Die Nutzung erfolgt also auf eigene Gefahr.
Falls ihr Fehler findet, meldet diese bitte hier unter diesem Thema.
Viel Spaß beim ausgiebigen Testen.
Update 9.01.2011
Eine neue Version ist verfügbar unter den angegebenen Links.
[size=10] [1] Informationen zum EDICT(2)-Format
[2] EDICT-Format (UTF-8 kodiert)
* http://www.wadoku.de/wiki/display/WAD/Downloads+und+Links
[3] EDICT2-Format (UTF-8 kodiert)
* http://www.wadoku.de/wiki/display/WAD/Downloads+und+Links
|
無知の知 |
|
|
|
Böser Wolf
Joined: 30/03/2009 21:53:04
Messages: 3
Offline
|
Hallo Dan,
ich hab vorhin mal versucht, die EDICT2-Version zu parsen.
Dabei ist mein kleines Programm über ca. 150 Zeilen gestolpert, die noch nicht so ganz OK ausssehen.
Eine Liste der betroffenen Einträge kannst du hier herunterladen.
|
|
|
|
Dan
Joined: 24/05/2006 16:58:45
Messages: 1285
Offline
|
Danke für die Rückmeldung, ich sehe auch schon ein paar Dinge, die sich relativ leicht beheben lassen.
Problematisch sind aber auch die Einträge in denen ein "/" Teil eines Wortes ist, z.B. "OS/2" .
|
無知の知 |
|
|
|
Böser Wolf
Joined: 30/03/2009 21:53:04
Messages: 3
Offline
|
Du könntest das "/" ja beim Export durch ein ähnliches Zeichen ersetzen, z.B Unicode U+FF0F "/"
|
|
|
|
Dan
Joined: 24/05/2006 16:58:45
Messages: 1285
Offline
|
Ja, das wäre schon mal eine Idee. Mal schauen, was sich da machen lässt.
|
無知の知 |
|
|
|
Haf
Joined: 30/05/2006 23:30:38
Messages: 242
Location: Karlsruhe, ドイツ
Offline
|
Lassen sich solche Zeichen in dem Format denn nicht maskieren?
|
現実は聞いたよりももっと悲しい。 |
|
|
|
Böser Wolf
Joined: 30/03/2009 21:53:04
Messages: 3
Offline
|
Die Dokumentation zum EDICT-Format sagt dazu lediglich:
do not use the "/", "[" or "]" characters except in their separating roles.
Ich vermute daher, dass es da keine "offizielle" Maskierung gibt, mit der es dann auch in allen Readern funktioniert.
|
|
|
|
yomo
Joined: 27/03/2009 10:05:03
Messages: 1
Offline
|
Zunächst vielen Dank für die Erstellung des files. Nach meiner Erfahrung kann es von robusten readern , so wie es ist, schon verwendet werden. Ich habe, wie schon vor 6 Jahren, daraus für anspruchsvolle reader eine gereinigte Version erstellt, indem ich einfach alle falsch kodierten Einträge gelöscht habe. Sie waren alle nicht " systemrelevant ", also für deutsche Benutzer unnötig. Sollte Interesse bestehen, stelle ich gerne meine Version über das Forum zur Verfügung.Gruß yomo
|
|
|
|
syslock
Joined: 13/04/2010 22:37:07
Messages: 2
Offline
|
Hallo an Alle,
ich hab mal den EDICT2-Dump genommen, mit einem kleinen Python-Script durch die Mangel gedreht und daraus eine indizierte sqlite-Datenbank gemacht, die von dem Sprachlernprogramm für Nintendo DS genutzt werden kann, das ich zur Zeit entwickle. Das Programm ist eigentlich für Chinesisch gedacht, aber relativ flexibel und erweiterbar konzipiert, sodass man es sicherlich auch für Japanisch gut verwenden kann, so man die Muße hat sich Übungstexte und/oder sonstiges Lehrmaterial zusammen zu suchen und in das entsprechende Format zu bringen (ist nicht sehr schwierig, Anleitung auf der Website). Wer das mal ausprobieren möchte kann sich das Programm nebst konvertiertem Wörterbuch und bei Interesse Quelltexte auf der Projektseite runter laden: http://code.google.com/p/chinese-touch/downloads/list
Wer keinen DS oder keine Möglichkeit hat Homebrew-Software darauf auszuführen, kann sich in diesem Blog-Eintrag mal die aktuell unterstützten bzw. in Entwicklung befindlichen Features anschauen: http://syslock.drunkencoders.com/2010/04/12/learn-chinese-and-other-languages-on-your-ds/ (Englisch)
Was haltet ihr davon?
Ist eigentlich noch angedacht die EDICT-Dumps oder anderweitige Datenbankexporte in regelmäßigen Abständen zur Verfügung zu stellen?
Gruß
|
|
|
|
Haf
Joined: 30/05/2006 23:30:38
Messages: 242
Location: Karlsruhe, ドイツ
Offline
|
Hey, das sieht ja ganz nett aus. Gerade auf dem DS benutze ich aber am liebsten offizielle Kanji Trainings-Software. Grammatik und anderes mache ich am liebsten mit richtigen Büchern.
Was meiner Meinung nach noch hilfreich wäre und bisher nicht wirklich vorhanden ist, ist eine ebook-Reader-Software mit integriertem Wörterbuch. Man könnte das so machen, dass man auf dem Touch-Screen den Lesebereich hat und dort ein oder mehrere Zeichen markieren kann, zu denen man dann im anderen Bildschirm die Übersetzungen angezeigt bekommt. Mmh, sowas könnte ich eigentlich sogar selbst mal probieren... Freie Texte gibt es ja einige.
Würde mich auch mal interessieren, ob in Zukunft mal regelmäßiger Dumps released werden sollen. Der letzte ist ja aber zum Glück schon noch relativ neu.
|
現実は聞いたよりももっと悲しい。 |
|
|
|
syslock
Joined: 13/04/2010 22:37:07
Messages: 2
Offline
|
Hm, genau sowas macht Chinese Touch ja im Lesemodus. Ich hab mich zunächst auf die Unterstützung von größten Teils unformatiertem Text beschränkt, um schnell was brauchbares zu haben und da komplexe Formatierung in der niedrigen DS-Auflösung eh wenig Sinn machen. Wenn du auf ein Zeichen irgendwo im Text klickst, dann schlägt das Programm nicht nur dieses Zeichen nach, sondern versucht den möglichst größten zur Textstelle passenden Kontext in den verfügbaren Wörterbüchern zu selektieren, sodass du in der Regel die am besten passende Wort- oder Wortgruppendefinition als ersten Treffer auf dem oberen Bildschirm erhältst und äquivalente oder kürzere durch Blättern in der Wortliste erreichen kannst. Wenn du zwei mal auf das selbe Zeichen klickst, erhältst du eine Trefferliste mit beliebigen Wörtern, die dieses Zeichen beinhalten (im Moment allerdings noch nicht aus den großen Wörterbüchern, nur aus den Lektionsvokabellisten). Da du leicht beliebige Texte auf die SD-Karte kopieren kannst, kannst du es also durchaus als E-Book-Reader mit Wörterbuchfunktion benutzen. Einzige Einschränkung ist zur Zeit die Textgröße, da die Implementierung des Fontrenderers auf dem DS noch sehr langsam ist, sodass sehr lange Texte ewig brauchen um geladen zu werden oder sogar zum Absturz führen, weil sie nicht auf einmal in den Speicher passen. Das werd ich in einer der nächsten Versionen verbessern.
|
|
|
|
Haf
Joined: 30/05/2006 23:30:38
Messages: 242
Location: Karlsruhe, ドイツ
Offline
|
Ah, ok, das klingt ja schon mal sehr gut. Dann werd ich vielleicht doch mal meinen DS entstauben und das demnächst ausprobieren.
|
現実は聞いたよりももっと悲しい。 |
|
|
|
gvd
Joined: 15/04/2010 12:56:18
Messages: 3
Offline
|
Gibt es inzwischen ein aktuelleres edict File mit Korrekturen, wo die Syntax nicht passt?
Eine einfacher grep auf dem edict File oben ergab 213 Probleme. Siehe http://www.gvogt.de/edict2.
Ich würde gerne ein aktuelleres edict File für die Moji Extension für Firefox und Thunderbird verwenden...
|
|
|
|
Dan
Joined: 24/05/2006 16:58:45
Messages: 1285
Offline
|
Eine neue Version vom 9. Jan. 2011 ist verfügbar. Downloads gibt es hier ( http://www.wadoku.de/wiki/display/WAD/Downloads+und+Links).
|
無知の知 |
|
|
|
gvd
Joined: 15/04/2010 12:56:18
Messages: 3
Offline
|
Folgende Einträge fallen bei einem einfachen egrep -v '^[^ ]+ (\[[^]]+\] )?/.+/$' durch. Hauptproblem sind die Leerzeichen im Kanjitext. Bei Jim Breen edict files tritt sowas nie auf. Bei den eckigen Klammern ist die erste eine Full-Width Klammer, dann folgt ein ASCII-Leerzeichen und ein ASCII Klammer-Ende. Runde Klammern ebenso. Der Eintrag für "IBM PC" scheint mir überflüssig. Ansonsten sieht es aber schon mal sehr gut aus.
「新年おめでとう!」 「あなたも!」 [「しんねんおめでとう!」「あなたも!」] /„Ein glückliches neues Jahr!“ „Ihnen auch!“/
危ない! 車が来た。 [あぶない!くるまがきた。] /Vorsicht! Ein Auto!/
[ ] [だいかっこ] /eckige Klammer/[ und ]/
「来ないかい」 「ああ」 [「こないかい」「ああ」] /„Kommst du nicht?“ „Nein!“/
L サイズ [えるさいず] /große Größe/
員数 [いんず] insbes. eine festgelegte Zahl/Kopfzahl/Zahl/Stärke/Stückzahl/Anzahl von Menschen/Anzahl von Mitgliedern etc/
UNIX OS [ゆにっくすおーえす] /UNIX OS (in den Bell Laboratories entwickeltes Betriebssystem)/
CD-ROM XA [しーでぃーろむえっくすえー] /CD-ROM XA/
ICU Language Sciences Summer Institute [あいしーゆーらんげーじさいえんしずさまーいんすてぃちゅーと] /ICU Language Sciences Summer Institute (Tōkyō, Mitaka)/
( ) [しょうかっこ] /runde Klammer/( und )/
Swiss Asia Foundation [すいすあじあふぁうんでーしょん] /Swiss Asia Foundation (Zürich)/
Ph. D. [ぴーえっちでぃー] /Dr. phil./Doktor der Philosophie/
JAL Pak [じゃるぱっく] /JAL-Pauschalreise ins Ausland (seit 1965; Wz.)/
「もう、帰ろうか」 「ああ」 [「もう、かえろうか」「ああ」] /„Wollen wir heimgehen?“ „Ja, in Ordnung!“/
手前 [てまえ] N//diese Seite/Ansehen/ich/Können/Kunst/TrickPron//ich (Perspron. 1. Ps. sg.)/du (Perspron. 2. Ps. sg.)/
{ } [ちゅうかっこ] /geschweifte Klammer/{ und }/
プロット [ぷろっと] N/Plot/Handlung (Handlung einer epischen od. dramatischen Dichtung, eines Films o.Ä)N., mit suru trans. V/Plot/mit einem Plotter hergestellte Zeichnung/
IBM PC [あいびーえむぴーしー] /IBM PC/
DX code [でぃーえっくすこーど] /DX-Code (für 35 mm-Filmpatronen)/
Mac OS [まっくおーえす] /MacOS (Betriebssystem der Firma Apple)/
b. and b. [びーあんどびー] /Bed and Breakfast/Zimmer mit Frühstück/
|
|
|
|