Wadoku.de Forum
  [Search] Suche   [Recent Topics] Neueste Themen   [Hottest Topics] Die heissesten Themen  
[Register] Registrieren /  [Login] Anmelden 
Ankündigung: Neue EPWING-Version verfügbar  RSS feed
Übersicht » wadoku.de
Autor Beitrag
Dan


[Avatar]

Beigetreten: 24/05/2006 16:58:45
Beiträge: 1242
Offline

ralferly: Das ist natürlich eine nette und gut klingende Idee. Allein das "zeitnah" dürfte schon ein Problem sein. Und ich weiß auch nicht, ob sich da so viele Supporter finden, die längerfristig bereit sind mitzuarbeiten. Denn bisher ist es ziemlich mau. Denn meist scheint der anfängliche Enthusiasmus der meisten recht schnell wieder zu verfliegen. Aber das sollten wir vielleicht in einem Extra-Thread diskutieren.

irgendwer: Die Daten in irgendwas anderes zu wandeln ist nicht das Problem. Der größte Aufwand ist die Pflege der Daten. Und wenn man die unbearbeiteten Daten ausläßt, bleibt eigentlich nur vergleichsweise(!) wenig neues übrig, so dass das den Nutzern auch nicht viel mehr bringen dürfte als eine Datei mit neuerem Datum.

Ich denke gerade über folgendes nach, was ja nun einfacher ist, nach der Konsolidierung der Daten in der neuen Wadoku-Version (vorher waren die Daten ja über die neue und alte Version verteilt): Ich denke, es könnte zum Jahresende (das sollte genug Zeit zur Vorbereitung lassen) neue Versionen der Daten gibt. In welcher Form ist zu klären, wohl wieder EDICT, EPWING und die Rohdaten im existierenden XML-Format.

無知の知
irgendwer



Beigetreten: 19/03/2009 06:46:45
Beiträge: 15
Standort: 北陸
Offline

ich habe aus dem Januar 2012 XML-Dump eine neue EPWING-Version erstellt.

Downloadbar hier:

http://www.megaupload.com/?d=5F2X92NB

Das ganze ist als Beta anzusehen. Es gibt noch einige Dinge zu verbessern.
Die Version sollte aber voll funktionsfähig sein. Da ich in nächster Zeit
sehr beschäftigt bin, dachte ich, es ist besser die momentante Version
einfach hochzuladen - besser als keine.

Es wäre nett, wenn Interessierte das auf ihrerm Lieblingsreader ausprobieren
und Fehler hier berichten würden.

Falls die Version sich als halbwegs stabil herausstellen würde, wäre es toll
wenn man die Version (markiert als Beta) auf die Downloadseite stellen könnte -
diese Fileuploader sind ja eher eine Notlösung.

Die Umwandlungsskripte sind hier auf github:

https://github.com/irgendw3r/wadokuepwing

(Code ist sehr ... kitanai, gomen ne


Known Bugs/todo - Liste

- für ca. 290 Unicodezeichen gibt es keine direkten ShiftJIS-Enstprechungen.
Es handelt sich dabei meist um nicht-joyou Kanji, einzelne Radikale und
CJK-unifizierte Zeichen. Zur Zeit steht im Wörterbuch anstatt eines solchen
Zeichens schlicht die unicode-Nummer in Hex. Dementsprechend sind solche Einträge
auch nicht indiziert. Für diese Zeichen müssen entweder Gaiji-Bitmaps
erstellt werden - dann sind sie aber ebenfalls nicht indizierbar. Oder so hoffe ich,
gibt es doch sinnvolle ShiftJIS-Pendants, die in den offizellen Empfehlungen
ftp://ftp.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/SHIFTJIS.TXT
nicht aufgeführt sind. Leider ist das schlecht automatisierbar.

- Links innerhalb dieser EPWing-version funktionieren nicht. Man muss das Wort
auf das verlinkt wird manuell markieren und danach suchen

- Es werden derzeit nicht alle Informationen der Einträge verarbeitet. Das Parsen
des Wadoku XML ist schon recht komplex (und manchmal auch ein bisschen komisch:
z.B. ist mir nicht ganz klar wieso Einträge mit so leicht kryptischen
Infos wie △ etc. markiert werden statt XML-Tags zu verwenden.
Auch bin ich mir nicht sicher, wofür ' inmitten von Lesungen stehen... ich habe
dazu im Wiki nichts gefunden...)
Ich habe schlicht system's konverter für das MacDic benutzt.
Zuerst hatte ich ein xslt geschrieben... was aber einfach zu langsam war.
Ehrlich gesagt, scheint mir XSLT nach groben Überfliegen von
http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5273945
nicht ganz unproblematisch für Wadoku.
Summa sumarum, es gibt im Moment leider nur Hiragana, Kanji und Bedeutung.

- Formatierung der Einträge.
Wadoku leidet ja stark unter Komposita, imho sind es für eine EPWING-Version
fast schon zu viele. Man sieht das ja auch, wenn man auf der Hauptseite z.B.
nach 日本語 sucht und mehr als 40 Einträge bekommt. In anderen Wörterbüchern steht
noch nicht einmal 日本語 drin, sondern nur 日本 und 語.
Ich werde versuchen in Zukunft diese Komposita in einen Eintrag zu verfrachten.
Die Frage ist, ob man dann solche Komposita indiziert (um dann wieder so viele
Suchergebnisse zu haben) oder einfach nicht indiziert...


Dan


[Avatar]

Beigetreten: 24/05/2006 16:58:45
Beiträge: 1242
Offline

Vielen Dank irgendwer für deine Arbeit!
Die Datei ist auf dem Server gespiegelt (Link) und unter http://www.wadoku.de/wiki/display/WAD/Downloads+und+Links eingetragen.

Ein Parsen per Skript ist immer aufwendiger als eine Umwandlung per XSLT. Deswegen fände ich es gut, wenn du deine XSLT-Datei ebenfalls zu den Skripten tun könntest. Wie schon geschrieben, ist das Umwandeln der XML-Daten per XSLT am Stück mit Saxon-EE kein Problem, die Umwandlung ist mit 1GB Speicher für die JVM in unter einer Minute erledigt, anstelle der sonstigen ca. 230 Minuten.

Was die Komposita angeht, sehe ich da kein Problem, Kenkyushas 新和英大辞典 ist noch umfangreicher.

無知の知
irgendwer



Beigetreten: 19/03/2009 06:46:45
Beiträge: 15
Standort: 北陸
Offline

Das XSLT funktionierte auf einem kleinen Sample von 1000 Einträgen. Für das gesamte Wadoku ist noch viel Nacharbeit nötig, denn EBStudio[1] stürzt bei nicht-validem Input gern ohne jegliche Fehlermeldung ab. Ohne hinreichend schnellen XSLT-Prozessor ist es unmöglich für mich, zu testen, was überhaput fehlerhaft ist. 300 Pfund für Saxon-EE ist für mich unbezahlbar.

Eine mögliche Alternative wäre STX, damit habe ich mir aber noch nicht beschäftigt.

XSLT mag sehr praktische für den Server sein, und auch um damit automatisiert dann halbjährlich Konvertierungen durchzuführen. Aber
1.) es wird für EPWING sowieso immer viel händische Nacharbeit nötig sein (wg. Unicode <-> SJIS),
2.) XSLT ist wg. der Performanceprobleme für irgendwelche Third-Party Entwickler unmöglich zu benutzen. Falls jemand einen freien + schnellen XSLT-Prozessor kennt, her damit!

Ich werde mal schauen, was sich machen läßt.

Dan wrote:
Was die Komposita angeht, sehe ich da kein Problem, Kenkyushas 新和英大辞典 ist noch umfangreicher.


EBPocket blockiert teilweise >10s bei manchen Anfragen (HTC Magic).

--
[1] ist alternativlos, denn es hilft beim automatischen Erstellen von Gaiji; wesentlich einfacher als FreePWING, und xml2eb aus dem EB4J erzeugt leider (defekte?) Wörterbücher, die manche Reader, z.B. EBWin, nicht lesen können...
 
Übersicht » wadoku.de
Gehe zu: