Wadoku.de Forum
  [Search] Search   [Recent Topics] Recent Topics   [Hottest Topics] Hottest Topics  
[Register] Register /  [Login] Login 
Ankündigung: Neue EPWING-Version verfügbar  RSS feed
Forum Index » wadoku.de
Author Message
boscowitch



Joined: 23/09/2008 16:03:04
Messages: 231
Location: ケルン
Offline

Das problem kenn ich auch, die frage ist muss es umbedingt EPWING sein ?
ich hab mir für linux ein set von tools und formaten gemacht,
auserdem ist die version von wadoku bei denen sogar aktueller

1.Gjiten format http://www.wadoku.de/forum/posts/list/1097.page
2.Für Stardict http://www.wadoku.de/forum/posts/list/1116.page (und falls installier erkenn es auch Goldendict http://www.wadoku.de/forum/posts/list/1118.page)


dann noch nicht wörterbücher aber hilfreiche tools zu lernen:
1. Random Wadoku Screenlet Widget für den Desktop http://www.wadoku.de/forum/posts/list/1127.page
2. Wadoku Notify sucht automamtisch nach jedem makierten text in einer lokalen wadoku datenbank und zeigts blitzschnell an (je nach rechner leistung) http://www.wadoku.de/forum/posts/list/1141.page

appropo alle software ist im ubuntu per repository installierbar,
gjiten
stardict (qstardicto oder auch eine gtk version)
screenlets

gruß Boscowitch

edit:äh ja gehirnknoten danke für die korrektur. und natürlich wäre ne EPWING version die korrekt ist kein verlust ich bin der erste der dafür ist noch mehr formate zu unterstüzen.

Das einzige ist halt das die Suchergebnissreihenfolge bei EPWING meist nicht sehr toll sind, momentan arbeit ich an einer idee das offline noch zu verbessern vieleicht eine software in der man die Reihenfolge korrigieren kann.
Dann die Daten wieder speichert von denen man dann eine epwing usw machen kann.
Auserdem hat sich als sehr gut erwisen die Suchergebnisse nach länge der Lesung aufsteigend (ohne sonder Zeichen) zu sortiere.

Fals sich jemand mit der EPWING library auskennt immer her mit euch
Dan


[Avatar]

Joined: 24/05/2006 16:58:45
Messages: 1280
Offline

boscowitch wrote:Das problem kenn ich auch, die frage ist muss es umbedingt edict sein ?

Du meist sicher EPWING, bitte nicht verwechseln Und wenn man schon andere Wörterbücher in diesem Format hat - EPWING ist ein japanischer (Wörterbuch)-Standard - liegt es doch nahe, nicht extra eine weitere Anwendung installieren zu wollen.

irgendwer wrote:Leider gibt es irgendwelche Probleme mit den gaiji.

Das ist ein Problem mit den EPWING-Daten. Da ist beim Konvertieren wohl ein kleiner Fehler passiert. Am Viewer liegt es nicht.

無知の知
irgendwer



Joined: 19/03/2009 06:46:45
Messages: 15
Location: 北陸
Offline

boscowitch wrote:Das problem kenn ich auch, die frage ist muss es umbedingt EPWING sein ?


Ja - alle kommerziellen Wörterbücher (Crown Dokuwa, Consaizu Wadoku, Daijirin), die ich besitze, sind im EPWING-Format. Deshalb ist es ja so interessant, Wadoku.de im EPWING-Format zu bekommen, weil EPWING die einzige Möglichkeit ist, die verschiedenen kommerziellen Wörterbücher mit Wadoku.de in einer Viewer-Software zu benutzen.

irgendwer wrote:
Gibt es Pläne, an einer verbesserten Version mit EPWING zu arbeiten?


Da darauf nicht geantwortet wurde, nehme ich dann mal an, die Antwort ist leider "Nein". Schade. Vielleicht, wenn Ihr den nächstens Praktikanten bekommt
boscowitch



Joined: 23/09/2008 16:03:04
Messages: 231
Location: ケルン
Offline

hmm praktikanten wären nice ^^

momentan schein ich so der einzige zu sein der im bereich wadoku auf PC ect. arbeitet, also wenn ich irgendwann mal zeit hab dann ....

na ja ich setz es mal auf meine ellenlange todo liste, leider is halt auch noch die uni da die mir dauernd aufgaben gibt wozu eigentlcih keiner ne lösung will
irgendwer



Joined: 19/03/2009 06:46:45
Messages: 15
Location: 北陸
Offline

Ist die Person, die damals die EPWING-Version erstellt hat, denn noch irgendwie erreichbar?

Ich habe mal heute selbst eine EPWING-Version erstellt, basierend auf dem neuesten EDICT-Dump und

hier auf rapidshare hochgeladen...: http://rapidshare.com/files/386073953/wadoku.zip.html

Wer will, kann da gerne mal mit rumspielen; ich hoffe auch, daß ist im Sinne der Lizenz.

Die Fehler bezüglich der Gaiji sind jetzt gelöst, zumindestens funktioniert das hier mit EBView und EBWin, jedoch sind die _Suchergebnisse_ nicht mehr so schön sortiert und gruppiert. Zum einen war meine Aufbereitung der Daten wahrscheinlich etwas schlampig (ein paar zusammengehackte RegExps), zum anderen nutzte ich eine unregistrierte Version von EBStudio, so daß nicht alle Indizes erstellt werden konnten, was die Suche einschränkt.

Bei letzterem bin ich mir bzgl. der Lizenz auch nicht so sicher, und ob ich das damit erstellte Wörterbuch hier überhaupt posten darf...

Es sind sicher auch zahlreiche Fehler drin, da daß Quellmaterial ja evtl. Fehler hat (siehe Thread) und ich einfach RegExps benutzt habe, im Vertrauen, daß das schon paßt...

Mich würde interessieren, wie die Person vorher die EPWING-Version erstellt hat. Da bei EPStudio Gaiji-Maps für die üblichen europäischen Zeichen (also Umlaute) mitgeliefert werden, wäre es interessant, das in den vorher benutzten Weg miteinzubinden (Umlaute), bzw. nicht-darstellebare Zeichen zuerst aus dem Quellmaterial zu entfernen (nicht unbedingt benötigte Sonderzeichen). Wenn ich mir das Resultat so anschaue, denke ich, der vorherige Ersteller hat einen ähnlichen Weg benutzt, aber im Quellmaterial einfach an manchen Stellen Sonderzeichen, die nicht in der JIS-Spezifikation sind, nicht entfernt bzw. auch keine gaiji-maps erstellt... Ich denke, wenn der ursprüngliche Weg im Sinne eines Skriptes etc. einfach reproduzierbar wäre, wäre es ein nicht so großer Aufwand, daß zu verändern.

(sorry wenn ich damit so nerve, aber das Crown 独和 zusammen mit wadoku.de und Daijirin ist sehr sehr praktisch ...)

EDIT (auf ein drittes): Ich denke es wäre sicherlich möglich, eine schönere EPWING-Version zu basteln wenn besseres Ausgangsmaterial vorhanden wäre - die EDICT Version ist doch sehr primitiv. Gibt es noch irgendwo aktuelle SQL-Dumps oder halt irgendwas, wo man mehr oder weniger einfach 'nen Parser (Perl oder besser gleich lex) für basteln kann?
irgendwer



Joined: 19/03/2009 06:46:45
Messages: 15
Location: 北陸
Offline

Ich bumpe diesen Thread nocheinmal, um meine Bitte zu wiederholen und die Problematik erneut zu schildern:

- die momentane EPWING - Version (200 ist defekt. Das ist besonders problematisch, weil
1.) es keine vernünftige Reader-software für Linux gibt, die damit umgehen kann
2.) man ohne EPWING - Version nicht in multiplen Wörterbüchern gleichzeitig suchen kann
3.) bisher für ANDROID die einzige Möglichkeit Wadoku vernünftig zu nutzen die Software Droidwing ist, die jedoch öfter mal abstürzt wg. der defekten EPWING Version.

Kurzum: Fast sämtliche Software, die auf der Bibliothek eblib/libeb aufbaut, bekommt Probleme und das sind fast alle (freien/linuxbasierten) EPWING-reader

Das ist besonders schade, weil die Einträge der neuen EPWING-Version offenbar mit viel Sorgfalt gemacht wurden (was Zusatzinformationen und Beispielsätze angeht).

Es wäre daher sehr sehr hilfreich wenn

- jemand vom Wadoku - Team eine neue EPWING Version bereitstellt
- jemand vom Wadoku - Team irgendeine Version bereitstellt, z.B. einen SQL-Dump etc., bei dem nicht derartig viele Informationen fehlen wie bei dem aktuellen EDICT-Dump. Das EDICT-Format ist einfach extrem beschränkt. Auf Basis dessen könnten dann andere Nutzer (ich persönlich würde mich zumindestens bemühen, was ordentliches hinzukriegen) eine neue EPWING-Version erstellen.

Es wäre noch viel viel hilfreicher wenn
- jemand die FreePWING-Skripte (ich nehme an FreePWING wurde benutzt, zumindestens laut Readme in der 2005er EPWING-Version) zur Verfügung stellen würde, denn dann müsste man bei der Konvertierung nicht bei 0 anfangen, sondern könnte sich darauf konzentrieren die Bugs der aktuellen EPWING-Version zu beheben.

Überhaupt wäre es nett, die ganzen Änderungen (ist ja auch schon 2 Jahre her) mal in einer aktuellen Version zu haben.

Ich helfe gerne aus und unterstützte wo ich kann, wobei ich trotz Perl-Kenntnissen noch keinen rechten Durchblick über die FreePWING Bibliothek habe, da die ganze Doku in Japanisch...
Niremori



Joined: 31/05/2006 14:32:12
Messages: 549
Offline

irgendwer wrote:Ich bumpe diesen Thread nocheinmal, um meine Bitte zu wiederholen und die Problematik erneut zu schildern:

<snip>

Ich helfe gerne aus und unterstützte wo ich kann, wobei ich trotz Perl-Kenntnissen noch keinen rechten Durchblick über die FreePWING Bibliothek habe, da die ganze Doku in Japanisch...


Frage ans Wadoku - Team:

Hat irgendwer keine Antwort verdient? (Ein "Wir haben gerade keine Zeit, uns um dieses Problem zu kuemmern." wuerde vielleicht schon reichen.)

niremori
Dan


[Avatar]

Joined: 24/05/2006 16:58:45
Messages: 1280
Offline

Naja, eher so: Es ist viel zu tun und nur wenig Zeit :/

Leider kann ich auch nur sagen, dass ich nicht viel mehr zur letzten EPWING-Version weiß, als irgendwer.

Nichtsdestotrotz habe ich eigentlich recht erfolgreich am Wochenende ein wenig mit eb4j herumgespielt. Die grundsätzliche Vorgehensweise ist somit klar, diese muss "nur" in einen entsprechenden Algorithmus gebracht werden…

Das Ganze wird allerdings Zeit kosten, vor allem wegen der Gaiji, aber auch wegen der einzusetzenden Formatierung und den Links zwischen den Einträgen, da ich da ebenso bei Null anfangen muss. Bei EDICT fällt das ja unter den Tisch.

Ansonsten steht zu beachten, dass noch etwa 38.000 Einträge bearbeitet werden müssen, einmal wegen der Form und eventueller Verlinkungen. In einer Stunde schafft man je nach Aufwand so 20-50 Einträge. Also könnt ihr euch ausrechnen, wie lange das etwa dauern wird. Ein erste Möglichkeit dabei ist natürlich, diese Einträge beim Export auszulassen.

無知の知
irgendwer



Joined: 19/03/2009 06:46:45
Messages: 15
Location: 北陸
Offline

ob eb4j oder EBStudio: alle diese Tools akzeptieren ja eine HTML/XML Datei als input mit speziellen Tags.

wie schon gesagt: Wenn die Zeit knapp ist: Fall ein SQL - Dump oder irgendetwas "parse"-bares da ist, bastel' ich gerne einen Parser, der das ganze in ein XML - File umwandelt, welches von EBStudio oder eb4j akzeptiert wird (das bei eb4j auch mit XML2EB ein Tool zum Erstellen von Büchern dabei ist, hatte ich bisher übersehen). Falls das Wadoku-Team schon gewisse Vorstellungen was die Aufbereitung der Daten angeht hat, versuche ich das gerne miteinzubinden.
Wenn 38000 unbearbeitete Einträge da sind, ist das sicherlich nicht schön und man sollte die vielleicht erstmal auslassen, aber: solange sich das ursprüngliche Datenformat (ich nehme an, das "Herz" von wadoku ist einfach SQL und neue Einträge etc. kommen zunächst mal auf den Webserver?!) sich nicht ändert, funktioniert ein einmal entwickelter Parser auch später, wenn die Einträge nach und nach abgearbeitet werden.

Ich hoffe, das Folgende klingt nicht zu angreifend/vorwurfsvoll, da ich die ehrenamtliche Arbeit der zahlreichen Mitarbeiter und Unterstützter von Wadoku nicht schmälern möchte, aber:

Ich kann verstehen, wenn Wadoku nicht so gern SQL-Dumps zur Verfügung stellen möchte (mögliche Forks des Projektes etc., Problematik der Verwendung der Daten in kommerziellen Projekten) aber nur als Hinweis: Es gibt eine Menge fähiger Menschen die Umwandlung in die unzähligen Formate die so existieren (EPWING, EDICT, OSX-Wörterbuch, Stardict etc. etc.) sicherlich _für Wadoku_ erledigen würden, wenn sie nur irgendwie anfangen könnten Oder um es anders zu sagen: Wenn besseres Rohdatenmaterial da wäre, hätte ich sicherlich schon vor fünf Monaten angefangen einen Parser zu basteln

Im Moment ist es einfach sehr schade, daß die neueste, nutzbare offline-Version von Wadoku eine 2 Jahre alte edict-Version ist.
ralferly


[Avatar]

Joined: 10/07/2006 19:43:01
Messages: 82
Offline

Dan wrote:Ansonsten steht zu beachten, dass noch etwa 38.000 Einträge bearbeitet werden müssen, einmal wegen der Form und eventueller Verlinkungen. In einer Stunde schafft man je nach Aufwand so 20-50 Einträge. Also könnt ihr euch ausrechnen, wie lange das etwa dauern wird. Ein erste Möglichkeit dabei ist natürlich, diese Einträge beim Export auszulassen.
Wäre es denn dann nicht günstig, die gesamte Supporterschaft zu mobilisieren, instruieren und den workload abtragen zu lassen, soz. einen "Wadoku-Day of Good Will" einzuberufen? Viele Hände schaffen mehr als nur ein paar. Und oftmals hält einen nur die Unwissenheit ab, wie was funktioniert oder wie was eingeordnet wird. Wenn da zeitnah geholfen werden könnte, z.B. im Forum oder via Skype oder so, wäre das echt ne optimale Geschichte, denke ich.

wadoku user
[ICQ]
Dan


[Avatar]

Joined: 24/05/2006 16:58:45
Messages: 1280
Offline

ralferly: Das ist natürlich eine nette und gut klingende Idee. Allein das "zeitnah" dürfte schon ein Problem sein. Und ich weiß auch nicht, ob sich da so viele Supporter finden, die längerfristig bereit sind mitzuarbeiten. Denn bisher ist es ziemlich mau. Denn meist scheint der anfängliche Enthusiasmus der meisten recht schnell wieder zu verfliegen. Aber das sollten wir vielleicht in einem Extra-Thread diskutieren.

irgendwer: Die Daten in irgendwas anderes zu wandeln ist nicht das Problem. Der größte Aufwand ist die Pflege der Daten. Und wenn man die unbearbeiteten Daten ausläßt, bleibt eigentlich nur vergleichsweise(!) wenig neues übrig, so dass das den Nutzern auch nicht viel mehr bringen dürfte als eine Datei mit neuerem Datum.

Ich denke gerade über folgendes nach, was ja nun einfacher ist, nach der Konsolidierung der Daten in der neuen Wadoku-Version (vorher waren die Daten ja über die neue und alte Version verteilt): Ich denke, es könnte zum Jahresende (das sollte genug Zeit zur Vorbereitung lassen) neue Versionen der Daten gibt. In welcher Form ist zu klären, wohl wieder EDICT, EPWING und die Rohdaten im existierenden XML-Format.

無知の知
irgendwer



Joined: 19/03/2009 06:46:45
Messages: 15
Location: 北陸
Offline

ich habe aus dem Januar 2012 XML-Dump eine neue EPWING-Version erstellt.

Downloadbar hier:

http://www.megaupload.com/?d=5F2X92NB

Das ganze ist als Beta anzusehen. Es gibt noch einige Dinge zu verbessern.
Die Version sollte aber voll funktionsfähig sein. Da ich in nächster Zeit
sehr beschäftigt bin, dachte ich, es ist besser die momentante Version
einfach hochzuladen - besser als keine.

Es wäre nett, wenn Interessierte das auf ihrerm Lieblingsreader ausprobieren
und Fehler hier berichten würden.

Falls die Version sich als halbwegs stabil herausstellen würde, wäre es toll
wenn man die Version (markiert als Beta) auf die Downloadseite stellen könnte -
diese Fileuploader sind ja eher eine Notlösung.

Die Umwandlungsskripte sind hier auf github:

https://github.com/irgendw3r/wadokuepwing

(Code ist sehr ... kitanai, gomen ne


Known Bugs/todo - Liste

- für ca. 290 Unicodezeichen gibt es keine direkten ShiftJIS-Enstprechungen.
Es handelt sich dabei meist um nicht-joyou Kanji, einzelne Radikale und
CJK-unifizierte Zeichen. Zur Zeit steht im Wörterbuch anstatt eines solchen
Zeichens schlicht die unicode-Nummer in Hex. Dementsprechend sind solche Einträge
auch nicht indiziert. Für diese Zeichen müssen entweder Gaiji-Bitmaps
erstellt werden - dann sind sie aber ebenfalls nicht indizierbar. Oder so hoffe ich,
gibt es doch sinnvolle ShiftJIS-Pendants, die in den offizellen Empfehlungen
ftp://ftp.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/SHIFTJIS.TXT
nicht aufgeführt sind. Leider ist das schlecht automatisierbar.

- Links innerhalb dieser EPWing-version funktionieren nicht. Man muss das Wort
auf das verlinkt wird manuell markieren und danach suchen

- Es werden derzeit nicht alle Informationen der Einträge verarbeitet. Das Parsen
des Wadoku XML ist schon recht komplex (und manchmal auch ein bisschen komisch:
z.B. ist mir nicht ganz klar wieso Einträge mit so leicht kryptischen
Infos wie △ etc. markiert werden statt XML-Tags zu verwenden.
Auch bin ich mir nicht sicher, wofür ' inmitten von Lesungen stehen... ich habe
dazu im Wiki nichts gefunden...)
Ich habe schlicht system's konverter für das MacDic benutzt.
Zuerst hatte ich ein xslt geschrieben... was aber einfach zu langsam war.
Ehrlich gesagt, scheint mir XSLT nach groben Überfliegen von
http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5273945
nicht ganz unproblematisch für Wadoku.
Summa sumarum, es gibt im Moment leider nur Hiragana, Kanji und Bedeutung.

- Formatierung der Einträge.
Wadoku leidet ja stark unter Komposita, imho sind es für eine EPWING-Version
fast schon zu viele. Man sieht das ja auch, wenn man auf der Hauptseite z.B.
nach 日本語 sucht und mehr als 40 Einträge bekommt. In anderen Wörterbüchern steht
noch nicht einmal 日本語 drin, sondern nur 日本 und 語.
Ich werde versuchen in Zukunft diese Komposita in einen Eintrag zu verfrachten.
Die Frage ist, ob man dann solche Komposita indiziert (um dann wieder so viele
Suchergebnisse zu haben) oder einfach nicht indiziert...


Dan


[Avatar]

Joined: 24/05/2006 16:58:45
Messages: 1280
Offline

Vielen Dank irgendwer für deine Arbeit!
Die Datei ist auf dem Server gespiegelt (Link) und unter http://www.wadoku.de/wiki/display/WAD/Downloads+und+Links eingetragen.

Ein Parsen per Skript ist immer aufwendiger als eine Umwandlung per XSLT. Deswegen fände ich es gut, wenn du deine XSLT-Datei ebenfalls zu den Skripten tun könntest. Wie schon geschrieben, ist das Umwandeln der XML-Daten per XSLT am Stück mit Saxon-EE kein Problem, die Umwandlung ist mit 1GB Speicher für die JVM in unter einer Minute erledigt, anstelle der sonstigen ca. 230 Minuten.

Was die Komposita angeht, sehe ich da kein Problem, Kenkyushas 新和英大辞典 ist noch umfangreicher.

無知の知
irgendwer



Joined: 19/03/2009 06:46:45
Messages: 15
Location: 北陸
Offline

Das XSLT funktionierte auf einem kleinen Sample von 1000 Einträgen. Für das gesamte Wadoku ist noch viel Nacharbeit nötig, denn EBStudio[1] stürzt bei nicht-validem Input gern ohne jegliche Fehlermeldung ab. Ohne hinreichend schnellen XSLT-Prozessor ist es unmöglich für mich, zu testen, was überhaput fehlerhaft ist. 300 Pfund für Saxon-EE ist für mich unbezahlbar.

Eine mögliche Alternative wäre STX, damit habe ich mir aber noch nicht beschäftigt.

XSLT mag sehr praktische für den Server sein, und auch um damit automatisiert dann halbjährlich Konvertierungen durchzuführen. Aber
1.) es wird für EPWING sowieso immer viel händische Nacharbeit nötig sein (wg. Unicode <-> SJIS),
2.) XSLT ist wg. der Performanceprobleme für irgendwelche Third-Party Entwickler unmöglich zu benutzen. Falls jemand einen freien + schnellen XSLT-Prozessor kennt, her damit!

Ich werde mal schauen, was sich machen läßt.

Dan wrote:
Was die Komposita angeht, sehe ich da kein Problem, Kenkyushas 新和英大辞典 ist noch umfangreicher.


EBPocket blockiert teilweise >10s bei manchen Anfragen (HTC Magic).

--
[1] ist alternativlos, denn es hilft beim automatischen Erstellen von Gaiji; wesentlich einfacher als FreePWING, und xml2eb aus dem EB4J erzeugt leider (defekte?) Wörterbücher, die manche Reader, z.B. EBWin, nicht lesen können...
McDohl


[Avatar]

Joined: 07/04/2020 14:23:35
Messages: 2
Offline

irgendwer wrote:
...
2.) XSLT ist wg. der Performanceprobleme für irgendwelche Third-Party Entwickler unmöglich zu benutzen. Falls jemand einen freien + schnellen XSLT-Prozessor kennt, her damit!
...

Hallo allerseits,
ich stoße auch jetzt nach 8 Jahren auf die 24-dot-gaiji. Verwendetes Tool: ebview unter Ubuntu 19.10.
Nach meiner Einschätzung (bin selbst Software-Entwickler) sollte man hier Python+lxml oder Ruby+nokogiri in Betracht ziehen, oder ohne Umstieg der Programmiersprache https://metacpan.org/release/XML-LibXSLT.
Alle 3 Varianten setzen auf den gleichen Unterbau und sollten geeignet sein. Ich finde aber Python im Allgemeinen schöner, zumal sich der Code „cythonisieren“ (nach C transpilieren) lässt, wenn die Performance in der Skript-Laufzeit ein Thema ist.
Im Notfall versuche ich mich selbst am Skript, aber da ich vom Inhalt wenig Ahnung habe, wäre der Aufwand evtl. nicht gerechtfertigt.
Grüße und viel Spaß beim Lernen,
McDohl
 
Forum Index » wadoku.de
Go to: