Author |
Message |
|
boscowitch
Joined: 23/09/2008 16:03:04
Messages: 231
Location: ケルン
Offline
|
Das problem kenn ich auch, die frage ist muss es umbedingt EPWING sein ?
ich hab mir für linux ein set von tools und formaten gemacht,
auserdem ist die version von wadoku bei denen sogar aktueller
1.Gjiten format http://www.wadoku.de/forum/posts/list/1097.page
2.Für Stardict http://www.wadoku.de/forum/posts/list/1116.page (und falls installier erkenn es auch Goldendict http://www.wadoku.de/forum/posts/list/1118.page)
dann noch nicht wörterbücher aber hilfreiche tools zu lernen:
1. Random Wadoku Screenlet Widget für den Desktop http://www.wadoku.de/forum/posts/list/1127.page
2. Wadoku Notify sucht automamtisch nach jedem makierten text in einer lokalen wadoku datenbank und zeigts blitzschnell an (je nach rechner leistung) http://www.wadoku.de/forum/posts/list/1141.page
appropo alle software ist im ubuntu per repository installierbar,
gjiten
stardict (qstardicto oder auch eine gtk version)
screenlets
gruß Boscowitch
edit:äh ja gehirnknoten danke für die korrektur. und natürlich wäre ne EPWING version die korrekt ist kein verlust ich bin der erste der dafür ist noch mehr formate zu unterstüzen.
Das einzige ist halt das die Suchergebnissreihenfolge bei EPWING meist nicht sehr toll sind, momentan arbeit ich an einer idee das offline noch zu verbessern vieleicht eine software in der man die Reihenfolge korrigieren kann.
Dann die Daten wieder speichert von denen man dann eine epwing usw machen kann.
Auserdem hat sich als sehr gut erwisen die Suchergebnisse nach länge der Lesung aufsteigend (ohne sonder Zeichen) zu sortiere.
Fals sich jemand mit der EPWING library auskennt immer her mit euch
|
|
|
|
Dan
Joined: 24/05/2006 16:58:45
Messages: 1280
Offline
|
boscowitch wrote:Das problem kenn ich auch, die frage ist muss es umbedingt edict sein ?
Du meist sicher EPWING, bitte nicht verwechseln Und wenn man schon andere Wörterbücher in diesem Format hat - EPWING ist ein japanischer (Wörterbuch)-Standard - liegt es doch nahe, nicht extra eine weitere Anwendung installieren zu wollen.
irgendwer wrote:Leider gibt es irgendwelche Probleme mit den gaiji.
Das ist ein Problem mit den EPWING-Daten. Da ist beim Konvertieren wohl ein kleiner Fehler passiert. Am Viewer liegt es nicht.
|
無知の知 |
|
|
|
irgendwer
Joined: 19/03/2009 06:46:45
Messages: 15
Location: 北陸
Offline
|
boscowitch wrote:Das problem kenn ich auch, die frage ist muss es umbedingt EPWING sein ?
Ja - alle kommerziellen Wörterbücher (Crown Dokuwa, Consaizu Wadoku, Daijirin), die ich besitze, sind im EPWING-Format. Deshalb ist es ja so interessant, Wadoku.de im EPWING-Format zu bekommen, weil EPWING die einzige Möglichkeit ist, die verschiedenen kommerziellen Wörterbücher mit Wadoku.de in einer Viewer-Software zu benutzen.
irgendwer wrote:
Gibt es Pläne, an einer verbesserten Version mit EPWING zu arbeiten?
Da darauf nicht geantwortet wurde, nehme ich dann mal an, die Antwort ist leider "Nein". Schade. Vielleicht, wenn Ihr den nächstens Praktikanten bekommt
|
|
|
|
boscowitch
Joined: 23/09/2008 16:03:04
Messages: 231
Location: ケルン
Offline
|
hmm praktikanten wären nice ^^
momentan schein ich so der einzige zu sein der im bereich wadoku auf PC ect. arbeitet, also wenn ich irgendwann mal zeit hab dann ....
na ja ich setz es mal auf meine ellenlange todo liste, leider is halt auch noch die uni da die mir dauernd aufgaben gibt wozu eigentlcih keiner ne lösung will
|
|
|
|
irgendwer
Joined: 19/03/2009 06:46:45
Messages: 15
Location: 北陸
Offline
|
Ist die Person, die damals die EPWING-Version erstellt hat, denn noch irgendwie erreichbar?
Ich habe mal heute selbst eine EPWING-Version erstellt, basierend auf dem neuesten EDICT-Dump und
hier auf rapidshare hochgeladen...: http://rapidshare.com/files/386073953/wadoku.zip.html
Wer will, kann da gerne mal mit rumspielen; ich hoffe auch, daß ist im Sinne der Lizenz.
Die Fehler bezüglich der Gaiji sind jetzt gelöst, zumindestens funktioniert das hier mit EBView und EBWin, jedoch sind die _Suchergebnisse_ nicht mehr so schön sortiert und gruppiert. Zum einen war meine Aufbereitung der Daten wahrscheinlich etwas schlampig (ein paar zusammengehackte RegExps), zum anderen nutzte ich eine unregistrierte Version von EBStudio, so daß nicht alle Indizes erstellt werden konnten, was die Suche einschränkt.
Bei letzterem bin ich mir bzgl. der Lizenz auch nicht so sicher, und ob ich das damit erstellte Wörterbuch hier überhaupt posten darf...
Es sind sicher auch zahlreiche Fehler drin, da daß Quellmaterial ja evtl. Fehler hat (siehe Thread) und ich einfach RegExps benutzt habe, im Vertrauen, daß das schon paßt...
Mich würde interessieren, wie die Person vorher die EPWING-Version erstellt hat. Da bei EPStudio Gaiji-Maps für die üblichen europäischen Zeichen (also Umlaute) mitgeliefert werden, wäre es interessant, das in den vorher benutzten Weg miteinzubinden (Umlaute), bzw. nicht-darstellebare Zeichen zuerst aus dem Quellmaterial zu entfernen (nicht unbedingt benötigte Sonderzeichen). Wenn ich mir das Resultat so anschaue, denke ich, der vorherige Ersteller hat einen ähnlichen Weg benutzt, aber im Quellmaterial einfach an manchen Stellen Sonderzeichen, die nicht in der JIS-Spezifikation sind, nicht entfernt bzw. auch keine gaiji-maps erstellt... Ich denke, wenn der ursprüngliche Weg im Sinne eines Skriptes etc. einfach reproduzierbar wäre, wäre es ein nicht so großer Aufwand, daß zu verändern.
(sorry wenn ich damit so nerve, aber das Crown 独和 zusammen mit wadoku.de und Daijirin ist sehr sehr praktisch ...)
EDIT (auf ein drittes): Ich denke es wäre sicherlich möglich, eine schönere EPWING-Version zu basteln wenn besseres Ausgangsmaterial vorhanden wäre - die EDICT Version ist doch sehr primitiv. Gibt es noch irgendwo aktuelle SQL-Dumps oder halt irgendwas, wo man mehr oder weniger einfach 'nen Parser (Perl oder besser gleich lex) für basteln kann?
|
|
|
|
irgendwer
Joined: 19/03/2009 06:46:45
Messages: 15
Location: 北陸
Offline
|
Ich bumpe diesen Thread nocheinmal, um meine Bitte zu wiederholen und die Problematik erneut zu schildern:
- die momentane EPWING - Version (200 ist defekt. Das ist besonders problematisch, weil
1.) es keine vernünftige Reader-software für Linux gibt, die damit umgehen kann
2.) man ohne EPWING - Version nicht in multiplen Wörterbüchern gleichzeitig suchen kann
3.) bisher für ANDROID die einzige Möglichkeit Wadoku vernünftig zu nutzen die Software Droidwing ist, die jedoch öfter mal abstürzt wg. der defekten EPWING Version.
Kurzum: Fast sämtliche Software, die auf der Bibliothek eblib/libeb aufbaut, bekommt Probleme und das sind fast alle (freien/linuxbasierten) EPWING-reader
Das ist besonders schade, weil die Einträge der neuen EPWING-Version offenbar mit viel Sorgfalt gemacht wurden (was Zusatzinformationen und Beispielsätze angeht).
Es wäre daher sehr sehr hilfreich wenn
- jemand vom Wadoku - Team eine neue EPWING Version bereitstellt
- jemand vom Wadoku - Team irgendeine Version bereitstellt, z.B. einen SQL-Dump etc., bei dem nicht derartig viele Informationen fehlen wie bei dem aktuellen EDICT-Dump. Das EDICT-Format ist einfach extrem beschränkt. Auf Basis dessen könnten dann andere Nutzer (ich persönlich würde mich zumindestens bemühen, was ordentliches hinzukriegen) eine neue EPWING-Version erstellen.
Es wäre noch viel viel hilfreicher wenn
- jemand die FreePWING-Skripte (ich nehme an FreePWING wurde benutzt, zumindestens laut Readme in der 2005er EPWING-Version) zur Verfügung stellen würde, denn dann müsste man bei der Konvertierung nicht bei 0 anfangen, sondern könnte sich darauf konzentrieren die Bugs der aktuellen EPWING-Version zu beheben.
Überhaupt wäre es nett, die ganzen Änderungen (ist ja auch schon 2 Jahre her) mal in einer aktuellen Version zu haben.
Ich helfe gerne aus und unterstützte wo ich kann, wobei ich trotz Perl-Kenntnissen noch keinen rechten Durchblick über die FreePWING Bibliothek habe, da die ganze Doku in Japanisch...
|
|
|
|
Niremori
Joined: 31/05/2006 14:32:12
Messages: 549
Offline
|
irgendwer wrote:Ich bumpe diesen Thread nocheinmal, um meine Bitte zu wiederholen und die Problematik erneut zu schildern:
<snip>
Ich helfe gerne aus und unterstützte wo ich kann, wobei ich trotz Perl-Kenntnissen noch keinen rechten Durchblick über die FreePWING Bibliothek habe, da die ganze Doku in Japanisch...
Frage ans Wadoku - Team:
Hat irgendwer keine Antwort verdient? (Ein "Wir haben gerade keine Zeit, uns um dieses Problem zu kuemmern." wuerde vielleicht schon reichen.)
niremori
|
|
|
|
Dan
Joined: 24/05/2006 16:58:45
Messages: 1280
Offline
|
Naja, eher so: Es ist viel zu tun und nur wenig Zeit :/
Leider kann ich auch nur sagen, dass ich nicht viel mehr zur letzten EPWING-Version weiß, als irgendwer.
Nichtsdestotrotz habe ich eigentlich recht erfolgreich am Wochenende ein wenig mit eb4j herumgespielt. Die grundsätzliche Vorgehensweise ist somit klar, diese muss "nur" in einen entsprechenden Algorithmus gebracht werden…
Das Ganze wird allerdings Zeit kosten, vor allem wegen der Gaiji, aber auch wegen der einzusetzenden Formatierung und den Links zwischen den Einträgen, da ich da ebenso bei Null anfangen muss. Bei EDICT fällt das ja unter den Tisch.
Ansonsten steht zu beachten, dass noch etwa 38.000 Einträge bearbeitet werden müssen, einmal wegen der Form und eventueller Verlinkungen. In einer Stunde schafft man je nach Aufwand so 20-50 Einträge. Also könnt ihr euch ausrechnen, wie lange das etwa dauern wird. Ein erste Möglichkeit dabei ist natürlich, diese Einträge beim Export auszulassen.
|
無知の知 |
|
|
|
irgendwer
Joined: 19/03/2009 06:46:45
Messages: 15
Location: 北陸
Offline
|
ob eb4j oder EBStudio: alle diese Tools akzeptieren ja eine HTML/XML Datei als input mit speziellen Tags.
wie schon gesagt: Wenn die Zeit knapp ist: Fall ein SQL - Dump oder irgendetwas "parse"-bares da ist, bastel' ich gerne einen Parser, der das ganze in ein XML - File umwandelt, welches von EBStudio oder eb4j akzeptiert wird (das bei eb4j auch mit XML2EB ein Tool zum Erstellen von Büchern dabei ist, hatte ich bisher übersehen). Falls das Wadoku-Team schon gewisse Vorstellungen was die Aufbereitung der Daten angeht hat, versuche ich das gerne miteinzubinden.
Wenn 38000 unbearbeitete Einträge da sind, ist das sicherlich nicht schön und man sollte die vielleicht erstmal auslassen, aber: solange sich das ursprüngliche Datenformat (ich nehme an, das "Herz" von wadoku ist einfach SQL und neue Einträge etc. kommen zunächst mal auf den Webserver?!) sich nicht ändert, funktioniert ein einmal entwickelter Parser auch später, wenn die Einträge nach und nach abgearbeitet werden.
Ich hoffe, das Folgende klingt nicht zu angreifend/vorwurfsvoll, da ich die ehrenamtliche Arbeit der zahlreichen Mitarbeiter und Unterstützter von Wadoku nicht schmälern möchte, aber:
Ich kann verstehen, wenn Wadoku nicht so gern SQL-Dumps zur Verfügung stellen möchte (mögliche Forks des Projektes etc., Problematik der Verwendung der Daten in kommerziellen Projekten) aber nur als Hinweis: Es gibt eine Menge fähiger Menschen die Umwandlung in die unzähligen Formate die so existieren (EPWING, EDICT, OSX-Wörterbuch, Stardict etc. etc.) sicherlich _für Wadoku_ erledigen würden, wenn sie nur irgendwie anfangen könnten Oder um es anders zu sagen: Wenn besseres Rohdatenmaterial da wäre, hätte ich sicherlich schon vor fünf Monaten angefangen einen Parser zu basteln
Im Moment ist es einfach sehr schade, daß die neueste, nutzbare offline-Version von Wadoku eine 2 Jahre alte edict-Version ist.
|
|
|
|
ralferly
Joined: 10/07/2006 19:43:01
Messages: 82
Offline
|
Dan wrote:Ansonsten steht zu beachten, dass noch etwa 38.000 Einträge bearbeitet werden müssen, einmal wegen der Form und eventueller Verlinkungen. In einer Stunde schafft man je nach Aufwand so 20-50 Einträge. Also könnt ihr euch ausrechnen, wie lange das etwa dauern wird. Ein erste Möglichkeit dabei ist natürlich, diese Einträge beim Export auszulassen.
Wäre es denn dann nicht günstig, die gesamte Supporterschaft zu mobilisieren, instruieren und den workload abtragen zu lassen, soz. einen "Wadoku-Day of Good Will" einzuberufen? Viele Hände schaffen mehr als nur ein paar. Und oftmals hält einen nur die Unwissenheit ab, wie was funktioniert oder wie was eingeordnet wird. Wenn da zeitnah geholfen werden könnte, z.B. im Forum oder via Skype oder so, wäre das echt ne optimale Geschichte, denke ich.
|
wadoku user |
|
|
|
Dan
Joined: 24/05/2006 16:58:45
Messages: 1280
Offline
|
ralferly: Das ist natürlich eine nette und gut klingende Idee. Allein das "zeitnah" dürfte schon ein Problem sein. Und ich weiß auch nicht, ob sich da so viele Supporter finden, die längerfristig bereit sind mitzuarbeiten. Denn bisher ist es ziemlich mau. Denn meist scheint der anfängliche Enthusiasmus der meisten recht schnell wieder zu verfliegen. Aber das sollten wir vielleicht in einem Extra-Thread diskutieren.
irgendwer: Die Daten in irgendwas anderes zu wandeln ist nicht das Problem. Der größte Aufwand ist die Pflege der Daten. Und wenn man die unbearbeiteten Daten ausläßt, bleibt eigentlich nur vergleichsweise(!) wenig neues übrig, so dass das den Nutzern auch nicht viel mehr bringen dürfte als eine Datei mit neuerem Datum.
Ich denke gerade über folgendes nach, was ja nun einfacher ist, nach der Konsolidierung der Daten in der neuen Wadoku-Version (vorher waren die Daten ja über die neue und alte Version verteilt): Ich denke, es könnte zum Jahresende (das sollte genug Zeit zur Vorbereitung lassen) neue Versionen der Daten gibt. In welcher Form ist zu klären, wohl wieder EDICT, EPWING und die Rohdaten im existierenden XML-Format.
|
無知の知 |
|
|
|
irgendwer
Joined: 19/03/2009 06:46:45
Messages: 15
Location: 北陸
Offline
|
ich habe aus dem Januar 2012 XML-Dump eine neue EPWING-Version erstellt. Downloadbar hier: http://www.megaupload.com/?d=5F2X92NB Das ganze ist als Beta anzusehen. Es gibt noch einige Dinge zu verbessern. Die Version sollte aber voll funktionsfähig sein. Da ich in nächster Zeit sehr beschäftigt bin, dachte ich, es ist besser die momentante Version einfach hochzuladen - besser als keine. Es wäre nett, wenn Interessierte das auf ihrerm Lieblingsreader ausprobieren und Fehler hier berichten würden. Falls die Version sich als halbwegs stabil herausstellen würde, wäre es toll wenn man die Version (markiert als Beta) auf die Downloadseite stellen könnte - diese Fileuploader sind ja eher eine Notlösung. Die Umwandlungsskripte sind hier auf github: https://github.com/irgendw3r/wadokuepwing (Code ist sehr ... kitanai, gomen ne Known Bugs/todo - Liste - für ca. 290 Unicodezeichen gibt es keine direkten ShiftJIS-Enstprechungen. Es handelt sich dabei meist um nicht-joyou Kanji, einzelne Radikale und CJK-unifizierte Zeichen. Zur Zeit steht im Wörterbuch anstatt eines solchen Zeichens schlicht die unicode-Nummer in Hex. Dementsprechend sind solche Einträge auch nicht indiziert. Für diese Zeichen müssen entweder Gaiji-Bitmaps erstellt werden - dann sind sie aber ebenfalls nicht indizierbar. Oder so hoffe ich, gibt es doch sinnvolle ShiftJIS-Pendants, die in den offizellen Empfehlungen ftp://ftp.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/SHIFTJIS.TXT nicht aufgeführt sind. Leider ist das schlecht automatisierbar. - Links innerhalb dieser EPWing-version funktionieren nicht. Man muss das Wort auf das verlinkt wird manuell markieren und danach suchen - Es werden derzeit nicht alle Informationen der Einträge verarbeitet. Das Parsen des Wadoku XML ist schon recht komplex (und manchmal auch ein bisschen komisch: z.B. ist mir nicht ganz klar wieso Einträge mit so leicht kryptischen Infos wie △ etc. markiert werden statt XML-Tags zu verwenden. Auch bin ich mir nicht sicher, wofür ' inmitten von Lesungen stehen... ich habe dazu im Wiki nichts gefunden...) Ich habe schlicht system's konverter für das MacDic benutzt. Zuerst hatte ich ein xslt geschrieben... was aber einfach zu langsam war. Ehrlich gesagt, scheint mir XSLT nach groben Überfliegen von http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=5273945 nicht ganz unproblematisch für Wadoku. Summa sumarum, es gibt im Moment leider nur Hiragana, Kanji und Bedeutung. - Formatierung der Einträge. Wadoku leidet ja stark unter Komposita, imho sind es für eine EPWING-Version fast schon zu viele. Man sieht das ja auch, wenn man auf der Hauptseite z.B. nach 日本語 sucht und mehr als 40 Einträge bekommt. In anderen Wörterbüchern steht noch nicht einmal 日本語 drin, sondern nur 日本 und 語. Ich werde versuchen in Zukunft diese Komposita in einen Eintrag zu verfrachten. Die Frage ist, ob man dann solche Komposita indiziert (um dann wieder so viele Suchergebnisse zu haben) oder einfach nicht indiziert...
|
|
|
|
Dan
Joined: 24/05/2006 16:58:45
Messages: 1280
Offline
|
Vielen Dank irgendwer für deine Arbeit!
Die Datei ist auf dem Server gespiegelt ( Link) und unter http://www.wadoku.de/wiki/display/WAD/Downloads+und+Links eingetragen.
Ein Parsen per Skript ist immer aufwendiger als eine Umwandlung per XSLT. Deswegen fände ich es gut, wenn du deine XSLT-Datei ebenfalls zu den Skripten tun könntest. Wie schon geschrieben, ist das Umwandeln der XML-Daten per XSLT am Stück mit Saxon-EE kein Problem, die Umwandlung ist mit 1GB Speicher für die JVM in unter einer Minute erledigt, anstelle der sonstigen ca. 230 Minuten.
Was die Komposita angeht, sehe ich da kein Problem, Kenkyushas 新和英大辞典 ist noch umfangreicher.
|
無知の知 |
|
|
|
irgendwer
Joined: 19/03/2009 06:46:45
Messages: 15
Location: 北陸
Offline
|
Das XSLT funktionierte auf einem kleinen Sample von 1000 Einträgen. Für das gesamte Wadoku ist noch viel Nacharbeit nötig, denn EBStudio[1] stürzt bei nicht-validem Input gern ohne jegliche Fehlermeldung ab. Ohne hinreichend schnellen XSLT-Prozessor ist es unmöglich für mich, zu testen, was überhaput fehlerhaft ist. 300 Pfund für Saxon-EE ist für mich unbezahlbar.
Eine mögliche Alternative wäre STX, damit habe ich mir aber noch nicht beschäftigt.
XSLT mag sehr praktische für den Server sein, und auch um damit automatisiert dann halbjährlich Konvertierungen durchzuführen. Aber
1.) es wird für EPWING sowieso immer viel händische Nacharbeit nötig sein (wg. Unicode <-> SJIS),
2.) XSLT ist wg. der Performanceprobleme für irgendwelche Third-Party Entwickler unmöglich zu benutzen. Falls jemand einen freien + schnellen XSLT-Prozessor kennt, her damit!
Ich werde mal schauen, was sich machen läßt.
Dan wrote:
Was die Komposita angeht, sehe ich da kein Problem, Kenkyushas 新和英大辞典 ist noch umfangreicher.
EBPocket blockiert teilweise >10s bei manchen Anfragen (HTC Magic).
--
[1] ist alternativlos, denn es hilft beim automatischen Erstellen von Gaiji; wesentlich einfacher als FreePWING, und xml2eb aus dem EB4J erzeugt leider (defekte?) Wörterbücher, die manche Reader, z.B. EBWin, nicht lesen können...
|
|
|
|
McDohl
Joined: 07/04/2020 14:23:35
Messages: 2
Offline
|
irgendwer wrote:
...
2.) XSLT ist wg. der Performanceprobleme für irgendwelche Third-Party Entwickler unmöglich zu benutzen. Falls jemand einen freien + schnellen XSLT-Prozessor kennt, her damit!
...
Hallo allerseits,
ich stoße auch jetzt nach 8 Jahren auf die 24-dot-gaiji. Verwendetes Tool: ebview unter Ubuntu 19.10.
Nach meiner Einschätzung (bin selbst Software-Entwickler) sollte man hier Python+lxml oder Ruby+nokogiri in Betracht ziehen, oder ohne Umstieg der Programmiersprache https://metacpan.org/release/XML-LibXSLT.
Alle 3 Varianten setzen auf den gleichen Unterbau und sollten geeignet sein. Ich finde aber Python im Allgemeinen schöner, zumal sich der Code „cythonisieren“ (nach C transpilieren) lässt, wenn die Performance in der Skript-Laufzeit ein Thema ist.
Im Notfall versuche ich mich selbst am Skript, aber da ich vom Inhalt wenig Ahnung habe, wäre der Aufwand evtl. nicht gerechtfertigt.
Grüße und viel Spaß beim Lernen,
McDohl
|
|
|
|
|
|