Wadoku.de Forum
  [Search] Search   [Recent Topics] Recent Topics   [Hottest Topics] Hottest Topics  
[Register] Register /  [Login] Login 
Ankündigung: Neue EPWING-Version verfügbar  RSS feed
Forum Index » wadoku.de
Author Message
Dan


[Avatar]

Joined: 24/05/2006 16:58:45
Messages: 1261
Offline

Der Link in meinem vorigen Posting war kaputt, ich habe ihn jetzt korrigiert.
Sonst nochmal hier http://www.wadoku.de/forum/posts/list/865.page

無知の知
raizen



Joined: 06/07/2009 23:44:26
Messages: 3
Offline

Ok, ich habe basierend auf der EDICT-Datei ein CSV gemacht. War recht viel Handarbeit nötig, hoffentlich sind keine Fehler passiert. Das File ist so optimiert, dass es mit

create table wadoku (pattern varchar(1000) not null,
reading varchar(100) not null,
translation varchar(1000) not null)
character set utf8 collate utf8_general_ci;

load data infile 'C:\\dein_verzeichnis\\wadoku.csv' into table wadoku character set utf8 fields terminated by ',';

in eine MySql Datenbank geladen werden kann. Falls es mehrere Ausdrücke oder Übersetzungen gibt, sind diese mit dem Zeichen "|" voneinander getrennt (man kann dieses Trennzeichen aber auch gerne durch ein anderes ersetzten). Ein echtes Komma ist mit "\" escaped.

Ich habe leider keinen Web Space: wenn jemand die Datei (10 MB) möchte, kann ich sie gerne irgendwohin hochladen.

Viele Grüsse,
Chris
Jay



Joined: 15/07/2009 21:08:04
Messages: 2
Offline

An dieser (nicht ganz passenden) Stelle möchte ich mich auch dem Wunsch nach einem SQL-Dump anschließen. Nachteilig an den zwei derzeit angebotenen Formaten EPWING und EDICT finde ich, dass bei EPWING praktisch keine für mich verwertbaren (sprich in deutsch oder englisch gehaltene) Informationen zum Dateiformat verfügbar sind, und bei den EDICT Daten besonders interessante Zusatzinformationen wie Wortart, Bedeutungsgruppen, und ähnliche fehlen.
Es wäre wirklich schön, wenn die Daten des WaDoKu in größerer Detailfülle und einfacher erschließbar verfügbar gemacht werden könnten.

Schöne Grüße
Jay


PS: Man sehe mir bitte nach, dass mein erster Beitrag im Forum gleich einen Wunsch darstellt
boscowitch



Joined: 23/09/2008 16:03:04
Messages: 231
Location: ケルン
Offline

hmm ich fand den SQL dump bis jetzt auch am praktischten weil man ohne große probleme ein script schreiben kann das dank libsqlite oder änlichem es in jedes gewünschte format bringen kann oder halt in sqlite, und dadurch einge gute suche hat.

das EPWING format ist echt nicht so gut, nur für PPC oder änliche devices...

solange also die export funktionen noch nicht fertig sind wäre es doch am einfachsten ein relativ aktuellen sql dump zu verfügung zu stellen, da es ja auch am wenigsten aufwand macht es zu erstellen (is ja eh schon in einer SQL datenbank).

Mfg
Boscowitch
irgendwer



Joined: 19/03/2009 06:46:45
Messages: 15
Location: 北陸
Offline

ich nutze EBView unter Ubuntu 9.10, zusammen mit anderen EBWING Wörterbüchern u.a. zusammen mit Wadoku.

Leider gibt es irgendwelche Probleme mit den gaiji. Sobald man in Wadoku sucht, bekommt man fortwährend eine Fehlermeldung "cannot find 24 dot gaiji. Use 16 dot instead". Klickt man die Fehlermeldung weg, dann kommt direkt die nächste.
Gibt es Pläne, an einer verbesserten Version mit EPWING zu arbeiten? Ich könnte mir gut vorstellen, daß die Probleme bei DDWin ähnliche Ursachen haben.

Das Problem ist, daß unter Linux EBView eigentlich der einzig vernünftig nutzbare EPWING-Viewer ist. Andere Viewer sind veraltet und werden nicht mehr maintaint, oder einfach so kryptisch und schwierig zu installieren (eblokup/Emacs oder Vim, massig Probleme mit japanischer Anzeige und Eingabe), daß es sich nicht lohnt. Wine ziert sich auch, zwar nicht bei der Darstellung, jedoch bei der Eingabe von Japanisch.

boscowitch



Joined: 23/09/2008 16:03:04
Messages: 231
Location: ケルン
Offline

Das problem kenn ich auch, die frage ist muss es umbedingt EPWING sein ?
ich hab mir für linux ein set von tools und formaten gemacht,
auserdem ist die version von wadoku bei denen sogar aktueller

1.Gjiten format http://www.wadoku.de/forum/posts/list/1097.page
2.Für Stardict http://www.wadoku.de/forum/posts/list/1116.page (und falls installier erkenn es auch Goldendict http://www.wadoku.de/forum/posts/list/1118.page)


dann noch nicht wörterbücher aber hilfreiche tools zu lernen:
1. Random Wadoku Screenlet Widget für den Desktop http://www.wadoku.de/forum/posts/list/1127.page
2. Wadoku Notify sucht automamtisch nach jedem makierten text in einer lokalen wadoku datenbank und zeigts blitzschnell an (je nach rechner leistung) http://www.wadoku.de/forum/posts/list/1141.page

appropo alle software ist im ubuntu per repository installierbar,
gjiten
stardict (qstardicto oder auch eine gtk version)
screenlets

gruß Boscowitch

edit:äh ja gehirnknoten danke für die korrektur. und natürlich wäre ne EPWING version die korrekt ist kein verlust ich bin der erste der dafür ist noch mehr formate zu unterstüzen.

Das einzige ist halt das die Suchergebnissreihenfolge bei EPWING meist nicht sehr toll sind, momentan arbeit ich an einer idee das offline noch zu verbessern vieleicht eine software in der man die Reihenfolge korrigieren kann.
Dann die Daten wieder speichert von denen man dann eine epwing usw machen kann.
Auserdem hat sich als sehr gut erwisen die Suchergebnisse nach länge der Lesung aufsteigend (ohne sonder Zeichen) zu sortiere.

Fals sich jemand mit der EPWING library auskennt immer her mit euch
Dan


[Avatar]

Joined: 24/05/2006 16:58:45
Messages: 1261
Offline

boscowitch wrote:Das problem kenn ich auch, die frage ist muss es umbedingt edict sein ?

Du meist sicher EPWING, bitte nicht verwechseln Und wenn man schon andere Wörterbücher in diesem Format hat - EPWING ist ein japanischer (Wörterbuch)-Standard - liegt es doch nahe, nicht extra eine weitere Anwendung installieren zu wollen.

irgendwer wrote:Leider gibt es irgendwelche Probleme mit den gaiji.

Das ist ein Problem mit den EPWING-Daten. Da ist beim Konvertieren wohl ein kleiner Fehler passiert. Am Viewer liegt es nicht.

無知の知
irgendwer



Joined: 19/03/2009 06:46:45
Messages: 15
Location: 北陸
Offline

boscowitch wrote:Das problem kenn ich auch, die frage ist muss es umbedingt EPWING sein ?


Ja - alle kommerziellen Wörterbücher (Crown Dokuwa, Consaizu Wadoku, Daijirin), die ich besitze, sind im EPWING-Format. Deshalb ist es ja so interessant, Wadoku.de im EPWING-Format zu bekommen, weil EPWING die einzige Möglichkeit ist, die verschiedenen kommerziellen Wörterbücher mit Wadoku.de in einer Viewer-Software zu benutzen.

irgendwer wrote:
Gibt es Pläne, an einer verbesserten Version mit EPWING zu arbeiten?


Da darauf nicht geantwortet wurde, nehme ich dann mal an, die Antwort ist leider "Nein". Schade. Vielleicht, wenn Ihr den nächstens Praktikanten bekommt
boscowitch



Joined: 23/09/2008 16:03:04
Messages: 231
Location: ケルン
Offline

hmm praktikanten wären nice ^^

momentan schein ich so der einzige zu sein der im bereich wadoku auf PC ect. arbeitet, also wenn ich irgendwann mal zeit hab dann ....

na ja ich setz es mal auf meine ellenlange todo liste, leider is halt auch noch die uni da die mir dauernd aufgaben gibt wozu eigentlcih keiner ne lösung will
irgendwer



Joined: 19/03/2009 06:46:45
Messages: 15
Location: 北陸
Offline

Ist die Person, die damals die EPWING-Version erstellt hat, denn noch irgendwie erreichbar?

Ich habe mal heute selbst eine EPWING-Version erstellt, basierend auf dem neuesten EDICT-Dump und

hier auf rapidshare hochgeladen...: http://rapidshare.com/files/386073953/wadoku.zip.html

Wer will, kann da gerne mal mit rumspielen; ich hoffe auch, daß ist im Sinne der Lizenz.

Die Fehler bezüglich der Gaiji sind jetzt gelöst, zumindestens funktioniert das hier mit EBView und EBWin, jedoch sind die _Suchergebnisse_ nicht mehr so schön sortiert und gruppiert. Zum einen war meine Aufbereitung der Daten wahrscheinlich etwas schlampig (ein paar zusammengehackte RegExps), zum anderen nutzte ich eine unregistrierte Version von EBStudio, so daß nicht alle Indizes erstellt werden konnten, was die Suche einschränkt.

Bei letzterem bin ich mir bzgl. der Lizenz auch nicht so sicher, und ob ich das damit erstellte Wörterbuch hier überhaupt posten darf...

Es sind sicher auch zahlreiche Fehler drin, da daß Quellmaterial ja evtl. Fehler hat (siehe Thread) und ich einfach RegExps benutzt habe, im Vertrauen, daß das schon paßt...

Mich würde interessieren, wie die Person vorher die EPWING-Version erstellt hat. Da bei EPStudio Gaiji-Maps für die üblichen europäischen Zeichen (also Umlaute) mitgeliefert werden, wäre es interessant, das in den vorher benutzten Weg miteinzubinden (Umlaute), bzw. nicht-darstellebare Zeichen zuerst aus dem Quellmaterial zu entfernen (nicht unbedingt benötigte Sonderzeichen). Wenn ich mir das Resultat so anschaue, denke ich, der vorherige Ersteller hat einen ähnlichen Weg benutzt, aber im Quellmaterial einfach an manchen Stellen Sonderzeichen, die nicht in der JIS-Spezifikation sind, nicht entfernt bzw. auch keine gaiji-maps erstellt... Ich denke, wenn der ursprüngliche Weg im Sinne eines Skriptes etc. einfach reproduzierbar wäre, wäre es ein nicht so großer Aufwand, daß zu verändern.

(sorry wenn ich damit so nerve, aber das Crown 独和 zusammen mit wadoku.de und Daijirin ist sehr sehr praktisch ...)

EDIT (auf ein drittes): Ich denke es wäre sicherlich möglich, eine schönere EPWING-Version zu basteln wenn besseres Ausgangsmaterial vorhanden wäre - die EDICT Version ist doch sehr primitiv. Gibt es noch irgendwo aktuelle SQL-Dumps oder halt irgendwas, wo man mehr oder weniger einfach 'nen Parser (Perl oder besser gleich lex) für basteln kann?
irgendwer



Joined: 19/03/2009 06:46:45
Messages: 15
Location: 北陸
Offline

Ich bumpe diesen Thread nocheinmal, um meine Bitte zu wiederholen und die Problematik erneut zu schildern:

- die momentane EPWING - Version (200 ist defekt. Das ist besonders problematisch, weil
1.) es keine vernünftige Reader-software für Linux gibt, die damit umgehen kann
2.) man ohne EPWING - Version nicht in multiplen Wörterbüchern gleichzeitig suchen kann
3.) bisher für ANDROID die einzige Möglichkeit Wadoku vernünftig zu nutzen die Software Droidwing ist, die jedoch öfter mal abstürzt wg. der defekten EPWING Version.

Kurzum: Fast sämtliche Software, die auf der Bibliothek eblib/libeb aufbaut, bekommt Probleme und das sind fast alle (freien/linuxbasierten) EPWING-reader

Das ist besonders schade, weil die Einträge der neuen EPWING-Version offenbar mit viel Sorgfalt gemacht wurden (was Zusatzinformationen und Beispielsätze angeht).

Es wäre daher sehr sehr hilfreich wenn

- jemand vom Wadoku - Team eine neue EPWING Version bereitstellt
- jemand vom Wadoku - Team irgendeine Version bereitstellt, z.B. einen SQL-Dump etc., bei dem nicht derartig viele Informationen fehlen wie bei dem aktuellen EDICT-Dump. Das EDICT-Format ist einfach extrem beschränkt. Auf Basis dessen könnten dann andere Nutzer (ich persönlich würde mich zumindestens bemühen, was ordentliches hinzukriegen) eine neue EPWING-Version erstellen.

Es wäre noch viel viel hilfreicher wenn
- jemand die FreePWING-Skripte (ich nehme an FreePWING wurde benutzt, zumindestens laut Readme in der 2005er EPWING-Version) zur Verfügung stellen würde, denn dann müsste man bei der Konvertierung nicht bei 0 anfangen, sondern könnte sich darauf konzentrieren die Bugs der aktuellen EPWING-Version zu beheben.

Überhaupt wäre es nett, die ganzen Änderungen (ist ja auch schon 2 Jahre her) mal in einer aktuellen Version zu haben.

Ich helfe gerne aus und unterstützte wo ich kann, wobei ich trotz Perl-Kenntnissen noch keinen rechten Durchblick über die FreePWING Bibliothek habe, da die ganze Doku in Japanisch...
Niremori



Joined: 31/05/2006 14:32:12
Messages: 549
Offline

irgendwer wrote:Ich bumpe diesen Thread nocheinmal, um meine Bitte zu wiederholen und die Problematik erneut zu schildern:

<snip>

Ich helfe gerne aus und unterstützte wo ich kann, wobei ich trotz Perl-Kenntnissen noch keinen rechten Durchblick über die FreePWING Bibliothek habe, da die ganze Doku in Japanisch...


Frage ans Wadoku - Team:

Hat irgendwer keine Antwort verdient? (Ein "Wir haben gerade keine Zeit, uns um dieses Problem zu kuemmern." wuerde vielleicht schon reichen.)

niremori
Dan


[Avatar]

Joined: 24/05/2006 16:58:45
Messages: 1261
Offline

Naja, eher so: Es ist viel zu tun und nur wenig Zeit :/

Leider kann ich auch nur sagen, dass ich nicht viel mehr zur letzten EPWING-Version weiß, als irgendwer.

Nichtsdestotrotz habe ich eigentlich recht erfolgreich am Wochenende ein wenig mit eb4j herumgespielt. Die grundsätzliche Vorgehensweise ist somit klar, diese muss "nur" in einen entsprechenden Algorithmus gebracht werden…

Das Ganze wird allerdings Zeit kosten, vor allem wegen der Gaiji, aber auch wegen der einzusetzenden Formatierung und den Links zwischen den Einträgen, da ich da ebenso bei Null anfangen muss. Bei EDICT fällt das ja unter den Tisch.

Ansonsten steht zu beachten, dass noch etwa 38.000 Einträge bearbeitet werden müssen, einmal wegen der Form und eventueller Verlinkungen. In einer Stunde schafft man je nach Aufwand so 20-50 Einträge. Also könnt ihr euch ausrechnen, wie lange das etwa dauern wird. Ein erste Möglichkeit dabei ist natürlich, diese Einträge beim Export auszulassen.

無知の知
irgendwer



Joined: 19/03/2009 06:46:45
Messages: 15
Location: 北陸
Offline

ob eb4j oder EBStudio: alle diese Tools akzeptieren ja eine HTML/XML Datei als input mit speziellen Tags.

wie schon gesagt: Wenn die Zeit knapp ist: Fall ein SQL - Dump oder irgendetwas "parse"-bares da ist, bastel' ich gerne einen Parser, der das ganze in ein XML - File umwandelt, welches von EBStudio oder eb4j akzeptiert wird (das bei eb4j auch mit XML2EB ein Tool zum Erstellen von Büchern dabei ist, hatte ich bisher übersehen). Falls das Wadoku-Team schon gewisse Vorstellungen was die Aufbereitung der Daten angeht hat, versuche ich das gerne miteinzubinden.
Wenn 38000 unbearbeitete Einträge da sind, ist das sicherlich nicht schön und man sollte die vielleicht erstmal auslassen, aber: solange sich das ursprüngliche Datenformat (ich nehme an, das "Herz" von wadoku ist einfach SQL und neue Einträge etc. kommen zunächst mal auf den Webserver?!) sich nicht ändert, funktioniert ein einmal entwickelter Parser auch später, wenn die Einträge nach und nach abgearbeitet werden.

Ich hoffe, das Folgende klingt nicht zu angreifend/vorwurfsvoll, da ich die ehrenamtliche Arbeit der zahlreichen Mitarbeiter und Unterstützter von Wadoku nicht schmälern möchte, aber:

Ich kann verstehen, wenn Wadoku nicht so gern SQL-Dumps zur Verfügung stellen möchte (mögliche Forks des Projektes etc., Problematik der Verwendung der Daten in kommerziellen Projekten) aber nur als Hinweis: Es gibt eine Menge fähiger Menschen die Umwandlung in die unzähligen Formate die so existieren (EPWING, EDICT, OSX-Wörterbuch, Stardict etc. etc.) sicherlich _für Wadoku_ erledigen würden, wenn sie nur irgendwie anfangen könnten Oder um es anders zu sagen: Wenn besseres Rohdatenmaterial da wäre, hätte ich sicherlich schon vor fünf Monaten angefangen einen Parser zu basteln

Im Moment ist es einfach sehr schade, daß die neueste, nutzbare offline-Version von Wadoku eine 2 Jahre alte edict-Version ist.
ralferly


[Avatar]

Joined: 10/07/2006 19:43:01
Messages: 82
Offline

Dan wrote:Ansonsten steht zu beachten, dass noch etwa 38.000 Einträge bearbeitet werden müssen, einmal wegen der Form und eventueller Verlinkungen. In einer Stunde schafft man je nach Aufwand so 20-50 Einträge. Also könnt ihr euch ausrechnen, wie lange das etwa dauern wird. Ein erste Möglichkeit dabei ist natürlich, diese Einträge beim Export auszulassen.
Wäre es denn dann nicht günstig, die gesamte Supporterschaft zu mobilisieren, instruieren und den workload abtragen zu lassen, soz. einen "Wadoku-Day of Good Will" einzuberufen? Viele Hände schaffen mehr als nur ein paar. Und oftmals hält einen nur die Unwissenheit ab, wie was funktioniert oder wie was eingeordnet wird. Wenn da zeitnah geholfen werden könnte, z.B. im Forum oder via Skype oder so, wäre das echt ne optimale Geschichte, denke ich.

wadoku user
[ICQ]
 
Forum Index » wadoku.de
Go to: