Wadoku.de Forum
  [Search] Search   [Recent Topics] Recent Topics   [Hottest Topics] Hottest Topics  
[Register] Register /  [Login] Login 
Messages posted by: Dan
Forum Index » Profile for Dan » Messages posted by Dan
Message
Hallo liebe Gemeinde,

Vielen Dank an dieser Stelle für die langjährige Nutzung, Mitarbeit und Verständnis dafür, dass ein Wörterbuchprojekt eine langwierige Sache ist.

Viele haben sicherlich schon lange auf aktualisierte Daten des Wadoku-Projektes gewartet. Deshalb freuen wir uns, heute diese Daten bereitstellen zu können.

Zuerst einmal sind das die Rohdaten, auf denen die gesamte Online-Suche beruht in Form des nativ verwendeteten XML-Formats, und gleichzeitig das Ganze konvertiert ins Edict(2)-Format.

Ein kleiner Hinweis zum Umfang der Daten. Aus Gründen der Qualitätssicherung blieben die bisher noch nicht durchgesehenen neuen Eintrage draußen, um allen Nutzern eine gesicherte und vertrauensvolle Datenbasis zu geben. Fehler sind jedoch nie auszuschließen, sowohl in der Formatierung als auch im Inhalt der Daten.

Solltet ihr also auf Fehler stoßen, bitte meldet sie, damit sie mit der Zeit behoben werden können. Neueinträge sind natürlich genauso willkommen.

Eine Übersicht über die Download-Varianten findet ihr hier (http://www.wadoku.de/wiki/display/WAD/Downloads+und+Links).

Nachdem nun die Migration auf die neue Wadoku-Version vollzogen ist und wir endlich eine konsolidierte Datenbasis besitzen, kann eine regelmäßige Veröffentlichung der Daten stattfinden. Angepeilt wird deshalb zuerst eine halbjährliche Veröffentlichung.

Auf weitere fruchtbare Jahre
Euer Wadoku-Team.
system, Danke für den Hinweis, sollte wieder gehen.
@Luchsen
Es wäre schön, wenn du deine Probleme etwas ausführlicher und konkreter schildern könntest.
Was verwirrt dich? Oder ist etwas unklar? Was erscheint dir unübersichtlich bzw. welche Information interessiert dich und wird schlecht wahrgenommen?
Ich sehe bei mir keine Anzeichen, dass irgendwas durch Skripte ausgebremst wird.
Die alte Version wird noch eine Weile als Archiv zum Nachschlagen zur Verfügung stehen, aber auch nicht ewig.

@zocnifu
Danke für den Hinweis, da hat sich eine kleine Inkonsistenz eingeschlichen, die mittlerweile wieder behoben sein sollte.
Das erste ist der Name des Prinzen. Ich höre etwa:
アベベ王子がきのうこの町にいらっしゃいました。高校の時、王子はこの町の学校に留学いらっしゃいました。[…]その後高校へいらっしゃて、高校生とお話をなさいました。
Etwas Feedback zu den letzten Beiträgen.

Anzeige der Übersetzungen mit den Suchvorschlägen
Halte ich nicht wirklich für sinnvoll.

Selektion des Suchbegriffs in der Suchbox
Sollte nun dem alten Verhalten entsprechen, sprich selektiert sein, so dass man gleich den nächsten Suchbegriff eingeben kann.

Links zum Kanjilexikon
Wurden auf den Eintragsseiten mit eingefügt.

Bitte testet es mal
Hier die Kolumne für den Kontext: http://www.asahi.com/paper/column20101216.html
Meine Variante zu 母語にどっぷりつかっていると、犬や猫の鳴き声は画一的になりがちだ。

("wanwan" und "nyaa") intensiv in der Muttersprache gebraucht, neigen die Rufe von Hund und Katze dazu, einheitlich zu werden.
Hmm, da fällt mir noch ぶすかわいい ein. Was meiner Meinung nach auch passen könnte.
Die Transkription ist eher:
世中は夢かうつゝかうつゝとも夢とも知らず有てなければ
yo no naka wa yume ka utsutsu ka, utsutsu to mo yume to mo shirazu arite nakereba
Es ist wohl das Waka 942: 世中は夢かうつゝかうつゝとも夢とも知らず有てなければ
Die Einträge sind nicht gleich, die Lesungen unterscheiden sich jeweils.
ralferly: Das ist natürlich eine nette und gut klingende Idee. Allein das "zeitnah" dürfte schon ein Problem sein. Und ich weiß auch nicht, ob sich da so viele Supporter finden, die längerfristig bereit sind mitzuarbeiten. Denn bisher ist es ziemlich mau. Denn meist scheint der anfängliche Enthusiasmus der meisten recht schnell wieder zu verfliegen. Aber das sollten wir vielleicht in einem Extra-Thread diskutieren.

irgendwer: Die Daten in irgendwas anderes zu wandeln ist nicht das Problem. Der größte Aufwand ist die Pflege der Daten. Und wenn man die unbearbeiteten Daten ausläßt, bleibt eigentlich nur vergleichsweise(!) wenig neues übrig, so dass das den Nutzern auch nicht viel mehr bringen dürfte als eine Datei mit neuerem Datum.

Ich denke gerade über folgendes nach, was ja nun einfacher ist, nach der Konsolidierung der Daten in der neuen Wadoku-Version (vorher waren die Daten ja über die neue und alte Version verteilt): Ich denke, es könnte zum Jahresende (das sollte genug Zeit zur Vorbereitung lassen) neue Versionen der Daten gibt. In welcher Form ist zu klären, wohl wieder EDICT, EPWING und die Rohdaten im existierenden XML-Format.
Die Felder sind ja nicht obligatorisch, können also leer gelassen werden. Ansonsten kannst du die Vorschau verwenden, um zu schauen, wie dein Eintrag aussehen wird. Die Vorschau kann durchaus zum Ausprobieren verwendet werden, erst das Speichern erzeugt den Eintrag in der Datenbank.

"Lemma" entspricht dem Stichwort unter dem der Eintrag angezeigt wird. Dieses ist eigentlich nur notwendig, wenn es mehrere mögliche Schreibungen gibt, die man zusammengefasst darstellen möchte. Bsp.: 見出し語 wird auch 見出語 geschrieben (Im Japanisch-Feld stünde also etwa: 見出し語; 見出語). Das Lemma-Feld könnte dazu so aussehen: 見出(し)語

"Hatsuon" dient im Wesentlichen der Segmentierung der Lesung bei zusammengesetzten Wörtern und einiger Formatierung zur Anzeige der Romaji. Lässt man es leer, wird einfach die normale Lesung übernommen. Was in den meisten Fällen reicht.

Bei Unsicherheiten einfach die betreffenden Felder leer lassen.

刑事告発 = Zivilklage halte ich für nicht korrekt.
刑事告発 ist eher eine "(strafrechtliche) Anklage"
Zivilklage ist etwa 私訴 bzw. 私人訴追
Naja, eher so: Es ist viel zu tun und nur wenig Zeit :/

Leider kann ich auch nur sagen, dass ich nicht viel mehr zur letzten EPWING-Version weiß, als irgendwer.

Nichtsdestotrotz habe ich eigentlich recht erfolgreich am Wochenende ein wenig mit eb4j herumgespielt. Die grundsätzliche Vorgehensweise ist somit klar, diese muss "nur" in einen entsprechenden Algorithmus gebracht werden…

Das Ganze wird allerdings Zeit kosten, vor allem wegen der Gaiji, aber auch wegen der einzusetzenden Formatierung und den Links zwischen den Einträgen, da ich da ebenso bei Null anfangen muss. Bei EDICT fällt das ja unter den Tisch.

Ansonsten steht zu beachten, dass noch etwa 38.000 Einträge bearbeitet werden müssen, einmal wegen der Form und eventueller Verlinkungen. In einer Stunde schafft man je nach Aufwand so 20-50 Einträge. Also könnt ihr euch ausrechnen, wie lange das etwa dauern wird. Ein erste Möglichkeit dabei ist natürlich, diese Einträge beim Export auszulassen.
外面如菩薩内心如夜叉 ist richtig.
Ursprünglich war es wohl 外面似菩薩内心如夜叉, später kam dann 外面如菩薩内心如夜叉 in Gebrauch. Heute findet man aber auch 外面如菩薩内面如夜叉.
 
Forum Index » Profile for Dan » Messages posted by Dan
Go to: