Wadoku.de Forum
  [Search] Search   [Recent Topics] Recent Topics   [Hottest Topics] Hottest Topics  
[Register] Register /  [Login] Login 
Messages posted by: boscowitch
Forum Index » Profile for boscowitch » Messages posted by boscowitch
Message
habs bei wikisource gefunden; http://ja.wikisource.org/wiki/%E8%A6%AA%E7%88%B6%E3%81%AE%E5%B0%8F%E8%A8%80

und mal durch mecab gehaun das liefert die lesung in katakana,
das automatiscch ist ist das nich immer 100%ig richtig.

親父の小言

朝きげんよくしろ
人には馬鹿にされていよ
恩は遠くから返せ
子のいうこと八九はきくな
不吉は言うべからず
女房は早くもて
大めしは食うな
産前産後は大切にしろ
風吹きに遠出するな
貧乏は気にするな
何事も身分相応にしろ
小商い物値切るな
家内は笑って暮らせ

オヤジノコゴト
oyajinokotogoto

アサキゲンヨクシロ
asakigenyokushiro
ヒトニハバカニサレテイヨ
hitonihabakanisareteiru
オンハトオクカラカエセ
onhatookukarakaese
コノイウコトハチキュウハキクナ
konoiukotohachikyuuhakikuna
フキツハイウベカラズ
fukitsuhaiubekarazu
ニョウボウハハヤクモテ
nyoubouhahayakumote
ダイメシハクウナ
taimeshihakuuna
サンゼンサンゴハタイセツニシロ
sanzensangohataisetsunishiro
カゼフキニトオデスルナ
kazefukinitoodesuruna
ビンボウハキニスルナ
binbouhakinisuruna
ナニゴトモミブンソウオウニシロ
nanigotomomibunsouounishiro
コアキナイブツネギルナ
koakinaibutunegiruna
カナイハワラッテクラセ
kanaihawarattekurase

hier noch die ausgabe von mecab für die trennung, die ist immer sher mti vorsicht zu behandeln da oft anhängsel als einzeln angesehen werden:

親父 の 小言

朝 き げん よく しろ
人 に は 馬鹿 に さ れ て い よ
恩 は 遠く から 返せ
子 の いう こと 八 九 は きく な
不吉 は 言う べから ず
女房 は 早く もて
大 めし は 食う な
産前 産後 は 大切 に しろ
風 吹き に 遠出 する な
貧乏 は 気 に する な
何事 も 身分 相応 に しろ
小商い 物 値切る な
家内 は 笑っ て 暮らせ

edit: scheinen so sachen zu sein was nen vater an einem sohn sagt wie:

besorg dir schnell eine Frau,
hmm beispielsätze würde ich gern hinzufügen, aber irgendwie habe ich bedenken sie als Wörterbucheintrag hinzuzufügen da es irgendwie logisch nicht das selbe ist und Beispielsätze auch viel freier Übersetzt werden müssten.
verlinken wäre super aber durchmischen das bei ner suche beides kommt wirkt was unsauber, erst sollten die wörterbucheinträge kommen udnd dann vieleicht beispiele oder explicit eine Angabe möglich sein nach was man sucht.
Dan wrote:Scheint mir erstmal keinen direkten Link zu rechtfertigen, da es weniger Wörterbuch als Beispielsammlung ist.


ja das stimmt, nur bei manchen wörtern kann man mit einer direkten übersetzung wenig anfangen und nur im zusammenhang mit der verwendung verstehen,

das konzept verfolgen auch fast alle deu->jap jap->deu wörterbücher auf meinem
電子辞書 (クラウン独和辞典、新コンサイス和独辞典,...)

wadoku hat selbst ein paar beispiel sätze aber nicht konsequent und ist auch was komisch inmitten von gloss einträgen, daher wäre ne trennung durch verlinkung recht sinnvoll, oder man baut selbst eine eigene getrennten beispiel datensatz den man dann in der übersetzung per attribute oder tag zu einem sense verknüpfen kann was auch recht cool wäre, da man es ja nicht immer mit anzeigen muss aber die verknüüpfungen in den xml daten vorhanden ist.

edit: wie immer erst hasst mans und dann liebt mans (xml ist schon toll dynamisch wenns auch schnell unüberschaubar viel werden kann)
auch noch ne idee für nen link ist vieleicht tatoeba.org,

http://tatoeba.org/deu/sentences/search?query=%E6%BC%A2%E5%AD%97&from=jpn&to=deu

oder nur

http://tatoeba.org/deu/sentences/search?query=%E6%BC%A2%E5%AD%97&from=jpn

für alle sprachen

man muss nur bei query=... codiert das suchwort einfügen

über die quallität von tatoeba kann ich nichts sagen habs bis jetzt nur ein paar mal getestet, aber das projekt scheint stark zu wachsen und die daten sind auch alle recht frei lizensiert (gibts auch als cvs als download)
also da wir mind zu 3. wohl an den xsl scripts rumfummeln mach ich hier mal nen sammel thread über sachen die auffalen auf damit das nich so verstreut in anderen threads ist bzw. über pm.

ich arbeite grad an detailed edict exports (gjiten mäsig also nicht 100% edict1 oder edict2 format)

eins das aber ins alte auch noch rein sollte wäre das links ignoriert werden oder anders ausgegeben ohne http das sieht nämlich doof aus:

漢字検定 (かんじけんてい) Kanji-Leistungstest (Abk.)http:; ; www.kanken.or.jp; ;

da die / zu "; " werden.
auserdem kenn ich auch kein edict viewer der klickbare links anzeigt.
daher hab ichs erstmal nur rausgehaun:

<xsl:template match="wd:link"/>


falls jemand einträge kennt bei dennen ohne link keine übersetzung existiert bitte melden, dann müsste man doch mit der replace template das http:// raus haun.

edit: änderungen die ich sonst noch zu edict hinzugefügt habe falls jemand was änliches braucht:
  <xsl:template match="wd:sense">
        <xsl:if test="count(preceding-sibling::wd:sense)=0">
            <xsl:text> </xsl:text>
        </xsl:if>
        <xsl:if test="count(../wd:sense)>1">
        <xsl:text>/[</xsl:text>
        <xsl:value-of select="count(preceding-sibling::wd:sense)+1"/>
        <xsl:text>]</xsl:text>
        </xsl:if>
        
        <xsl:apply-templates/>
    </xsl:template>

   <xsl:template match="wd:trans[@langdesc='scientific']">
        <xsl:text>/(wiss. N.:)</xsl:text>
        <xsl:value-of select="text()"/>
        <xsl:apply-templates/>
    </xsl:template>
    
    <xsl:template match="wd:usg[not(text()) and @reg='lit']">
            <xsl:text> /</xsl:text>
            <xsl:text>(schriftspr.)</xsl:text> 
    </xsl:template>

    <xsl:template match="wd:usg">
        <xsl:choose>
            <xsl:when test="@type='dom'">
                <xsl:text> /</xsl:text>
                <xsl:text>{</xsl:text>
                <xsl:value-of select="text()"/>
                <xsl:text>}</xsl:text>
            </xsl:when>
            <xsl:when test="@type='hint'">
                <xsl:text> /</xsl:text>
                <xsl:text>{</xsl:text>
                <xsl:value-of select="text()"/>
                <xsl:text>}</xsl:text>
            </xsl:when>
            <xsl:when test="@type='time'">
                <xsl:text> /</xsl:text>
                <xsl:text>(</xsl:text>
                <xsl:value-of select="text()"/>
                <xsl:text>)</xsl:text>
            </xsl:when>
        </xsl:choose>
    </xsl:template>
hmm stimmt das mit dem pdf formate is ne gute idee, hat den jemand erfahrungen udn weis welche auflösungen größe (dpi) ect bei welchem service danna auch stimmig sind ?
(und wird bei der pdf erstellung immer automatisch die benötigkten zeichen der font eingebettet oder muss man das als parameter angeben ?)

wo ich jetzt erst am anfang verwirrt war über die frage finde ich ne richtige visitenkarte + nameslesung in katakana hätte schon style

ps: hat schon jemand versucht sich nen künstlername aufem ausweis geben zu lassen aus jap oder anderne unicode zeichen *g* das wäre natürlich gleich noch viel stylisher
bei meinem xmlstream readen und xslt spielereien ist mir aufgefallen das

der eintrag nur eine hartgecodete ")" hat... wirkt was komisch soll das absicht sein ?

<def><text>schriftspr., obsol.</text></def><text hasFollowingSpace="true">)</text>


ich habe halt mal alle Defs automaisch geklammert und doppeltes sieht doof aus.
ich werd mich dann mal demnächst ins XSL stürzen und versuchen besseren output zu erziehlen, was ich jetzt habe is noch nich perfekt (perfekt wäre ne mischung aus beidem :
das is momentan mein output vs EDICT2:

EDICT2:
プランクトン [ぷらんくとん] //Plankton/

???? /WADOKU EDICT2 V3.1-beta/erzeugt: Sun, 09 Jan 2011 15:37:21 +0100/
インスリン [いんすりん] /Insulin/
ころっと [ころっと] /rollend/leicht/ohne Anstrengung/plötzlich/sauber/völlig/vollkommen/
人買い;人買 [ひとかい] /Menschenhandel/Sklavenhandel/Menschenhändler/Sklavenhändler/
参加者 [さんかしゃ] /Teilnehmer/Beteiligter/
バーン・ジョーンズ [ばーんじょーんず] /Edward C. Burne-Jones (engl. Maler; 1833–189/
丸刈りにする [まるがりにする] /kurz abschneiden/sich die Haare kurz schneiden lassen/
三国一の花婿 [さんごくいちのはなむこ] /idealer Bräutigam/


XMLTEXTREADER gjiten:
プランクトン [ぷらんくとん] /{Bot.} {Zool.}/Plankton/

インスリン [いんすりん] /{Med.} Insulin/
ころっと [ころっと] /[1] rollend/[2] leicht/ohne Anstrengung/[3] plötzlich/[4] sauber/völlig/vollkommen/
人買(い) 人買い [ひとかい] /[1] Menschenhandel/Sklavenhandel/[2] Menschenhändler/Sklavenhändler/
参加者 [さんかしゃ] /Teilnehmer/Beteiligter/
バーン・ジョーンズ [ばーんじょーんず] /{Persönlichk.} Edward C. Burne-Jones (engl. Maler 1833–1898/
丸刈りにする [まるがりにする] /kurz abschneiden/sich die Haare kurz schneiden lassen/
三国一の花婿 [さんごくいちのはなむこ] /idealer Bräutigam/


Notiz an mich selbst: irgendwann was besseres als XML erfinden *the horrors*

noch ne abschliesende frage:
gibts es große unterschiede bei den XSLT engines (mächtigkeit syntax) ? nutzt ihr die von apache (name entfallen) oder ne andere java lib
du hast schon recht, so langsam hab ich nämlich auch kein bock mehr, das wadoku.xml is halt schon krass verschachtelt, manchmal auch nen bissel zu krass z.b. <text> is nen bissel irregulär und eigentlich auch nich nötig das die meisten librarys eh ne funktion haben um zu checken ob der tag text enthält oder nicht.

wie wird den das webinterface generiert ? auch per XSL oder holt es sich das aus der SQL ?
oder beides ?
jo das habe ich auch bemerkt, früher wusst ich das gar nich udn ich habe statt / / die ; selbst geschreiben

aber mit was gjiten auch umgehen kann ist mit mehereren wörtern am anfang also allen schreibweisen und nich nur eine, ich weis niich inwiweit das dem EDICT standard entspricht kann halt sein das gar nicht ^^.

wie gesagt wenn ich die libxslt angebungen bekomme werd ich gern die vorhandenne xsl files nutzen es is nämlich schon ne scheiß arbeit. aber ich brauch irgendwie die einträge gesplittet schön zugreifbar und die aktuellen EDICT confs sind was minimalistisch, für mobile kleine geräte super aber für die indexed sqlite wollt ich shcon was mehr ähnlich meinem alten rip von der website,

im prinzip ist das mein ziel momentan mind. die gleiche formatierung wie auf der alten anzeige hin zu bekommen (ohne wieder mit nem webgrabber und html parser alles über 2 wochen durchzugehen)


achja eine frage gäbes da noch, die
[1] [2] [3] welchem tag ensprechen die,

und in der lesung gabs die ja auch bzw auch in der jap schreibweise,
welche bedeutung hatten die da eigentlich ? und bekomm ich die aus einem entry parsing auch raus oder muss ich da mehrere beachten ?
hmm ja das mit dem jeweils nur 1 entry abbarbeiten mache ich auch so, die klassen sind ja entry iteratoren die einem dann immer das nächste entry schön als object geben um es zu verarbeiten und dann weiter zu lesen.

der XSL importer müsste dann auch so arbeiten, gut zu wissen das man da auch einzeln übergeben kann.

das problem beim XmlTextreader ist das das ganze parsing mnuell gemacht werden muss alla wo bin ich drinnen wenn das ende kommt ect.
aber dafür ist es ultra performant (ist super zum debuggen):


time ./wadoku wadoku.xml > new_gjiten.txt
real 0m14.434s
user 0m14.186s
sys 0m0.140s

(das is komplett gelesen und durch den GjitenExporter klasse zusammen gesetzt auf meine intel dual core 2,4 ghrz laptop)
leider is es wie gesagt sehr aufwendig und jede ausnahme der regel bzw parameter muss getrennt behandelt werden.
hmm stimmt xsl macht sinn für convertierung in andere txt basierte formate und ist auch recht mächtig.

leider habe ich seit ~6 jahren nicht mehr XLS geschreiben, also meine erfahrung ist so gut wie weg,

auserdem würde ich torzdem gern ein tool haben, ich schau mit mal zusätzlich zu libxml noch libxslt an damit könnte man dann auch ein XSLT converter/importer/exporter machen, haupsächlich wird das tool auch nötig sein für export in formaten mit einer indexierung ect wie indexed sqlite bzw dict o.ä.

eine frage hätt ich aber noch wie performant ist so ein XSLT durchlauf ?
grad im bezug auf ram (ich hab grad mein programm komplett umgesellt auf einen XmlTextReader da der ram verbrauch und geschwindigkeit von einem abstracten reader mit trees im ram ect sehr hoch ist und viel länger braucht und gegebenfalls sogar mit 4Gb ram vom system getötet worden ist.
mist ich wurde geschlagen ich arbeite gerade an nem universelleren OOP vala convertierungs tool das jetzt als erstes ne klasse

WadokuXmlImporter hat und nen GjitenExporter

ich versuche gerade änliche zu convertierne wie mein alter rip mit ungefähr gleich viel informationen, momentna sieht so ne gjiten zeile z.b. so aus:

日本語 [にほんご] /{Sprache} Japanisch, japanische Sprache/
南部 [なんぶ] /{Familienn.} Nanbu{Ortsn.} Nanbu (in der Präf. Aomori) {Gesch.} die Südstaaten, die Konföderation/

edit: (habs mal einfachheitshalber wieder auf ; gestellt sieht nun so aus):
南部 [なんぶ] /{Familienn.} Nanbu ; {Ortsn.} Nanbu in der Präf. Aomori ; {Gesch.} die Südstaaten ; die Konföderation ;/

(die spaces vor den ; sind noch debbuing und kommen warsch weg)

(das [] und / / ist gjiten txt formating)
momentan gibts noch probleme die , und ; exact wie in der online version zu setzten, aber das wird bestimmt noch muss noch nen bissel mehr mti libxml2 spielen da ich sie zum erstenmal benutze.

der grund ist vorallem auch das ich auch nen WadokuNotifySqliteExporter und ein
EDICT bzw JMDictXmlImporter machen will damit ich auch ein englishes edict-notify anbieten kann, natürlich kann ich mich dann auch an ein Mac OS X Lexikon Exporter einbaun sobalts geht, und viele weitere formate

sobalt es einigermasen geht werd ich mal am besten ein github acc dafür machen...

hier nen kleienr ausblick auf den importer is eingelicht recht simples oop muss man sich nur ableiten und
read_next_entry() implementieren:
public class Entry {
    
    public string midashigo { get; set; default=""; }
    public string writings  { get; set; default=""; }
    public string reading   { get; set; default=""; }
    public string translation { get; set; default=""; }
    
}

public abstract class XmlImporter : GLib.Object {
    protected Xml.TextReader reader;
    
    public string separator { get; set; default=","; }
    
    public XmlImporter(string path) {
        reader = new TextReader.filename(path);
    }
    
    public abstract Entry read_next_entry();
    
    ~XmlImporter() {
        reader.close();
    }
}


so jetzt aber spät morgen mal alles auf github pushen...
bin auch für dne google like style, 1+

der mit den alten farben hat zwar einen nostalgie effekt aber is viel schlechter lesbar auserdem gefällt mri nicht das er umbricht vorallem in der ersten spalte.

also ich bin für google style mit vieleicht nohc minimalistischen anmelde feldern ect rechts oben (1px border light colors , dezent gehalten)
hier is wohl nen kleiner lesungs fehler im eintrag
http://wadoku.de/wadoku/entry/view/1231550

【…のようすが分からない】
…のようすがふんからない
…no yōsu ga fun kara nai

 
Forum Index » Profile for boscowitch » Messages posted by boscowitch
Go to: