Wadoku.de Forum
  [Search] Search   [Recent Topics] Recent Topics   [Hottest Topics] Hottest Topics  
[Register] Register /  [Login] Login 
いかずち  RSS feed
Forum Index » WadokuTeam
Author Message
boscowitch



Joined: 23/09/2008 16:03:04
Messages: 231
Location: ケルン
Offline

bei meinem xmlstream readen und xslt spielereien ist mir aufgefallen das

der eintrag nur eine hartgecodete ")" hat... wirkt was komisch soll das absicht sein ?

<def><text>schriftspr., obsol.</text></def><text hasFollowingSpace="true">)</text>


ich habe halt mal alle Defs automaisch geklammert und doppeltes sieht doof aus.
Dan


[Avatar]

Joined: 24/05/2006 16:58:45
Messages: 1280
Offline

Ein fehlerhafter Eintrag, der fehlerhaft geparst wurde, und deshalb fehlerhaft angezeigt wird. Weitere Fragen?
So wäre es richtiger.
<entry version="1.1" id="9243926" xmlns="http://www.wadoku.de/xml/entry">
    <form>
        <orth midashigo="true">
            <text>△雷</text>
        </orth>
        <orth>
            <text>いかずち</text>
        </orth>
        <orth irr="true">
            <text>雷</text>
        </orth>
        <pron>
            <text>いかずち</text>
        </pron>
        <pron type="hatsuon">
            <text>いかずち</text>
        </pron>
    </form>
    <gramGrp>
        <pos type="N"/>
    </gramGrp>
    <usg reg="lit"></usg>
    <usg type="time">obsol.</usg>
    <sense>
        <trans>
            <tr>
                <token type="N" genus="m">Donner</token>
            </tr>
        </trans>
        <trans>
            <tr>
                <token type="N" genus="m">Donnerschlag</token>
            </tr>
        </trans>
    </sense>
</entry>


Viele solcher Datenfehler sind schon durch die automatisierte Bearbeitung und der damit einhergehenden mehr oder weniger expliziten Validierung aufgefallen und weitestgehend behoben. Deshalb wundert es mich nicht, wenn du auf weitere stößt. Das Beste ist, wenn du die sammelst, damit man die mal korrigieren kann.
Es gibt leider nicht nur syntaktische Inkonsistenzen in der Auszeichnung der Daten sondern auch semantische. Z.B. das "obsol." wird mal als <LangNiv.: obsol.> und mal als <Usage.: obsol.> gekennzeichnet.

無知の知
system



Joined: 29/12/2009 08:46:05
Messages: 142
Offline

Mir sind auch eine ganze Menge Sachen aufgefallen, die fehlerhaft waren. Aus dem Kopf fällt mir gerade noch ein:

1) Komische Ref-Einträge. <ref><text>anscr.: afu/au> <Jap.: 逢ふ><DaID: 6053133></text></ref>. Zu finden mit grep DaID wadoku oder grep '<ref>' wadoku.
2) Leere Tags, die wohl nicht leer sein sollten. Sehr viele leere Token <token article="false" type="N"></token> und ein paar leere <text></text>. Ein leerer Sense-Eintrag bei id="8314005". <sense/>. Kann man so mit "grep" leider nicht zuverlässig finden, da man mit vielen legitimen leeren Einträgen wie usg zugespammt wird.
3) 13 Einträge <pron type="romaji mit teilweise Unsinnsinhalt, etwa <pron type="romaji"><text>えぞ・しまりす</text></pron>. Zu finden mit grep 'type="romaji"' wadoku
4) Komische Links. Mal <link url="http://www.nikkatsu.com/"></link> und mal <link type="URL">http://www.ffaj.or.jp/</link>. Links zu Bildern? <link url="hasamibako" type="picture">Hasami·bako</link>
Dan


[Avatar]

Joined: 24/05/2006 16:58:45
Messages: 1280
Offline

Am besten sammeln, und dann mal an geeigneter Stelle (evtl. im Wiki) die IDs posten. Sortiert nach Problem wäre toll. Einiges sind Fehler durch die alte Beta-Version. Einiges sind falsch konvertiert, wo man nochmals den Tag2XmlConverter rüberjagen müsste. Bei einigen sind die Ausgangsdaten schon falsch, usw. Es gibt da genug Ursachen.

Bei den Links müsste ich mal schauen, warum die nicht einheitlich sind. Ein paar Bilder haben wir auch schon zu einigen Einträgen, allerdings bin ich noch nicht dazu gekommen das ordentlich einzupflegen. Da ist noch einiges an Arbeit zu tun.

無知の知
 
Forum Index » WadokuTeam
Go to: