Wadoku.de Forum
  [Search] Search   [Recent Topics] Recent Topics   [Hottest Topics] Hottest Topics  
[Register] Register /  [Login] Login 
国字 kokuji  RSS feed
Forum Index » Kanji-Lexikon
Author Message
Mulan



Joined: 25/12/2008 01:34:56
Messages: 38
Offline

Hi,
ich bin auf der Suche nach einer möglichst vollständigen Liste aller rein japanischen Kanji, d.h. den sog. kokuji (国字). Zwar habe ich über Google schon was finden können, aber leider fehlen da einige Zeichen (Bild einfach nicht vorhanden), v.a. bei der bisher mir am vollständigsten erscheinenden Website unter http://homepage2.nifty.com/TAB01645/ohara/ ... Dort sind 2669 Kokuji eingetragen.

Fragen:
Welche Websites bieten vollständige Übersichten?
Gibt es Fonts mit allen Kokuji bzw. welche haben diese mit enthalten?
Gibt es Bücher mit einer vollständigen Liste?

P.S.: Auf der besagten Website ist auch ein Link mit einer pdf-Datei gesetzt - aber leider ist der tot. Hat jemand zufällig noch eine solche Datei aus jener Zeit, als es diese PDF-Datei noch gab? Wenn ja, dann wäre es furchtbar nett, wenn ich diese irgendwie bekommen könnte.

P.S.: Kann mir jemand sagen, ob man in Deutschland noch irgendwo das Shin Daijiten (新大字典 "New Daijiten, Kōdansha, 1993), herausgegeben v.Ueda Kazutoshi (上田万年), zu einem halbwegs erschwinglichen Preis bekommt. Da das mohorashi einfach zu kostspielig wäre und das Daijiten von Ueda (ich habe die US-Ausgabe v. 1947), nicht mehr ganz up to date ist, hoffe ich dieses "Büchlein" noch irgendwo ergattern zu können.

Danke!

Mulan

シュヴェリーン市メクレンブルク=フォアポンメルン州
[WWW]
FreakRob


[Avatar]

Joined: 26/10/2006 20:33:37
Messages: 181
Offline

Auf der Seite selbst stehen alle Mappings nach SJIS: http://homepage2.nifty.com/TAB01645/ohara/index_j.htm

Diese kannst Du dann auf Unicode übertragen: http://unicode.org/Public/5.2.0/ucd/Unihan.zip dort in Unihan_OtherMappings.txt. Ein paar reguläre Ausdrücke dürften reichen um Dir den Inhalt der Datei so umzuordnen, wie Du ihn möchstest und dann kannst Du das ganze als CLS für Tabellenverarbeitungsprogramme umspeichern und dann darin suchen.

cYa,

FreakRob
Mulan



Joined: 25/12/2008 01:34:56
Messages: 38
Offline

FreakRob wrote:Auf der Seite selbst stehen alle Mappings nach SJIS: http://homepage2.nifty.com/TAB01645/ohara/index_j.htm

Diese kannst Du dann auf Unicode übertragen: http://unicode.org/Public/5.2.0/ucd/Unihan.zip dort in Unihan_OtherMappings.txt. Ein paar reguläre Ausdrücke dürften reichen um Dir den Inhalt der Datei so umzuordnen, wie Du ihn möchstest und dann kannst Du das ganze als CLS für Tabellenverarbeitungsprogramme umspeichern und dann darin suchen.

cYa,

FreakRob


Sorry, aber nachdem eine Warnung vor einem Worm nach Anklicken der/des Links erfolgte, habe ich davon Abstand genommen. ... Außerdem bin ich kein PC-Spezialist, so dass ich leber eine allgemein nutzbare Datei (Word, Excel, PDF) vorziehen würde. Natürlich würmer- und virusfrei.

Ciao!

Mulan

シュヴェリーン市メクレンブルク=フォアポンメルン州
[WWW]
FreakRob


[Avatar]

Joined: 26/10/2006 20:33:37
Messages: 181
Offline

Lol, ist klar Wer die Textdatei verschmäht ist das Markup-Format nicht wert :-*

cYa,

FreakRob
Mulan



Joined: 25/12/2008 01:34:56
Messages: 38
Offline

FreakRob wrote:Lol, ist klar Wer die Textdatei verschmäht ist das Markup-Format nicht wert :-*

cYa,

FreakRob


Sorry, aber ich hatte eigentlich Hilfe erwartet, zumal ich ganz bestimmt keine Lust habe, wie bereits erwähnt (aber anscheinend unbeachtet geblieben), einen Wurm mir einzufangen. Jedenfalls gab's mächtig und rasch Worm-Alarm, als ich den/die Links angeklickt hatte, die Du mir mitteiltest. Ich kann nicht sagen, welcher von beiden es war (denn ich möchte es nicht noch einmal riskieren), aber das sollte schon Grund genug sein, Vorsicht walten zu lassen. Ich hoffe nur, dass sich noch andere melden.

Gruß

Mulan

シュヴェリーン市メクレンブルク=フォアポンメルン州
[WWW]
FreakRob


[Avatar]

Joined: 26/10/2006 20:33:37
Messages: 181
Offline

Ist halt nen false positive. Und das wahrscheinlich auf der ersten verlinkten Seite, welches eine Unterseite von Deinem verlinkten Projekt ist. Die andere Seite ist vom Unicode Consortium und die werden Dir wohl kaum einen Wurm unterschieben wollen, zumal es eine Zip-Datei ist.

Wenn Du Hilfe für reguläre Ausdrücke brauchst, dann kannst Du ja wieder fragen, aber es wird sich sicher keiner hinsetzen und diese zeitaufwändige Arbeit für Dich übernehmen, nur weil Du ein hypersensibles AV-Programm benutzt.

cYa,

FreakRob
Mulan



Joined: 25/12/2008 01:34:56
Messages: 38
Offline

FreakRob wrote:Ist halt nen false positive. Und das wahrscheinlich auf der ersten verlinkten Seite, welches eine Unterseite von Deinem verlinkten Projekt ist. ...


???

シュヴェリーン市メクレンブルク=フォアポンメルン州
[WWW]
Mulan



Joined: 25/12/2008 01:34:56
Messages: 38
Offline

FreakRob wrote:Auf der Seite selbst stehen alle Mappings nach SJIS: http://homepage2.nifty.com/TAB01645/ohara/index_j.htm

Diese kannst Du dann auf Unicode übertragen: http://unicode.org/Public/5.2.0/ucd/Unihan.zip dort in Unihan_OtherMappings.txt. Ein paar reguläre Ausdrücke dürften reichen um Dir den Inhalt der Datei so umzuordnen, wie Du ihn möchstest und dann kannst Du das ganze als CLS für Tabellenverarbeitungsprogramme umspeichern und dann darin suchen.

cYa,

FreakRob


Hi,
könntest du das Ganze noch einmal für mich verständlich machen? Ich verstehe nicht, was ich wie machen soll. Soll ich die JIS Seite kopieren und bei Unihan_OtherMappings.txt einfügen? Was ist mit all den dort in Unihan_OtherMappings.txt bereits vorhandenen Angaben? ... Ich weiß auch nicht, wie ich das Ganze so verändern kann, dass die Kanji bzw, kokuji sichtbar werden. Was ist CLS? ... Sorry, aber ich bin nicht so firm wie du.

Eine Schritt-für-Schritt-Anleitung wäre nicht schlecht.

Ciao!
Mulan

シュヴェリーン市メクレンブルク=フォアポンメルン州
[WWW]
FreakRob


[Avatar]

Joined: 26/10/2006 20:33:37
Messages: 181
Offline

Ok, vielleicht war ich da etwas zu schnell. Also, die ganzen JIS-Standards sind auf Grund der Menge an encodierten (=enthaltenen) Glyphen in eine halbwegs sinnvolle Aufteilung gebracht worden, die sogenannte Ku-Ten-Form (区点), was Zeilen und Spalten in der verwandten Tabelle darstellt. Für einen Geschmack, wie das ganze aussieht, kannst Du Dir die Registrierung von JIS X 0212:1990 bei ISO angucken. Aber bitte nicht abschrecken lassen.
JIS X 0213 hat noch zusätzlich Min (面) eingeführt, daher wird Ku-Ten (区点) zu Min-Ku-Ten (面区点). Das ist nur noch mal eine Ordnung über Ku, damit der Standard abwärts-kompatibel bleibt.

So, auf der Webseite gibt es nun einträge, die folgendermaßen lauten:
JIS X0212:1990(通称 JIS補助漢字)
H16-05 BILD→ 2 ,m28

H16-05 ist der Ku-Ten-Eintrag aus JIS X 0212:1990, wobei H bezeichnet, dass die 16 (dezimal) das Ku 区 ist und 05 Ten 点 ist. Wenn Du mir der oben verlinkten PDF vergleichst, wirst Du feststellen, dass auf Seite 03/14 in Zeile 16 Spalte 05 tatsächlich auch der abgebildete Glyph steht.

So, in Unihan_OtherMappings sind alle Mappings (=Abbildungen) auf die jeweiligen Herkunftsstandarde soweit vorhanden, eingetragen. Da Unicode eng mit JIS zusammenarbeitet, sind die meisten JIS-Glyphen auch in Unicode enthalten. Aber Achtung: Es gibt die sogenannte Han Unification, das wird später beim anzeigen der Kanji wichtig.

So, in der der Textdatei sind folgende Einträge zu finden:
U+342C	kJIS0213	2,01,18

Dieser Eintrag bedeutet: Unicode-Codepunkt U+342C hat ein Mapping nach JIS X 0213, nämlich 2 Min 01 Ku 18 Ten (2面01区18点).

Für uns interessant sind alle JIS-Einträge: kJis0, kJis1, kJIS0213. Was diese bedeuten, kann hier erfahren werden: http://www.unicode.org/reports/tr38/ Ich habe die entsprechenden Einträge für Dich rausgesucht:
UAX #38 wrote:
Property 	 kJis0
Status 	Provisional
Category 	Other Mappings
Introduced 	2.0
Delimiter 	space
Syntax 	^[0-9]{4}$
Description 	The JIS X 0208-1990 mapping for this character in ku/ten form.

Property 	kJIS0213
Status 	Provisional
Category 	Other Mappings
Introduced 	3.1.1
Delimiter 	space
Syntax 	^[12],[0-9]{2},[0-9]{1,2}$
Description 	The JIS X 0213-2000 mapping for this character in min,ku,ten form.

Property 	kJis1
Status 	Provisional
Category 	Other Mappings
Introduced 	2.0
Delimiter 	space
Syntax 	^[0-9]{4}$
Description 	The JIS X 0212-1990 mapping for this character in ku/ten form.

Bemerke bitte, dass bei Syntax gleich die korrekte Syntax für einen regulären Ausdruck, der nur diese Datenform matcht, steht. Bermerke auch, dass ^ und $ Zeilenanfang resp. Zeilenende matchen, Du diese also weglassen musst, wenn sie innerhalb einer Zeile stehen.

So, jetzt im Prinzip aus Deiner Seite http://homepage2.nifty.com/TAB01645/ohara/index_j.htm, die alle JIS-Einträge auflistet, per regulärem Ausdruck die gesuchten JIS-Einträge rausholen.
Ebenfalls alle Einträge aus Unihan_OtherMappings rausholen, die kJis0, kJis1, kJIS0213 definiert haben (was nicht exklusiv sein muss; also es können auch mehrere dieser Properties in einer Zeile vorkommen). Das dann als Komma-getrennte Liste (comma-separated list;CSL) abspeichern (wieder mittels regulärer Ausdrücke umsortieren) und dann in einem Tabellenverarbeitungsprogramm öffnen. Jetzt nach den jeweiligen Min, Ku, Ten etc. sortieren und die gewünschten Einträge (die ja aus der Webseite extrahiert wurden) als Unicode-Codepunkt herauslesen. Das geht natürlich auch mit einem regulären Ausdruck, aber es sind auch nicht so viele und Du kannst schön nachkontrollieren.
Das ganze tippst Du dann entweder in z.B. Microsoft Word ein (dort z.B. U+342C eintippen, danach Alt + C [für convert] drücken) oder lässt es Dir in einem Text-Editor schon vorher umwandeln (siehe Liste von mir empfohlenen Editoren unten, die können das). Beachte, dass auf der Webseite für JIS X 0221 schon Unicode-Codepunkte stehen, in der Form uXXXX wobei XXXX der hexadezimale Codepunkt ist ― also z.B. einfach als u+XXXX eintippen und umwandeln lassen.

So, wenn Du das ganze darstellen willst, solltest Du drauf achten, dass Du einen japanischen Font nimmst. Die Han Unification sieht nämlich vor, dass alle Han-Symbole (also alle aus dem Chinesisch stammenden Symbole) vereint als ein Codepunkt encodiert werden und Fonts die Aufgabe haben, die Codepunkte für den jeweiligen Kontext (nämlich die Sprache, das Script etc) richtig darzustellen. Sonst lernst Du Kokuji womöglich mit einer Form, die dank Rückexport nach China in China üblich ist, oder so etwas!

Falls Du Fragen hast, meld Dich ruhig. Gute, kostenlose Texteditoren, die reguläre Ausdrücke beherrschen sind Notepad++ und jEdit. Für reguläre Ausdrücke gibt es www.regular-expressions.info. Dieser Task ist eine Bilderbuch-Aufgabe, warum reguläre Ausdrücke toll sind und warum man sich auch als Nicht-Informatiker ruhig damit beschäftigen kann

cYa,

FreakRob
Mulan



Joined: 25/12/2008 01:34:56
Messages: 38
Offline

hi,
hat jemand irgendwie den riesigen Morohashi zur Verfügung und könnte mir zu folgenden Kanji-Nummern entsprechende Scans zukommen lassen?

Ich suche derlei zu folgenden Nummern:

15310
25506
25499

Danke!

Mulan

シュヴェリーン市メクレンブルク=フォアポンメルン州
[WWW]
Niremori



Joined: 31/05/2006 14:32:12
Messages: 549
Offline

Mulan wrote:hi,
hat jemand irgendwie den riesigen Morohashi zur Verfügung und könnte mir zu folgenden Kanji-Nummern entsprechende Scans zukommen lassen?

Ich suche derlei zu folgenden Nummern:

15310
25506
25499

Danke!

Mulan


Scans kann ich nicht bieten, vielleicht genuegen dir aber folgende Angaben.

15310 ist 槇  こずえ
25506 ist 穴冠 mit 死 (d.h. im Zeichen 究 musst du 九 durch 死 ersetzen.) 義未詳
25499 ist 穴冠 mit 臣 (d.h. im Zeichen 究 musst du 九 durch 臣 ersetzen.) Das ist ein 俗字 fuer die Nr. 7138, d.h. fuer 宦

niremori
Mulan



Joined: 25/12/2008 01:34:56
Messages: 38
Offline

Habt allerbesten Dank für Eure Hilfe!

Für mich ist es ziemlich schwierig, den Morohashi zu "befragen", da es ihn hier nicht um die Ecke gibt. Und aus Urheberrechten heraus ist es z.B. von der Berliner Staatsbibliothek nicht möglich, eine vollständige Kanji-Liste zu bekommen mit zugeordneten Nummern - zudem es wohl so aussieht, als wenn beim Morohashi zwar 4 verschiedene Register vorhanden sind, aber leider nicht mit Nummern-Angaben sondern nur mit Band- und Seitennummern sowie nach Gesamtstrichzahl, On-Lesung, Kun-Lesung sowie Vierecken-Index. Und leider scheint es dort kein nach Radikalen geordnetes Register zu geben, was ich sehr bedaure.

Danke also nochmals!

Ciao!
Mulan

シュヴェリーン市メクレンブルク=フォアポンメルン州
[WWW]
Niremori



Joined: 31/05/2006 14:32:12
Messages: 549
Offline

Mulan wrote: ... Und leider scheint es dort kein nach Radikalen geordnetes Register zu geben, was ich sehr bedaure.
Mulan


Zu Beginn jedes Bandes findet man eine Auflistung der in diesem Band vorhanden Kanjis (nach Radikal und aufsteigender Strichzahl geordnet).
Dieses Register umfasst meist etwa 20 Seiten und ermoeglicht einen guten Ueberblick. Z.B. sind alle Kanjis mit 人偏 (ninben) auf ca. sieben Seiten aufgelistet, was den Nummern 344 bis 1335 im Band 1 (Seite 556-969) entspricht. Ob davon ein Kopie zu erhalten ist, weiss ich nicht.

niremori
Mulan



Joined: 25/12/2008 01:34:56
Messages: 38
Offline

Danke für diese Auskunft. Leider wird das aus Bibliotheken wohl nicht möglich sein, da man regelmäßig urheberrechtliche Argumente gegen eine Kopie der Register anführt. Da es wohl doch eine ganze Menge Zeichen sind (ca. 50 000) und eine Menge Seiten, die zu kopiren wären, ist das kaum oder gar nicht möglich möglich.

Gruß und Dank

Mulan

シュヴェリーン市メクレンブルク=フォアポンメルン州
[WWW]
 
Forum Index » Kanji-Lexikon
Go to: