Wadoku.de Forum
  [Search] Search   [Recent Topics] Recent Topics   [Hottest Topics] Hottest Topics  
[Register] Register /  [Login] Login 
Downloads - Encoding Probleme  RSS feed
Forum Index » wadoku.de
Author Message
mkengel



Joined: 02/12/2006 13:52:42
Messages: 18
Offline

Wenn ich versuche, eine Vokabel downzuloaden, gibt es folgendes Problem:
Excel 2003 erkennt weder bei dem CSV noch beim Excelfile die richtige Encoding UTF-8
Word 2003, OpenOffice.org erkennen sie auch nicht, man kann aber wenigstens die Encoding selbst einstellen; vorgeschlagen wird z.B. Japanese (Windows-932) fuer den CSV-File.

Woran koennte das liegen ?

XML und PDF sind OK.

Zudem gibt es als vorgeschlagener Filename immer nur "index.jsp".

System: Firefox 2.0.0.1 auf WinXP Pro JP

IE6 erkennt das Excel-Format und schlaegt index.xls vor, aber auch mit den IE downgeloadeten Files erkennt Excel weder das Format von CSV noch von XLS.

Gruss
Michael
ralferly


[Avatar]

Joined: 10/07/2006 19:43:01
Messages: 82
Offline

Möglicherweise liegt es daran, dass in der Datei keine BOM- Daten enthalten sind, welche die genaue UTF- Spezifikation festlegen.

wadoku user
[ICQ]
yoshtec


[Avatar]

Joined: 25/10/2006 01:12:56
Messages: 66
Offline

Ja die CSV Datei hat tatsächlich kein BOM. Was aber bei UTF-8 nicht wirklich ein Problem darstellen sollte. Da die Byte Order bei UTF-8 immer die gleiche ist.
siehe auch: http://unicode.org/unicode/faq/utf_bom.html

Die meisten UTF-8 Dateien die ich bis jetzt gesehen habe kommen auch ohne BOM aus.

Aber ich meine ich habe auch schon mal so ein Problem mit Excel gehabt. Mein Excel XP kann so direkt keine UTF-8 .csv Dateien öffnen (Da kommt zumindestens Mist raus). Aber wenn man die Datei in .txt umbenennt dann fragt Excel zumindestens nach, wie er die Datei importieren soll. Hier kann man auch das Encoding festlegen und das "," als Trennzeichen angeben.
Aber auch hier kann mein Excel kein UTF-8, aber das sollte bei Excel 2003 behoben sein.
FreakRob


[Avatar]

Joined: 26/10/2006 20:33:37
Messages: 181
Offline

Seit wann hat denn UTF-8 immer dasselbe encoding? Das wär mir neu. Normalerweise steht am Anfang ein Marker, der das markiert o.o

cYa,

FreakRob
yoshtec


[Avatar]

Joined: 25/10/2006 01:12:56
Messages: 66
Offline

Ich habe ja nicht gesagt, dass es immer das gleiche encoding hat, sondern das die Byte Order bei UTF-8 immer die gleiche ist (alias LittleEndian oder BigEndian).
siehe Auch:
http://de.wikipedia.org/wiki/Byte-Reihenfolge
http://de.wikipedia.org/wiki/UTF-8
http://de.wikipedia.org/wiki/UTF-16
http://unicode.org/unicode/faq/utf_bom.html

Wenn ich mir Dateien in UTF-8 auf meiner Platte mit dem HEX-Editor ansehe haben die meisten keinen BOM (also EF BB BF) am Dateianfang.

Wenn man die csv Datei von Wadoku mit Notepad von Windows ansieht, ist es auch kein Problem. Er erkennt auch ohne BOM, dass es eine UTF-8 Datei ist, wenn man die Bytes am Anfang einfügt funktioniert es immer noch. Für Notepad macht es also keinen direkten Unterschied. Notepad selber schreibt allerdings schon ein BOM.

(Ich sage auch nicht, das es nicht gut ist das kein BOM da steht. Aber manche Programme machen auch Probleme wenn man das BOM in der Datei stehen hat. Z.B.: Shell Scripte in Unix, die dann auf unerfindliche Weise einfach nicht laufen wollen, obwohl man alles richtig gemacht hat (oder besser glaubt es richtig gemacht zu haben).

Grüße
Yosh

ralferly


[Avatar]

Joined: 10/07/2006 19:43:01
Messages: 82
Offline

Hi Yosh,

du hast natürlich Recht. Nichts desto trotz wird der BOM von etlichen Programmen als ein Indiz für die Enkodierung der Datei genutzt. Ist diese nicht vorhanden, kann eine (ungenügende) Implementierung möglicher Weise versagen- jedenfalls war dies meine ursprüngliche Vermutung.
Ich kann gerne morgen früh dies gerne einmal in der Uni (wo Office 2003 läuft) das antesten.

wadoku user
[ICQ]
yoshtec


[Avatar]

Joined: 25/10/2006 01:12:56
Messages: 66
Offline

Ja mach das mal, es würde mich interessieren ob die das bei der Erneuerung auch mitbedacht haben (oder wieder nur die Oberfläche geändert haben). Ich hatte auch das BOM eingefügt, aber Excel XP lies sich trotzdem nicht auf UTF-8 ein. Ich befürchte, dass sich daran bei 2003 nicht viel geändert haben wird.


Um auf das ursprüngliche Problem zurückzukommen:

Mein Workaround ist, die Datei in wadcsv.txt umbenennen und dann per Text-Import von Excel importieren (ganz normal in Excel "Öffnen" und dann txt Dateien auswählen). Denn dann kann man zumindestens per Hand das encoding festlegen.

Ich hoffe, dass es dann klappt.

Wenn du Lust und Zeit hast kannst du das ja auch ausprobieren ralferly. Vielleicht können wir bei der nächsten Version ja auch dann (sinnvollerweise) ein BOM in die CSV und die XML Datei einfügen.

Ich hänge zum testen mal beide Versionen mit und ohne BOM an.
 Filename  ohne_bom.csv [Disk] Download
 Description  No description given
 Filesize   254 bytes
 Downloaded:  2430 time(s)

 Filename  mit_bom.csv [Disk] Download
 Description  No description given
 Filesize   257 bytes
 Downloaded:  2489 time(s)

Dan


[Avatar]

Joined: 24/05/2006 16:58:45
Messages: 1256
Offline

Ich hab das ganze mal mit dem neuen Office 2007 getestet.

Nur bei der Datei mit BOM war es mir möglich, wenigstens die erste Zeile, nach ein paar Einstellungen zur Kodierung und Trennzeichen, zu importieren, danach brach er ab. Das liegt vermutlich am einfachen linefeed statt dem windowsüblichen carriage return und linefeed.

Die Datei ohne BOM wurde immer direkt ohne Nachfrage, und dadurch natürlich falsch geöffnet.

無知の知
mkengel



Joined: 02/12/2006 13:52:42
Messages: 18
Offline

yoshtec wrote:Ich hänge zum testen mal beide Versionen mit und ohne BOM an.


Die fuehren bei meinem Excel 2003 (Japanisch) zum gleichen Ergebniss - beides mit fehlerhafter Encoding.
Umbenennung in Text und Oeffnen mit Excel: UTF-8 wird erkannt.

Michael
 
Forum Index » wadoku.de
Go to: