irc.lv присылает мне письма, которые мой ридер не понимает.
нужно узнать, что написано вот тут:
ПоздравлÑем!
irc.lv шлёт якобы в utf-8, по крайней мере он добавляет заголовок в тело письма:
<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8">
но на самом деле - это не настоящий utf-8, в utf-8 русские буквы должны быть в виде &#XXX
вот таблица соответствий cp1251 и utf-8:
http://www.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1251.TXT
в php конвертация делается:
$str =iconv( "cp1251", "utf-8", $str);
после конвертации текст должен выглядеть так:
Мумитроль: икра
такой текст прекрасно понимает IE и прочие браузеры при выставлении кодировки просмотра utf-8
Комментарии (22)
Загрузка комментариев...
Похожие записи
-
-
-
Чото я В IRC.LV Разочаровался!!думал тут жить буду! придется сваливать на другой сайтик
tarkan123 1233 17 17. января, 2012.г.4 -
-
-
-
-
-
&#XXX; это абсолютно другое.
да я конечно пробую и cp1251 и cp1252
iconv: conversion from utf8 unsupported
вот нашел тут -
http://sourceforge.net/project/showfiles.php?group_id=25167
Ну а ПоздравлÑем! означает "Поздравляем!"
ПоздравлÑем!
ПоздравлÑем!
проще для понимания изучить образец из http://www.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1251.TXT :
например
0xCE 0x041E #CYRILLIC CAPITAL LETTER O
это буква 'О', её значение 0x041E в один байт не помещается, поэтому записывается как "�x41E;"
ПоздравлÑем! не может в utf-8 появится в принципе никак.
в utf-16 каждый символ представляется двумя байтами.
в utf-32 четырьмя.
BOPOH: конечно читаю, когда в онлайне.
Не знаю терминологии, но &#xNNN; — это ASCII последовательности HTML, такие же, как ". А в "настоящем" UTF-8 каждый символ представляется нефиксированной длины последовательностью байтов. Глядя на ту абракадабру (По...), можно заподозрить, что там как раз-таки пары байтов, но _каждый_ байт по какой-то причине стал самостоятельным символом. Я бы попробовал сохранить исходное почтовое сообщение (без каких-либо конвертаций) и открыть его чем-нибудь, что поддерживает UTF-8 (Notepad++?).
потому что он в принципе не подвержен вирусам и бэкдорам.
но какая разница, не ридер должен исправлять ошибки кривых писем, а письма должны быть в правильном формате.