Корпорация ICANN с 15 октября начинает тестирование многоязычных доменных имен: cкоро адрес сайта можно будет вводить полностью на родном языке – арабском, персидском, китайском (упрощенном и традиционном), русском, хинди, греческом, корейском, идиш, японском или тамильском.
Это решение может способствовать раздроблению интернета на национальные сегменты; но у ICANN нет выбора – если многоязычные домены не введут централизованно, они появятся сами, и этот процесс уже идет. ICANN ожидает, что система будет окончательно запущена к концу 2008 года, когда начнется регистрация доменов в многоязычных зонах.
Справка: ICANN (Internet Corporation for Assigned Names and Numbers: Интернет-Корпорация по Назначению Имен и Адресов) – международная некоммерческая организация, финансируемая правительством США. Она отвечает за разработку и стандартизацию протоколов передачи данных и распределение доменов верхнего уровня (TLD – Top-Level Domains), которые бывают общего назначения (.com, .org, .net и т.д.) и национальными (.ru – Россия, .ua – Украина, .cn – Китай). Главная функция ICANN – поддержка системы доменных имен (Domain Name System – DNS), что позволяет нам не запоминать цифры IP-адреса 192.0.34.163, а просто вводить в браузере icann.org
Кому эту нужно?
Переход на многоязычные домены давно лоббируется различными странами: основные претензии к ICANN и англоязычной системе доменных имен заключаются в том, что она контролируется правительством США – к которому многие государства испытывают вполне обоснованное недоверие и даже неприязнь. ООН даже требовала перевести ICANN под ее контроль, но пока не преуспела в этом. Другой аргумент – сложность написания англоязычных адресов сайтов для людей, не говорящих по-английски, и экономические потери вследствие этого. Так, в Египте 10% населения пользуются интернетом, но по словам местного представителя ICANN Бахэра Эсмата, для вовлечения следующих 10% введение доменных имен на арабском языке совершенно необходимо.
Концепция многоязычных доменов была предложена еще в 90-х годах, но ICANN отвечала просителям примерно следующее: «У нас очень много работы, учите английский». Под непрекращающимся давлением корпорация пошла на уступки, и с 2003 года можно регистрировать доменные имена второго уровня на родном языке (регтайм.net), но чтобы иметь возможность ввести весь адрес по-русски (регтайм.нет), была необходима установка специального приложения к браузеру.
Это половинчатое решение привело к ряду казусов. Так, пользователи из арабских стран и Израиля были вынуждены сначала писать домен второго уровня на своем родном языке, как и принято – справа налево, затем переключаться на английский и дописывать суффикс (.com или .co.il) – уже слева направо.
Нерасторопность корпорации привела к тому, что в ряде стран начали создавать собственные корневые сервера, то есть фактически свои отдельные Интернеты. Китай, Южная Корея и некоторые арабские страны создавали сетевую инфраструктуру и альтернативные сервера DNS, которые поддерживали не англоязычное написание адреса. Вспомним и недавние разговоры о планах создания в России отдельного, независимого от США «кириллического интернета».
Все это могло привести к хаосу и разрушению связности сети, так что у ICANN не оставалось иного выбора, кроме как заняться этим вопросом вплотную.
Как это работает?
Тестирование будет происходить на специальном сайте пример.испытание (example.test). С понедельника ICANN приглашают всех желающих пробовать создавать версии своих сайтов с доменным именем на родном языке. ICANN организует круглосуточную техническую поддержку и будет следить за тем, не вызовут ли испытания сбоев в работе Интернета.
Интересно: первоначально для тестирования хотели использовать слово «hippopotamus» (гиппопотам, или бегемот), но некий дотошный участник рабочей группы ICANN из Израиля заявил, что на иврите это слово может быть интерпретировано как бранное и оскорбительное, поэтому его заменили.
Полностью система называется IDN (IDNA) – Internationalizing Domain Names in Applications (Интернационализация Доменных Имен в Приложениях). Как и следует из названия, обработка новых доменных имен происходит на уровне пользовательских приложений – то есть браузера, почтового клиента и других программ, работающих в интернете.
Справка: Никаких изменений в структуру DNS-серверов не вносится – адрес конвертируется браузером из Unicode в набор ASCII-символов с помощью алгоритма Punycode. Вот пример: сайт http://tūdaliņ.lv. Адрес содержит нестандартные символы «ū» и «ņ», так что он интерпретируется браузером как http://xn--tdali-d8a8w.lv, где «xn--» - идентификатор Punycode, а нестандартные символы закодированы в конце доменного имени как «-d8a8w». Алгоритм позволяет и обратную трансляцию. ASCII – это набор из 37 символов: цифры от 0 до 9, буквы латинского алфавита от a до z и дефис.
Сейчас поддержка IDN встроена во все широко распространенные браузеры: Opera, Mozilla (Firefox), Netscape, Safari; Internet Explorer 7 также поддерживает многоязычные адреса (в 6-ом требовалось установить специальную надстройку).
Работает? Ничего не трогай!
Однако желание различных стран иметь доменные имена на своих языках вызывает множество вопросов и опасений.
В Индии существует десяток основных диалектов, и какой из них лучше использовать для написания доменного имени? Домен .com, в котором зарегистрирована примерно половина всех сайтов в мире, управляется США; но кто будет управлять доменом .ком? А что насчет языков, на которых говорят в нескольких странах – например, арабский; кому доверить управление доменной зоной на арабском языке – Саудовской Аравии или Египту?
Множество вариантов написания адреса одного сайта или названия одной компании приведет к тому, что вместо регистрации относительно небольшого числа адресов (с учетом возможных ошибок в написании), глобальным компаниям придется не только платить за регистрацию и поддержку в десять раз большего числа доменов, но и добавить к ним домены с так называемыми омографами, то есть символами, которые выглядят одинаково в алфавитах разных языков. За примерами таких букв далеко ходить не надо – посмотрите на номера автомобилей в России: используются только буквы кириллицы, имеющие «близнецов» в латинском написании.
Спуфинг - это когда преступники копируют внешний вид сайта, например банка или платежной системы, и регистрируют похожий на настоящий адрес, а затем используют данные, которые вводит пользователь, для воровства денег со счета. Раньше их инструментарий был небогат - подмена 1 на l, чтобы получить адрес www.paypa1.com и так далее.
В 2005 году был продемонстрирован сайт www.pаypal.com – адрес выглядит точь-в-точь как настоящий адрес известной платежной системы PayPal, и по внешнему виду никак нельзя определить, что вместо первой латинской буквы «а» использована кириллическая буква «а». Сайт был специально сделан для того, чтобы показать уязвимость IDNA, и не используется для преступных целей; вместо этого там говорится «мяу» и объясняется суть проблемы.
Интересно: в настоящее время, если зайти на этот сайт с помощью Opera 9.22, то мы увидим в адресной строке фальшивый многоязычный адрес http://www.pаypal.com/. Если же воспользоваться последней версией Internet Explorer 7, то адрес будет преобразован в ASCII - http://www.xn--pypal-4ve.com/, что дает возможность распознать подделку. Но в форме ввода мы увидим обратную картину: Opera показывает адрес в ASCII-символах, а IE показывает многоязычный адрес. Так что проблемы с фальшивыми адресами, похоже, еще впереди.
Все вопросы, конечно, можно разрешить. Китай и Япония, чьи иероглифы внешне могут быть очень похожи, уже договорились о совместной регистрации доменов: при регистрации сайта в японоязычном национальном домене компания автоматически получает похожий адрес в китайской зоне, и наоборот. Несомненно, производители браузеров, почтовых клиентов и других программ найдут решение, позволяющее не допустить злоупотреблений омографами; но это будет дополнительная программная надстройка, а чем длиннее забор – тем больше вероятность найти в нем дыру.
Но как, например, американский пользователь будет попадать на сайт в русскоязычном домене? Да, он может установить русский шрифт и попытаться набрать адрес – что довольно сложно, на самом-то деле, без изображения русской раскладки на кнопках. А представьте, что украинец хочет зайти на японский сайт – как вы думаете, сможет он это сделать? Запоминать ASCII-адреса невозможно: латинский эквивалент адреса пример.испытание – xn--e1afmkfd.xn--80akhbyknj4f. Вопросов пока больше, чем ответов...
Распадется ли интернет на части?
Тенденция создания независимых национальных корневых серверов и DNS, появление доменных имен на национальных языках, и главное – растущее желание многих государств контролировать действия и высказывания своих граждан в сети угрожают самому существованию Интернета как глобальной информационной системы.
«Например, все летчики должны знать английский язык. Многоязычные доменные имена – это огромный риск раздробить, «балканизировать» Интернет, но и хороший шанс объединить его: увидим, по какому пути мы пойдем, лет через 10», – считает Пол Мокапетрис, человек, который придумал систему доменных имен (DNS) в начале 80-х.
Интернет считается одним из величайших достижений человечества в XX веке. Сбережем ли мы эту Сеть Сетей, сможем ли сохранить связность между серверами в Урюпинске и Токио, или же потеряем единое информационное пространство и окажемся разбросаны по закрытым национальным сетям – покажет время.
Ссылки по теме: ICANN, Punycode (Wikipedia), Slashdot (обсуждение)
По материалам: The Wall Street Journal Online, The Washington Post, рабочие документы ICANN и IETF.