Почему разрешено выполнение кода Java в комментариях с определенными символами Unicode?

Question

Почему разрешено выполнение кода Java в комментариях с определенными символами Unicode?

1215

Следующий код выводит результат "Hello World!". (нет, попробуйте).

public static void main(String... args) {

   // The comment below is not a typo.
   // \u000d System.out.println("Hello World!");
}

Причиной этого является то, что компилятор Java анализирует символ Unicode \u000d как новую строку и преобразуется в:

public static void main(String... args) {

   // The comment below is not a typo.
   //
   System.out.println("Hello World!");
}

Таким образом, получается, что комментарий "выполнен".

Так как это можно использовать для "скрытия" вредоносного кода или того, что может себе представить злой программист, , почему это разрешено в комментариях?

Почему это разрешено спецификацией Java?

Reg 09 июнь 2015, в 10:09

Источник

44

«Почему это разрешено» мне кажется слишком основанным на мнении. Языковые дизайнеры приняли решение, что еще нужно знать? Если вы не найдете утверждение человека, принимающего такое решение, мы можем только строить догадки.
Ingo Bürk 09 июнь 2015, в 09:07
3

Хотя это и странно, я не вижу в этом реальной проблемы. Обычные пользователи не будут знать разницу между кодом, скрытым в комментарии, и обычным кодом, поэтому для них это не имеет значения. Тогда это может быть член команды, скрывающий код от других участников, но разработчики среагируют, увидев странный комментарий, подобный этому, и либо удалят его, либо исследуют. Если это будет сделано и введено в действие, VCS скажет вам, кто это сделал, так что вас поймают.
Tobb 09 июнь 2015, в 09:08
0

\u000d означает ASCII 0x0D , \n , New Line
shawn 09 июнь 2015, в 09:08
187

Одна интересная вещь, по крайней мере, в том, что IDE OP явно ошибается и отображает некорректную подсветку,
dhke 09 июнь 2015, в 09:09
1

@shawn Это объясняется в вопросе. ОП спрашивает, почему в разделе комментариев он также переводится как \n .
Pshemo 09 июнь 2015, в 09:09
14

Возможно связано: stackoverflow.com/questions/4448180/…
dhke 09 июнь 2015, в 09:10
6

@Tobb: Да, авторитетный ответ может исходить только от дизайнеров. Однако, может быть какая-то информация о том, почему это было сделано (совместимость, ограничение инструментов и т. Д.), Так что это ответственно.
sleske 09 июнь 2015, в 09:11
0

@Bathsheba это не подходит для хорошего вопроса или для вопроса в соответствии со стандартами SO. Если вы внимательно посмотрите, 1-й голос за закрытие был сделан tjcrowder, у которого 360,349 повторений
SpringLearner 09 июнь 2015, в 09:12
2

потому что символ новой строки также разрешен ... я тестировал его на c ++ и c #, эти языки пропускают строки после чтения //, но java, кажется, анализирует завершенную строку и интерпретирует код как символ новой строки.
Zelldon 09 июнь 2015, в 09:12
43

@Tobb Но Java-дизайнеры посещают SO, поэтому можно получить ответы по одному из них. Также могут существовать ресурсы, которые уже отвечают на этот вопрос.
Pshemo 09 июнь 2015, в 09:15
2

Я не знаю наверняка, но я подозреваю, что это всего лишь побочный эффект общего решения обрабатывать unidoce символы внутри комментариев. Возможно, разрешить кодовые комментарии на иностранных языках или с математическими греческими знаками. Лично я бы избежал этого ... (Javadoc может быть исключением, но тогда мне не нужна эта функция, потому что HTML имеет свою собственную поддержку специальных символов).
Pelit Mamani 09 июнь 2015, в 09:23
1

stackoverflow.com/questions/3866187/… забавный пример
Zelldon 09 июнь 2015, в 09:49
9

Экранирование Unicode разрешено везде и всегда анализируется раньше всего. Предполагается, что любой исходный файл может быть преобразован в эквивалентный файл, содержащий только символы ASCII.
immibis 09 июнь 2015, в 11:31
1

Похожие страницы : stackoverflow.com/q/13116648/319403
cHao 09 июнь 2015, в 11:32
2

@dhke: это также отображается как комментарий в Eclipse, так что вы знаете какую-либо IDE, которая не отображает его как комментарий?
Thomas Weller 09 июнь 2015, в 12:46
1

@Thomas Netbeans (по крайней мере, в 8.0.2) завершает комментарий после экранированной строки в Юникоде, показывая println() виде кода. Он также показывает то же поведение, что и компилятор для начального кода экранированного комментария от stackoverflow.com/questions/4448180/…
dhke 09 июнь 2015, в 13:38
5

Это также означает, что недопустимые экранирования Unicode в комментариях приводят к ошибкам компиляции (например, путь в Windows, продолжающийся \users ), что может раздражать.
Pokechu22 09 июнь 2015, в 15:20
9

@dhke ОП не упомянул, как его / ее IDE отображает этот код. Единственное, что можно выделить из выделения в тексте вопроса, это то, что подсветка кода Java здесь, в SO, ошибается.
Matthias 09 июнь 2015, в 18:55
2

То, что вы показываете, является ошибкой в IDE. Это совершенно правильный код. То, что IDE не ПОКАЗЫВАЕТ это как код, является ошибкой. IDE должны перестать предполагать, что компиляторы не знают Unicode.
CuriousRabbit 09 июнь 2015, в 21:36
4

@CuriousRabbit, что заставляет вас сделать вывод, что это ошибка в IDE OP? (Как вы вообще узнаете, что OP использует IDE?)
aioobe 09 июнь 2015, в 21:41
39

Простой ответ заключается в том, что по правилам языка код вообще не содержится в комментариях, поэтому вопрос некорректен.
user207421 09 июнь 2015, в 22:54
1

@Thomas Eclipse Luna заканчивает комментарий после возврата нешифрованной каретки. Его поведение по умолчанию заключается в «разрешении» символа Юникод при сохранении документа, поэтому любой код, записанный в комментарии после возврата каретки Юникода, будет фактически отображаться за пределами строки комментария.
Attila 10 июнь 2015, в 01:39
1

@aioobe, возможно, использование термина IDE самонадеянно. Ошибка в редакторе / IDE / или в восприятии пользователем «строки» и «оператора». Восприятие пользователем активного оператора может быть значительно улучшено с помощью синтаксического редактора. Если редактор, поддерживающий синтаксис, неправильно обрабатывает аспект синтаксиса поддерживаемого языка, значит, инструмент ошибочен, это ошибка.
CuriousRabbit 10 июнь 2015, в 02:10
3

Подсветка синтаксиса SO, конечно, не знает, что она имеет дело с Java. Это «мастер на все руки», и он должен подняться на крайние случаи.
slim 10 июнь 2015, в 16:57
2

@SpringLearner Наличие такого большого количества повторений не означает, что у них есть авторитетное мнение, которому все должны следовать. Хотя формулировка вопроса может измениться («почему» очень самоуверенна), я думаю, что это действительно хорошая тема, и я очень рад, что она была затронута здесь.
AdamMc331 11 июнь 2015, в 18:00
0

@Tobb - Достаточно умный злодей позаботится о том, чтобы это выглядело как часть комментария. Не должно быть трудно заставить это выглядеть невинным.
Justin Morgan 13 июнь 2015, в 16:14
1

Предполагая, что это не ошибка в компиляторе, я бы назвал это серьезным и шокирующим недостатком спецификации. Злонамеренные сотрудники существуют, и они достаточно опасны, и язык не помогает им в этом.
Justin Morgan 13 июнь 2015, в 16:17
1

Вы можете прокомментировать весь класс с помощью этого трюка, и он все равно будет работать!
Universal Electricity 13 июнь 2015, в 17:26
0

Название вопроса мне кажется неправильным. Символ \ u000d в этом случае завершает комментарий, поэтому код вообще не содержится в комментарии. Это так же бессмысленно, как спрашивать, что компилятор анализирует символ новой строки в конце комментария, а не вечно. В конце концов, этот недостаток проистекает из врожденного недостатка создания строки комментариев, основанной на языке, не являющемся строкой.
Vality 15 июнь 2015, в 10:12
0

Вот и вся предпосылка вопроса, не так ли?
BoltClock♦ 16 июнь 2015, в 06:34
2

Бесстыдная вилка: вы можете поиграть с этим по адресу: obfuscat.ion.land
Peter Jaric 16 июнь 2015, в 09:30
1

\u000d - возврат каретки; \u000a будет новой строкой. Любой из них заканчивает // комментарий.
pts 09 июль 2015, в 21:30
0

Возможный дубликат символа новой строки Юникода (\ u000d) в Java
Koray Tugay 21 янв. 2016, в 13:33
0

Я голосую, чтобы закрыть этот вопрос как не по теме, потому что вопрос касается языкового дизайна, а не программирования как такового.
Prune 21 янв. 2016, в 23:30
1

Я голосую, чтобы закрыть этот вопрос как не по теме, потому что ошибка не может быть воссоздана. Код не является комментарием, однако это IDE OP, но это ошибка в IDE, и он не имеет ничего общего с тем, можно ли выполнить код в комментарии.
Rune FS 08 июнь 2017, в 07:24
1

Почему компилятор принимает \ u-последовательности вне строковых / символьных литералов? Ну, на первый взгляд, это была хорошая идея. Оглядываясь назад, мы можем сказать, что это не очень хорошая идея, но уже слишком поздно. (Примечание: в комментариях много упоминаний об «IDE», но вопрос не имеет никакого отношения к «IDE».)
Lorinczy Zsigmond 11 май 2018, в 18:05
0

@LorinczyZsigmond Смысл разрешения экранирования единиц кода UTF-16 заключается в поддержке всех допустимых идентификаторов Java (особенно имен классов) в исходном файле с кодировкой символов, которая этого не делает.
Tom Blodget 26 март 2019, в 03:28

Показать ещё 35 комментариев

Теги:

java

comments

unicode

8 ответов

130

Так как это еще не адресовано, вот объяснение, почему перевод экранов Unicode происходит до любой другой обработки исходного кода:

Идея заключалась в том, что он позволяет без потерь переносить исходный код Java между различными кодировками символов. Сегодня широко распространена поддержка Unicode, и это не похоже на проблему, но тогда разработчик из западной страны не смог получить некоторый исходный код от своего азиатского коллеги, содержащего азиатские символы, внести некоторые изменения (включая компиляцию и тестирование это) и отправить результат обратно, все, не повредив что-то.

Итак, исходный код Java может быть написан в любой кодировке и позволяет использовать широкий диапазон символов в идентификаторах, символах и String литералах и комментариях. Затем, чтобы передать его без потерь, все символы, не поддерживаемые целевой кодировкой, заменяются их экранами Unicode.

Это обратимый процесс, и интересным моментом является то, что перевод может быть выполнен с помощью инструмента, который не должен знать ничего о синтаксисе исходного кода Java, поскольку правило перевода не зависит от него. Это работает как перевод их фактических символов Юникода внутри компилятора, независимо от синтаксиса исходного кода Java. Это означает, что вы можете выполнять произвольное количество шагов перевода в обоих направлениях, не изменяя значения исходного кода.

Это причина другой странной функции, о которой даже не упоминалось: синтаксис \uuuuuuxxxx:

Когда инструмент перевода ускользает от символов и встречает последовательность, которая уже является экранированной последовательностью, она должна вставить дополнительный u в последовательность, преобразуя \ucafe в \uucafe. Значение не изменяется, но при преобразовании в другое направление инструмент должен просто удалить один u и заменить только последовательности, содержащие один u своими символами Юникода. Таким образом, даже Unicode-экраны сохраняются в исходной форме при конвертации взад и вперед. Думаю, никто никогда не использовал эту функцию...

Holger 09 июнь 2015, в 18:40

1

Интересно, что native2ascii , native2ascii , не использует синтаксис \uu...xxxx ,
ninjalj 09 июнь 2015, в 18:17
5

Да, native2ascii предназначался, чтобы помочь подготовить пакеты ресурсов, преобразовав их в iso-latin-1, так как Properties.load был исправлен для чтения только latin-1. И там, правила не отличаются, нет \uuu… синтаксис и не на ранней стадии обработки. В файлах property=multi\u000aline действительно совпадает с property=multi\nline . (В отличие от фразы «использование экранирования Unicode, как определено в разделе 3.3 спецификации языка Java ™» документации)
Holger 09 июнь 2015, в 18:52
9

Обратите внимание, что эта цель дизайна могла быть достигнута без каких-либо бородавок; проще всего было бы запретить \u escape-символам генерировать символы в диапазоне U + 0000–007F. (Все такие символы могут быть изначально представлены во всех национальных кодировках, которые были актуальны в 1990-х годах - ну, может быть, за исключением некоторых управляющих символов, но они все равно не нужны для написания Java.)
zwol 09 июнь 2015, в 19:28
3

@zwol: хорошо, если вы исключите управляющие символы, которые в любом случае не разрешены в исходном коде Java, вы правы. Тем не менее, это будет означать усложнение правил. И сегодня уже поздно обсуждать решение ...
Holger 09 июнь 2015, в 19:34
0

ах проблема сохранения документа в utf8 а не в латинице или что-то еще. Все мои базы данных также были взломаны из-за этой западной чепухи
David 天宇 Wong 17 июнь 2015, в 21:21

Показать ещё 3 комментария

92

Я собираюсь полностью неэффективно добавить точку, просто потому, что я не могу помочь себе, и я еще не видел ее, что вопрос недействителен, поскольку в нем содержится скрытая предпосылка, которая неверна, а именно, что код находится в комментарии!

В исходном коде Java\u000d во всех отношениях эквивалентен символу ASCII CR. Это конец строки, простой и простой, где бы он ни возникал. Форматирование в вопросе вводит в заблуждение, что соответствует синтаксически соответствующей последовательности символов:

public static void main(String... args) {
   // The comment below is no typo. 
   // 
 System.out.println("Hello World!");
}

ИМХО самый правильный ответ: код выполняется потому, что он не находится в комментарии; это на следующей строке. "Выполнение кода в комментариях" не разрешено на Java, как и следовало ожидать.

Большая часть путаницы проистекает из того факта, что синтаксические маркеры и IDE не достаточно сложны, чтобы учитывать эту ситуацию. Они либо вообще не обрабатывают экраны unicode, либо делают это после разбора кода вместо предыдущего, например javac.

Pepijn Schmitz 10 июнь 2015, в 18:57

5

Я согласен, это не Java-ошибка проектирования, но это ошибка IDE.
bvdb 22 июнь 2017, в 12:59
2

Вопрос скорее в том, почему код, который выглядит как комментарий для человека, не знакомого с этим конкретным аспектом языка и, возможно, без ссылки на подсветку синтаксиса, на самом деле не является комментарием. Возражение на основании предпосылки вопроса является недействительным.
Phil 15 июнь 2018, в 05:37
0

@Phil: он выглядит только как комментарий при просмотре с помощью определенных инструментов, другие показывают это иначе.
jmoreno 06 фев. 2019, в 12:00
0

@ jmoreno для чтения кода не нужно иметь ничего, кроме текстового редактора. По крайней мере, он нарушает принцип наименьшего удивления, а именно, что комментарии в стиле // продолжаются до следующего символа \ n, а не до какой-либо другой последовательности, которая в конечном итоге заменяется на \ n. Никогда не ожидается, что комментарии будут чем-то иным, кроме раздетых. Плохой препроцессор.
Phil 07 фев. 2019, в 08:15

Показать ещё 2 комментария

62

Побег \u000d завершает комментарий, потому что \u экраны равномерно преобразуются в соответствующие символы Юникода до того, как программа будет маркирована. Вы можете использовать \u0057\u0057 вместо //, чтобы начать комментарий.

Это ошибка в вашей среде IDE, которая должна синтаксически выделять строку, чтобы было ясно, что \u000d завершает комментарий.

Это также ошибка дизайна на языке. Теперь это не может быть исправлено, потому что это может сломать программы, зависящие от него. \u escape файлы должны либо быть преобразованы в соответствующий символ Юникода компилятором только в тех контекстах, где это "имеет смысл" (строковые литералы и идентификаторы и, возможно, нигде больше), или им было запрещено создавать символы в U + 0000 -007F или оба. Любая из этих семантик предотвратила бы завершение комментария путем \u000d escape, без вмешательства в случаи, когда \u escapes являются полезными - обратите внимание, что это включает использование \u экранов внутри комментариев как способ кодирования комментариев в нелатинском script, потому что текстовый редактор может принимать более широкое представление о том, где \u экраны значительны, чем компилятор. (Я не знаю ни одного редактора или IDE, которые будут отображать экраны \u как соответствующие символы в любом контексте.)

Аналогичная ошибка конструкции в семействе C, ¹ где обратная косая черта-новая строка обрабатывается до определения границ комментария, например,

// this is a comment \
   this is still in the comment!

Я привожу это, чтобы проиллюстрировать, что бывает легко сделать эту конкретную ошибку дизайна, и не осознавать, что это ошибка, пока не будет слишком поздно ее исправлять, если вы привыкли думать о токенизации и анализировать путь программисты компилятора думают о токенизации и разборе. В принципе, если вы уже определили свою формальную грамматику, а затем кто-то придумает синтаксический специальный случай — триграфы, backslash-newline, кодирование произвольных символов Unicode в исходных файлах, ограниченных ASCII, независимо от того, что нужно вклинивать, проще добавить проход преобразования перед токенизатором, чем переопределять токенизатор, чтобы обратить внимание на то, где имеет смысл использовать этот специальный случай.

¹ Для педантов: я знаю, что этот аспект C был на 100% преднамеренным, с обоснованием; Я этого не делаю; что это позволит вам механически форсировать код с произвольно длинными строками на перфокарты. Это было неправильное дизайнерское решение.

zwol 09 июнь 2015, в 15:39

17

Я бы не сказал, что это ошибка проектирования. Я мог бы согласиться с вами, что это был неудачный выбор дизайна или выбор с неблагоприятными последствиями, но я все еще думаю, что он работает так, как задумывалось дизайнерами языка: он позволяет вам использовать любой символ юникода в любом месте файла, сохраняя при этом кодировку ASCII файла.
aioobe 09 июнь 2015, в 15:29
0

Я думаю, что если бы обоснование было таким, как указано, то обратный слеш, за которым следовал какой-то конкретный другой символ (например ! ), Должен был указывать, что оставшаяся часть физической строки должна игнорироваться, а первый символ следующей строки следует рассматривать как прямой после символа перед обратной косой чертой. Это позволило бы \! пробивается в столбцах 71-72, оставляя восемь столбцов доступными для порядковых номеров. В некоторых контекстах трюк с маркерной полосой может уменьшить потребность в машиночитаемых числах, но я не думаю, что это устранит его.
supercat 09 июнь 2015, в 16:08
12

С учетом сказанного, я думаю, что выбор этапа обработки для \u был менее абсурдным, чем решение последовать примеру C в использовании начальных нулей для восьмеричной нотации. Хотя восьмеричные нотации иногда полезны, я еще не слышал, чтобы кто-либо сформулировал аргумент, почему ведущий ноль является хорошим способом его обозначения.
supercat 09 июнь 2015, в 16:09
3

@supercat Люди, которые добавили эту функцию в C89, обобщали поведение исходного препроцессора K & R, а не разрабатывали функцию с нуля. Я сомневаюсь, что они были знакомы с лучшими практиками перфокарт, и я также сомневаюсь, что эта функция когда-либо использовалась для своей заявленной цели, за исключением, может быть, одного или двух заданий на ретро-вычисления.
zwol 09 июнь 2015, в 18:33
7

@supercat У меня не было бы проблемы с Java \u как преобразованием перед токенизацией, если бы было запрещено создавать символы в диапазоне U + 0000..U + 007F. Именно сочетание «это работает везде» и «это псевдоним ASCII-символов с синтаксической значимостью» превращает его из неловкого в прямое и неправильное.
zwol 09 июнь 2015, в 18:34
0

@zwol: я мог бы согласиться с этим, хотя в целом я не большой поклонник того, как языки подходят к не-ASCII-идентификаторам. Поскольку Unicode включает в себя множество гомоглифов, и языки, которые позволяют идентификаторы Unicode, часто накладывают минимальные ограничения на их использование, чрезвычайно сложно создать список программ, который удобочитаем, но семантически однозначен.
supercat 09 июнь 2015, в 18:42
0

@supercat Да, даже собственные рекомендации Unicode относительно того, как делать идентификаторы в языках программирования, слишком легковесны, чтобы мне было удобно.
zwol 09 июнь 2015, в 19:17
0

@zwol: Лично я считаю, что языки программирования должны определять жесткие и непостоянные критерии соответствия и требовать, чтобы идентификаторы должны были точно совпадать, чтобы считаться совпадением, но должны скрывать все идентификаторы, которые совпадают (такое правило должно применяться к верхнему / нижнему регистру в ASCII, но также во многих сценариях Unicode). Таким образом, если Foo определен во внешнем контексте, а foo определен во внутреннем, то во внутреннем контексте foo будет ссылаться на последний идентификатор, а Foo будет синтаксической ошибкой. Применение такого правила к гомоглифам, но с возможностью переопределить его в особых случаях ...
supercat 09 июнь 2015, в 19:25
0

... (например, явно сказать компилятору: «Я хочу, чтобы идентификаторы foo и Foo , или Χ и X , чтобы оба были здесь доступны) помогли бы защититься от множества неоднозначных ситуаций.
supercat 09 июнь 2015, в 19:33
3

@supercat: сегодня это делают IDE. «Критерии свободного соответствия» часто состоят из одной буквы, затем IDE заполняет оставшиеся символы, чтобы сделать их подходящими «критериями строгого соответствия», и я не думаю, что компиляторы должны когда-либо иметь дело с «критериями свободного соответствия». То есть, я не обыкновение компилятора , который счастливо разрешает появление i к I , и когда кто - то компилирует его на турецкую местности, i вдруг разрешенный к İ ...
Holger 09 июнь 2015, в 19:44
0

@Holger: В соответствии с правилами, которые я хотел бы видеть, в области, где была определена Six , идентификаторы six , SİX , Sıx и т. Д. Не могли бы использоваться, даже если они существовали во внешних областях. Столкновения могут привести к синтаксическим ошибкам, которые требуют явной директивы «различать эти идентификаторы», но не могут изменить значение кода, который все еще компилируется.
supercat 09 июнь 2015, в 19:52
4

Относительно вашего "для педантов": Конечно, в то время // однострочный комментарий не существовал . А поскольку в C есть терминатор операторов, который не является новой строкой, он в основном будет использоваться для длинных строк, за исключением того, что, насколько я могу судить, «конкатенация строковых литералов» была в K & R.
Mark Hurd 16 июнь 2015, в 17:39

Показать ещё 10 комментариев

22

Это был преднамеренный выбор дизайна, который полностью возвращается к оригинальному дизайну Java.

Для тех, кто спрашивает "кто хочет, чтобы Unicode удалялся в комментариях?", я полагаю, что они - люди, родной язык которых использует набор символов латинского алфавита. Другими словами, он присущ оригинальному дизайну Java, что люди могут использовать произвольные символы Unicode везде, где это законно в Java-программе, чаще всего в комментариях и строках.

Возможно, это недостаток в программах (например, IDE), используемых для просмотра исходного текста, что такие программы не могут интерпретировать экраны Unicode и отображать соответствующий глиф.

Jonathan Gibbons 09 июнь 2015, в 20:40

7

В настоящее время мы используем UTF-8 для нашего исходного кода и можем использовать символы Unicode напрямую, без необходимости экранирования.
Paŭlo Ebermann 14 июнь 2015, в 08:41

22

Я согласен с @zwol, что это ошибка дизайна; но я даже более критично отношусь к нему.

\u escape полезен в строках и char литералах; и что единственное место, в котором оно должно существовать. Его следует обрабатывать так же, как и другие escape-последовательности, такие как \n; и "\u000A" должно означать точно "\n".

Нет абсолютно никакого смысла иметь \uxxxx в комментариях - никто не может это прочитать.

Точно так же нет смысла использовать \uxxxx в другой части программы. Единственное исключение, вероятно, в общедоступных API, которые принудительно содержат некоторые символы не-ascii - что в последний раз мы видели?

У дизайнеров были свои причины в 1995 году, но через 20 лет это кажется неправильным выбором.

(вопрос читателям - почему этот вопрос продолжает получать новые голоса? этот вопрос связан с чем-то популярным?)

ZhongYu 09 июнь 2015, в 18:41

5

Я предполагаю, что вы не зависаете, где не API-символы используются в API. Есть люди, использующие его (не я), например, в азиатских странах. И когда вы используете не идентификаторы ASCII в идентификаторах, запрещать их в комментариях к документации не имеет большого смысла. Тем не менее, позволить им внутри токена и позволить им изменить значение или границу токена - это разные вещи.
Holger 09 июнь 2015, в 17:25
15

они могут использовать правильную кодировку файлов. зачем писать int \u5431 когда вы можете сделать int 整
ZhongYu 09 июнь 2015, в 17:29
3

Что вы будете делать, когда вам нужно будет скомпилировать код на основе их API и не сможете использовать правильную кодировку (предположим, что в 1995 году не было широко распространенной поддержки UTF-8 ). Вы просто должны вызвать один метод и не хотите устанавливать пакет поддержки азиатского языка вашей операционной системы (вспомните, девяностые годы) для этого единственного метода…
Holger 09 июнь 2015, в 17:34
1

Это воображаемый сценарий? Я не думаю, что это происходит в реальном мире.
ZhongYu 09 июнь 2015, в 17:37
1

Было бы еще хуже, если бы в идентификаторах допускались произвольные символы, но в то же время доступ к этим идентификаторам из определенных локалей был невозможен. Когда вы разрабатываете язык, вы должны решить. Я могу жить с языком, ограничивающим символы ASCII, поскольку я вижу проблемы с локализованным исходным кодом. Но я также активный пользователь англоязычного сайта stackoverflow, поэтому у меня (и, вероятно, у вас тоже) есть предвзятость. Мы знаем, что стоит иметь возможность поговорить с другими (на международном сайте) о коде. Кстати, я оставил ответ, объясняющий первоначальное намерение (в воздухе) ...
Holger 09 июнь 2015, в 18:09
5

Что гораздо яснее, чем в 1995 году, так это то, что вы лучше знаете английский, если хотите программировать. Программирование - это международное взаимодействие, и почти все ресурсы на английском языке.
ZhongYu 09 июнь 2015, в 18:16
0

@Holger: не-ASCII в идентификаторах - это еще одна червь, поскольку он не только не-ASCII-буквенно-цифровой, но и содержит слишком много, включая контрольные коды: stackoverflow.com/questions/4838507/…
ninjalj 09 июнь 2015, в 18:20
7

Я не думаю, что это изменилось. Документация на Java в большинстве случаев также была полностью английской. Некоторое время существовал японский перевод, но поддержка двух языков на самом деле не поддерживает идею его сохранения для всех языков мира (скорее, это опровергло). А до этого не было общепринятого языка с поддержкой Юникода в идентификаторах. Так что, я думаю, кто-то думал, что локализованный исходный код был следующей большой вещью. Я бы сказал, к счастью , это не взлетело.
Holger 09 июнь 2015, в 18:24
1

@ninjalj: да, мне нравится то, что вы можете делать со встроенным письмом справа налево, но также и такие простые вещи, как факт, что ä и ä - разные идентификаторы (потому что один - U+0061U+0308 а другой - U+00E4 ) ,
Holger 09 июнь 2015, в 18:29
0

@Holger: Сам RTL также может сбивать с толку. Возник вопрос, который я не могу найти прямо сейчас, когда OP пытался сопоставить подстроку в строке: аргументы были перевернуты.
ninjalj 09 июнь 2015, в 18:36
0

@StephenP - вы, вероятно, думаете %n в format() . \n означает точно символ 0x0a , см. docs.oracle.com/javase/specs/jls/se8/html/jls-3.html#jls-3.10.6
ZhongYu 10 июнь 2015, в 17:48
0

@ bayou.io Я чувствую, что юникод может быть действительным в комментарии ... точнее, в документирующем комментарии / ** ... * / с описанием, которое будет сгенерировано в HTML-страницу javadoc; теперь в этом случае я, вероятно, по-прежнему использовал бы буквальный символ новой строки над этим, и для документирующего комментария эта проблема не возникла бы, если бы у меня не было символов Юникода для ОБА * и / в комментарии непосредственно друг за другом, поскольку они документировали комментарии не заканчиваются ни одним символом новой строки.
anonymous 10 июнь 2015, в 21:18
0

@ Аноним - хорошая мысль. однако мы можем использовать экранирование xml - ⪹ -> ⪹
ZhongYu 10 июнь 2015, в 22:41
1

@ bayou.io Что я должен делать, когда мне нужно смоделировать что-то без английского имени? Это довольно распространено, если вы когда-либо имели дело с такими областями, как право или бизнес или тому подобное, в которых нет таких вещей. Особенно в правовых областях слова имеют очень специфическое значение. Представьте, что в стандартном алфавите нет C, X или Q. Теперь у вас есть класс с именем «KommonLaw» или что-то в этом роде. Вы хотели бы использовать «С». В твоем мире это неправильно. Но что, если KommonLaw имел в виду что-то другое? Что теперь? Возможно, в какой-то момент вы попытаетесь использовать язык, который позволит вам вместо этого использовать «С».
Haakon Løtveit 28 фев. 2016, в 08:24
0

@ HaakonLøtveit - нельзя ли использовать символ непосредственно вместо escape-последовательности, например, class Løtveit вместо class L\u00D8tveit
ZhongYu 28 фев. 2016, в 19:26
0

Это было бы здорово для меня, но тогда вам нужно где-то написать «new Løe ()», и вы, вероятно, очень устали от копирования », очень скоро. Предоставление вам доступа к этим местам, вероятно, будет проще для вас. (Или вы просто используете международный макет IBM, но это потому, что он поддерживает большинство символов западной Европы. Но есть еще пиньинь и т. Д.)
Haakon Løtveit 28 фев. 2016, в 21:11
0

@ HaakonLøtveit - у меня не было типа или копии @HaakonLøtveit , редактор делает это для меня автозаполнением. То же самое для Java. Даже если мне придется скопировать ø , это, вероятно, проще, чем найти и набрать его юникод.
ZhongYu 29 фев. 2016, в 00:32
1

Да. Ваш редактор сегодня, в 2016 году делает это. Но Java была выпущена в 1995 году. В то время в Emacs не было семантического автозаполнения, и это была самая продвинутая вещь, которая была доступна для Java. У него даже не было поддержки Unicode.
Haakon Løtveit 29 фев. 2016, в 09:02

Показать ещё 16 комментариев

11

Единственные люди, которые могут ответить, почему экраны Unicode были реализованы, так как они были людьми, которые написали спецификацию.

Вероятная причина этого заключается в том, что было желание разрешить весь BMP как возможные символы исходного кода Java. Это создает проблему, хотя:

Вы хотите иметь возможность использовать любой символ BMP.
Вы хотите иметь возможность вводить любой BMP charater достаточно легко. Способ сделать это - с экранами Unicode.
Вы хотите, чтобы лексическая спецификация была легкой для людей, чтобы читать и писать, а также разумно легко реализовать.

Это невероятно сложно, когда Unicode выйдет из игры: он создает целый набор новых правил лексера.

Легкий выход состоит в том, чтобы выполнить лексирование в два этапа: сначала найдите и замените все символы Unicode символом, который он представляет, а затем проанализируйте результирующий документ так, как будто escape-коды Unicode не существуют.

Поверхность этого заключается в том, что ее легко указать, поэтому упрощает ее спецификацию и ее легко реализовать.

Недостатком является, ну, ваш пример.

Martijn 12 июнь 2015, в 13:17

2

Или ограничьте использование \ uxxxx идентификаторами, строковыми литералами и символьными константами. Именно это и делает С11.
ninjalj 13 июнь 2015, в 12:33
0

это действительно усложняет правила синтаксического анализа, потому что именно они определяют эти вещи, и я полагаю, что это одна из причин того, что это так.
Martijn 13 июнь 2015, в 16:11

1

Компилятор не только переводит escape-последовательности Unicode в символы, которые они представляют, прежде чем он анализирует программу в токенах, но делает это до удаления комментариев и пробелов.

Эта программа содержит единственный Unicode escape (\ u000d), расположенный в единственном комментарии. Как говорится в комментарии, этот escape представляет символ перевода строки, а компилятор переводит его перед , отбрасывая комментарий.

Это зависит от платформы. В некоторых формах плат, таких как UNIX, он будет работать на других, таких как Windows, это не будет. Хотя результат может выглядеть невооруженным глазом, он может легко вызвать проблемы, если он был сохранен в файле или передан в другую программу для последующей обработки.

Arp 02 нояб. 2017, в 14:44

3

Как бы ни был красноречив ваш «ответ», на самом деле это вовсе не ответ. Вопрос ОП был «Почему это разрешено?», Но здесь объясняется, как это работает ... какой ОП уже предоставил.
mmgross 02 янв. 2018, в 11:10
3

Есть ли у вас источники, чтобы подтвердить, что это зависит от платформы? Если это правда, я бы посчитал, что Java полностью сломана (я так или иначе делаю, это просто еще один гвоздь в гробу).
Clearer 07 фев. 2018, в 12:48
0

Компилятор Java рассматривает пустой \u000d как конец однострочного // комментария даже в Windows. (Протестировано с Oracle Java 1.7 и IBM Java 1.8 на Windows 7, просто чтобы быть уверенным ...)
david 21 янв. 2019, в 20:15

Показать ещё 1 комментарий

Ещё вопросы

«Почему это разрешено» мне кажется слишком основанным на мнении. Языковые дизайнеры приняли решение, что еще нужно знать? Если вы не найдете утверждение человека, принимающего такое решение, мы можем только строить догадки.
Хотя это и странно, я не вижу в этом реальной проблемы. Обычные пользователи не будут знать разницу между кодом, скрытым в комментарии, и обычным кодом, поэтому для них это не имеет значения. Тогда это может быть член команды, скрывающий код от других участников, но разработчики среагируют, увидев странный комментарий, подобный этому, и либо удалят его, либо исследуют. Если это будет сделано и введено в действие, VCS скажет вам, кто это сделал, так что вас поймают.
Одна интересная вещь, по крайней мере, в том, что IDE OP явно ошибается и отображает некорректную подсветку,
@shawn Это объясняется в вопросе. ОП спрашивает, почему в разделе комментариев он также переводится как \n .
Возможно связано: stackoverflow.com/questions/4448180/…
@Tobb: Да, авторитетный ответ может исходить только от дизайнеров. Однако, может быть какая-то информация о том, почему это было сделано (совместимость, ограничение инструментов и т. Д.), Так что это ответственно.
@Bathsheba это не подходит для хорошего вопроса или для вопроса в соответствии со стандартами SO. Если вы внимательно посмотрите, 1-й голос за закрытие был сделан tjcrowder, у которого 360,349 повторений
потому что символ новой строки также разрешен ... я тестировал его на c ++ и c #, эти языки пропускают строки после чтения //, но java, кажется, анализирует завершенную строку и интерпретирует код как символ новой строки.
@Tobb Но Java-дизайнеры посещают SO, поэтому можно получить ответы по одному из них. Также могут существовать ресурсы, которые уже отвечают на этот вопрос.
Я не знаю наверняка, но я подозреваю, что это всего лишь побочный эффект общего решения обрабатывать unidoce символы внутри комментариев. Возможно, разрешить кодовые комментарии на иностранных языках или с математическими греческими знаками. Лично я бы избежал этого ... (Javadoc может быть исключением, но тогда мне не нужна эта функция, потому что HTML имеет свою собственную поддержку специальных символов).
stackoverflow.com/questions/3866187/… забавный пример
Экранирование Unicode разрешено везде и всегда анализируется раньше всего. Предполагается, что любой исходный файл может быть преобразован в эквивалентный файл, содержащий только символы ASCII.
Похожие страницы : stackoverflow.com/q/13116648/319403
@dhke: это также отображается как комментарий в Eclipse, так что вы знаете какую-либо IDE, которая не отображает его как комментарий?
@Thomas Netbeans (по крайней мере, в 8.0.2) завершает комментарий после экранированной строки в Юникоде, показывая println() виде кода. Он также показывает то же поведение, что и компилятор для начального кода экранированного комментария от stackoverflow.com/questions/4448180/…
Это также означает, что недопустимые экранирования Unicode в комментариях приводят к ошибкам компиляции (например, путь в Windows, продолжающийся \users ), что может раздражать.
@dhke ОП не упомянул, как его / ее IDE отображает этот код. Единственное, что можно выделить из выделения в тексте вопроса, это то, что подсветка кода Java здесь, в SO, ошибается.
То, что вы показываете, является ошибкой в IDE. Это совершенно правильный код. То, что IDE не ПОКАЗЫВАЕТ это как код, является ошибкой. IDE должны перестать предполагать, что компиляторы не знают Unicode.
@CuriousRabbit, что заставляет вас сделать вывод, что это ошибка в IDE OP? (Как вы вообще узнаете, что OP использует IDE?)
Простой ответ заключается в том, что по правилам языка код вообще не содержится в комментариях, поэтому вопрос некорректен.
@Thomas Eclipse Luna заканчивает комментарий после возврата нешифрованной каретки. Его поведение по умолчанию заключается в «разрешении» символа Юникод при сохранении документа, поэтому любой код, записанный в комментарии после возврата каретки Юникода, будет фактически отображаться за пределами строки комментария.
@aioobe, возможно, использование термина IDE самонадеянно. Ошибка в редакторе / IDE / или в восприятии пользователем «строки» и «оператора». Восприятие пользователем активного оператора может быть значительно улучшено с помощью синтаксического редактора. Если редактор, поддерживающий синтаксис, неправильно обрабатывает аспект синтаксиса поддерживаемого языка, значит, инструмент ошибочен, это ошибка.
Подсветка синтаксиса SO, конечно, не знает, что она имеет дело с Java. Это «мастер на все руки», и он должен подняться на крайние случаи.
@SpringLearner Наличие такого большого количества повторений не означает, что у них есть авторитетное мнение, которому все должны следовать. Хотя формулировка вопроса может измениться («почему» очень самоуверенна), я думаю, что это действительно хорошая тема, и я очень рад, что она была затронута здесь.
@Tobb - Достаточно умный злодей позаботится о том, чтобы это выглядело как часть комментария. Не должно быть трудно заставить это выглядеть невинным.
Предполагая, что это не ошибка в компиляторе, я бы назвал это серьезным и шокирующим недостатком спецификации. Злонамеренные сотрудники существуют, и они достаточно опасны, и язык не помогает им в этом.
Вы можете прокомментировать весь класс с помощью этого трюка, и он все равно будет работать!
Название вопроса мне кажется неправильным. Символ \ u000d в этом случае завершает комментарий, поэтому код вообще не содержится в комментарии. Это так же бессмысленно, как спрашивать, что компилятор анализирует символ новой строки в конце комментария, а не вечно. В конце концов, этот недостаток проистекает из врожденного недостатка создания строки комментариев, основанной на языке, не являющемся строкой.
Вот и вся предпосылка вопроса, не так ли?
Бесстыдная вилка: вы можете поиграть с этим по адресу: obfuscat.ion.land
\u000d - возврат каретки; \u000a будет новой строкой. Любой из них заканчивает // комментарий.
Возможный дубликат символа новой строки Юникода (\ u000d) в Java
Я голосую, чтобы закрыть этот вопрос как не по теме, потому что вопрос касается языкового дизайна, а не программирования как такового.
Я голосую, чтобы закрыть этот вопрос как не по теме, потому что ошибка не может быть воссоздана. Код не является комментарием, однако это IDE OP, но это ошибка в IDE, и он не имеет ничего общего с тем, можно ли выполнить код в комментарии.
Почему компилятор принимает \ u-последовательности вне строковых / символьных литералов? Ну, на первый взгляд, это была хорошая идея. Оглядываясь назад, мы можем сказать, что это не очень хорошая идея, но уже слишком поздно. (Примечание: в комментариях много упоминаний об «IDE», но вопрос не имеет никакого отношения к «IDE».)
@LorinczyZsigmond Смысл разрешения экранирования единиц кода UTF-16 заключается в поддержке всех допустимых идентификаторов Java (особенно имен классов) в исходном файле с кодировкой символов, которая этого не делает.
Интересно, что native2ascii , native2ascii , не использует синтаксис \uu...xxxx ,
Да, native2ascii предназначался, чтобы помочь подготовить пакеты ресурсов, преобразовав их в iso-latin-1, так как Properties.load был исправлен для чтения только latin-1. И там, правила не отличаются, нет \uuu… синтаксис и не на ранней стадии обработки. В файлах property=multi\u000aline действительно совпадает с property=multi\nline . (В отличие от фразы «использование экранирования Unicode, как определено в разделе 3.3 спецификации языка Java ™» документации)
Обратите внимание, что эта цель дизайна могла быть достигнута без каких-либо бородавок; проще всего было бы запретить \u escape-символам генерировать символы в диапазоне U + 0000–007F. (Все такие символы могут быть изначально представлены во всех национальных кодировках, которые были актуальны в 1990-х годах - ну, может быть, за исключением некоторых управляющих символов, но они все равно не нужны для написания Java.)
@zwol: хорошо, если вы исключите управляющие символы, которые в любом случае не разрешены в исходном коде Java, вы правы. Тем не менее, это будет означать усложнение правил. И сегодня уже поздно обсуждать решение ...
ах проблема сохранения документа в utf8 а не в латинице или что-то еще. Все мои базы данных также были взломаны из-за этой западной чепухи
Я согласен, это не Java-ошибка проектирования, но это ошибка IDE.
Вопрос скорее в том, почему код, который выглядит как комментарий для человека, не знакомого с этим конкретным аспектом языка и, возможно, без ссылки на подсветку синтаксиса, на самом деле не является комментарием. Возражение на основании предпосылки вопроса является недействительным.
@Phil: он выглядит только как комментарий при просмотре с помощью определенных инструментов, другие показывают это иначе.
@ jmoreno для чтения кода не нужно иметь ничего, кроме текстового редактора. По крайней мере, он нарушает принцип наименьшего удивления, а именно, что комментарии в стиле // продолжаются до следующего символа \ n, а не до какой-либо другой последовательности, которая в конечном итоге заменяется на \ n. Никогда не ожидается, что комментарии будут чем-то иным, кроме раздетых. Плохой препроцессор.
Я бы не сказал, что это ошибка проектирования. Я мог бы согласиться с вами, что это был неудачный выбор дизайна или выбор с неблагоприятными последствиями, но я все еще думаю, что он работает так, как задумывалось дизайнерами языка: он позволяет вам использовать любой символ юникода в любом месте файла, сохраняя при этом кодировку ASCII файла.
Я думаю, что если бы обоснование было таким, как указано, то обратный слеш, за которым следовал какой-то конкретный другой символ (например ! ), Должен был указывать, что оставшаяся часть физической строки должна игнорироваться, а первый символ следующей строки следует рассматривать как прямой после символа перед обратной косой чертой. Это позволило бы \! пробивается в столбцах 71-72, оставляя восемь столбцов доступными для порядковых номеров. В некоторых контекстах трюк с маркерной полосой может уменьшить потребность в машиночитаемых числах, но я не думаю, что это устранит его.
С учетом сказанного, я думаю, что выбор этапа обработки для \u был менее абсурдным, чем решение последовать примеру C в использовании начальных нулей для восьмеричной нотации. Хотя восьмеричные нотации иногда полезны, я еще не слышал, чтобы кто-либо сформулировал аргумент, почему ведущий ноль является хорошим способом его обозначения.
@supercat Люди, которые добавили эту функцию в C89, обобщали поведение исходного препроцессора K & R, а не разрабатывали функцию с нуля. Я сомневаюсь, что они были знакомы с лучшими практиками перфокарт, и я также сомневаюсь, что эта функция когда-либо использовалась для своей заявленной цели, за исключением, может быть, одного или двух заданий на ретро-вычисления.
@supercat У меня не было бы проблемы с Java \u как преобразованием перед токенизацией, если бы было запрещено создавать символы в диапазоне U + 0000..U + 007F. Именно сочетание «это работает везде» и «это псевдоним ASCII-символов с синтаксической значимостью» превращает его из неловкого в прямое и неправильное.
@zwol: я мог бы согласиться с этим, хотя в целом я не большой поклонник того, как языки подходят к не-ASCII-идентификаторам. Поскольку Unicode включает в себя множество гомоглифов, и языки, которые позволяют идентификаторы Unicode, часто накладывают минимальные ограничения на их использование, чрезвычайно сложно создать список программ, который удобочитаем, но семантически однозначен.
@supercat Да, даже собственные рекомендации Unicode относительно того, как делать идентификаторы в языках программирования, слишком легковесны, чтобы мне было удобно.
@zwol: Лично я считаю, что языки программирования должны определять жесткие и непостоянные критерии соответствия и требовать, чтобы идентификаторы должны были точно совпадать, чтобы считаться совпадением, но должны скрывать все идентификаторы, которые совпадают (такое правило должно применяться к верхнему / нижнему регистру в ASCII, но также во многих сценариях Unicode). Таким образом, если Foo определен во внешнем контексте, а foo определен во внутреннем, то во внутреннем контексте foo будет ссылаться на последний идентификатор, а Foo будет синтаксической ошибкой. Применение такого правила к гомоглифам, но с возможностью переопределить его в особых случаях ...
... (например, явно сказать компилятору: «Я хочу, чтобы идентификаторы foo и Foo , или Χ и X , чтобы оба были здесь доступны) помогли бы защититься от множества неоднозначных ситуаций.
@supercat: сегодня это делают IDE. «Критерии свободного соответствия» часто состоят из одной буквы, затем IDE заполняет оставшиеся символы, чтобы сделать их подходящими «критериями строгого соответствия», и я не думаю, что компиляторы должны когда-либо иметь дело с «критериями свободного соответствия». То есть, я не обыкновение компилятора , который счастливо разрешает появление i к I , и когда кто - то компилирует его на турецкую местности, i вдруг разрешенный к İ ...
@Holger: В соответствии с правилами, которые я хотел бы видеть, в области, где была определена Six , идентификаторы six , SİX , Sıx и т. Д. Не могли бы использоваться, даже если они существовали во внешних областях. Столкновения могут привести к синтаксическим ошибкам, которые требуют явной директивы «различать эти идентификаторы», но не могут изменить значение кода, который все еще компилируется.
Относительно вашего "для педантов": Конечно, в то время // однострочный комментарий не существовал . А поскольку в C есть терминатор операторов, который не является новой строкой, он в основном будет использоваться для длинных строк, за исключением того, что, насколько я могу судить, «конкатенация строковых литералов» была в K & R.
В настоящее время мы используем UTF-8 для нашего исходного кода и можем использовать символы Unicode напрямую, без необходимости экранирования.
Я предполагаю, что вы не зависаете, где не API-символы используются в API. Есть люди, использующие его (не я), например, в азиатских странах. И когда вы используете не идентификаторы ASCII в идентификаторах, запрещать их в комментариях к документации не имеет большого смысла. Тем не менее, позволить им внутри токена и позволить им изменить значение или границу токена - это разные вещи.
они могут использовать правильную кодировку файлов. зачем писать int \u5431 когда вы можете сделать int 整
Что вы будете делать, когда вам нужно будет скомпилировать код на основе их API и не сможете использовать правильную кодировку (предположим, что в 1995 году не было широко распространенной поддержки UTF-8 ). Вы просто должны вызвать один метод и не хотите устанавливать пакет поддержки азиатского языка вашей операционной системы (вспомните, девяностые годы) для этого единственного метода…
Это воображаемый сценарий? Я не думаю, что это происходит в реальном мире.
Было бы еще хуже, если бы в идентификаторах допускались произвольные символы, но в то же время доступ к этим идентификаторам из определенных локалей был невозможен. Когда вы разрабатываете язык, вы должны решить. Я могу жить с языком, ограничивающим символы ASCII, поскольку я вижу проблемы с локализованным исходным кодом. Но я также активный пользователь англоязычного сайта stackoverflow, поэтому у меня (и, вероятно, у вас тоже) есть предвзятость. Мы знаем, что стоит иметь возможность поговорить с другими (на международном сайте) о коде. Кстати, я оставил ответ, объясняющий первоначальное намерение (в воздухе) ...
Что гораздо яснее, чем в 1995 году, так это то, что вы лучше знаете английский, если хотите программировать. Программирование - это международное взаимодействие, и почти все ресурсы на английском языке.
@Holger: не-ASCII в идентификаторах - это еще одна червь, поскольку он не только не-ASCII-буквенно-цифровой, но и содержит слишком много, включая контрольные коды: stackoverflow.com/questions/4838507/…
Я не думаю, что это изменилось. Документация на Java в большинстве случаев также была полностью английской. Некоторое время существовал японский перевод, но поддержка двух языков на самом деле не поддерживает идею его сохранения для всех языков мира (скорее, это опровергло). А до этого не было общепринятого языка с поддержкой Юникода в идентификаторах. Так что, я думаю, кто-то думал, что локализованный исходный код был следующей большой вещью. Я бы сказал, к счастью , это не взлетело.
@ninjalj: да, мне нравится то, что вы можете делать со встроенным письмом справа налево, но также и такие простые вещи, как факт, что ä и ä - разные идентификаторы (потому что один - U+0061U+0308 а другой - U+00E4 ) ,
@Holger: Сам RTL также может сбивать с толку. Возник вопрос, который я не могу найти прямо сейчас, когда OP пытался сопоставить подстроку в строке: аргументы были перевернуты.
@StephenP - вы, вероятно, думаете %n в format() . \n означает точно символ 0x0a , см. docs.oracle.com/javase/specs/jls/se8/html/jls-3.html#jls-3.10.6
@ bayou.io Я чувствую, что юникод может быть действительным в комментарии ... точнее, в документирующем комментарии / ** ... * / с описанием, которое будет сгенерировано в HTML-страницу javadoc; теперь в этом случае я, вероятно, по-прежнему использовал бы буквальный символ новой строки над этим, и для документирующего комментария эта проблема не возникла бы, если бы у меня не было символов Юникода для ОБА * и / в комментарии непосредственно друг за другом, поскольку они документировали комментарии не заканчиваются ни одним символом новой строки.
@ Аноним - хорошая мысль. однако мы можем использовать экранирование xml - ⪹ -> ⪹
@ bayou.io Что я должен делать, когда мне нужно смоделировать что-то без английского имени? Это довольно распространено, если вы когда-либо имели дело с такими областями, как право или бизнес или тому подобное, в которых нет таких вещей. Особенно в правовых областях слова имеют очень специфическое значение. Представьте, что в стандартном алфавите нет C, X или Q. Теперь у вас есть класс с именем «KommonLaw» или что-то в этом роде. Вы хотели бы использовать «С». В твоем мире это неправильно. Но что, если KommonLaw имел в виду что-то другое? Что теперь? Возможно, в какой-то момент вы попытаетесь использовать язык, который позволит вам вместо этого использовать «С».
@ HaakonLøtveit - нельзя ли использовать символ непосредственно вместо escape-последовательности, например, class Løtveit вместо class L\u00D8tveit
Это было бы здорово для меня, но тогда вам нужно где-то написать «new Løe ()», и вы, вероятно, очень устали от копирования », очень скоро. Предоставление вам доступа к этим местам, вероятно, будет проще для вас. (Или вы просто используете международный макет IBM, но это потому, что он поддерживает большинство символов западной Европы. Но есть еще пиньинь и т. Д.)
@ HaakonLøtveit - у меня не было типа или копии @HaakonLøtveit , редактор делает это для меня автозаполнением. То же самое для Java. Даже если мне придется скопировать ø , это, вероятно, проще, чем найти и набрать его юникод.
Да. Ваш редактор сегодня, в 2016 году делает это. Но Java была выпущена в 1995 году. В то время в Emacs не было семантического автозаполнения, и это была самая продвинутая вещь, которая была доступна для Java. У него даже не было поддержки Unicode.
Или ограничьте использование \ uxxxx идентификаторами, строковыми литералами и символьными константами. Именно это и делает С11.
это действительно усложняет правила синтаксического анализа, потому что именно они определяют эти вещи, и я полагаю, что это одна из причин того, что это так.
Как бы ни был красноречив ваш «ответ», на самом деле это вовсе не ответ. Вопрос ОП был «Почему это разрешено?», Но здесь объясняется, как это работает ... какой ОП уже предоставил.
Есть ли у вас источники, чтобы подтвердить, что это зависит от платформы? Если это правда, я бы посчитал, что Java полностью сломана (я так или иначе делаю, это просто еще один гвоздь в гробу).
Компилятор Java рассматривает пустой \u000d как конец однострочного // комментария даже в Windows. (Протестировано с Oracle Java 1.7 и IBM Java 1.8 на Windows 7, просто чтобы быть уверенным ...)

aioobe · Accepted Answer · 2015-06-09T09-33-00.000Z

Декодирование Unicode происходит перед любым другим лексическим переводом. Ключевым преимуществом этого является то, что он делает тривиальным переходить между ASCII и любой другой кодировкой. Вам даже не нужно выяснять, где начинаются и заканчиваются комментарии!

Как указано в JLS Section 3.3, это позволяет любому инструменту на основе ASCII обрабатывать исходные файлы:

[...] Язык программирования Java определяет стандартный способ преобразования программы, написанной в Unicode, в ASCII, которая изменяет программу на форму, которая может обрабатываться инструментами на основе ASCII. [...]

Это дает фундаментальную гарантию независимости платформы (независимость поддерживаемых наборов символов), которая всегда была ключевой целью платформы Java.

Возможность записи любого символа Юникода в любом месте файла является аккуратной функцией и особенно важной в комментариях при документировании кода на нелатинских языках. Тот факт, что он может помешать семантике такими тонкими способами, - это просто (неудачный) побочный эффект.

На эту тему много ошибок:

java Puzzlers от Джошуа Блоха и Нила Гафтера включил следующий вариант:

Является ли это законной Java-программой? Если да, то что он печатает?

\u0070\u0075\u0062\u006c\u0069\u0063\u0020\u0020\u0020\u0020
\u0063\u006c\u0061\u0073\u0073\u0020\u0055\u0067\u006c\u0079
\u007b\u0070\u0075\u0062\u006c\u0069\u0063\u0020\u0020\u0020
\u0020\u0020\u0020\u0020\u0073\u0074\u0061\u0074\u0069\u0063
\u0076\u006f\u0069\u0064\u0020\u006d\u0061\u0069\u006e\u0028
\u0053\u0074\u0072\u0069\u006e\u0067\u005b\u005d\u0020\u0020
\u0020\u0020\u0020\u0020\u0061\u0072\u0067\u0073\u0029\u007b
\u0053\u0079\u0073\u0074\u0065\u006d\u002e\u006f\u0075\u0074
\u002e\u0070\u0072\u0069\u006e\u0074\u006c\u006e\u0028\u0020
\u0022\u0048\u0065\u006c\u006c\u006f\u0020\u0077\u0022\u002b
\u0022\u006f\u0072\u006c\u0064\u0022\u0029\u003b\u007d\u007d

(Эта программа оказывается простой программой Hello World).

В решении головоломки они указывают на следующее:

Более серьезно, эта головоломка помогает укрепить уроки предыдущих трех: Юникод-экраны необходимы, когда вам нужно вставлять символы, которые не могут быть представлены каким-либо другим способом в вашу программу. Избегайте их во всех других случаях.

Источник: Java: Выполнение кода в комментариях!

Короче говоря, Java намеренно позволяет это: «ошибка» в IDE OP?
@Bathsheba: это больше в головах людей. Люди не пытаются понять, как работает синтаксический анализ Java, поэтому IDE иногда отображают код неправильно. В приведенном выше примере комментарий должен заканчиваться на \u000d а часть после него должна иметь подсветку кода.
Другой распространенной ошибкой является вставка путей Windows в коде, например // C:\user\... что приводит к ошибке компиляции, поскольку \user не является допустимой escape-последовательностью Unicode.
Я понимаю введение символов юникода, но не так много, почему это разрешено в комментариях?
В затмении Код после \u000d подсвечивается частично. После нажатия Ctrl + Shift + F символ заменяется новой строкой, а остальная строка переносится
Итак .. это связано с тем, как компилятор анализирует файл исходного кода? Эта проблема не может быть воспроизведена, когда мы используем блочные комментарии вместо однострочных комментариев
@Reg, есть много особенностей языка, которые не имеют смысла в сочетании с другими функциями языка. В этом случае разработчики языка поместили обработку экранирования Юникода перед синтаксическим анализатором, и возможность использовать экранирование Юникода в commens было просто (возможно, неудачным) побочным эффектом.
Хотя я согласен с ответом @aioobe о том, что исходный код действителен, и проблема скорее в IDE (и в подсветке исходного кода в StackOverflow), обратите внимание, что есть еще одна «проблема» с кодом. Символ CR, введенный как escape-последовательность Unicode, интерпретируется как правильное начало новой строки, но номер строки не увеличивается.
@UmaKanth, // комментарии пропускаются до следующего символа новой строки. \u000d интерпретируется как символ новой строки.
@TheLostMind Если я правильно понимаю ответ, вы также сможете воспроизвести его с блочными комментариями. \u002A/ должен заканчиваться комментарием.
@Taemyr wow, \u002A/ действительно злой, затмение совершенно не в состоянии разобрать его. Поместите код между /*\u002A/ и /\u002a*/ и он будет полностью скрыт как комментарий. Нашел это как ошибка 3533
Обратите внимание, что этого можно было бы полностью избежать, если бы спецификация языка запрещала использование нотации \u для представления чего-либо представимого в ASCII.
@r хорошо, хорошо сделано. По крайней мере, это должно быть Предупреждение Компилятора Уровня 1.
@R ..: Это сделало бы так, что если вы разрабатываете на компьютере, который не использует ASCII, то есть много символов, которые вы не можете набрать, например, IBM Mainframes, которые используют EBCDIC, который не есть фигурные скобки.
@TBohne: Вы на самом деле имеете в виду такого персонажа?
@TBohne: Википедия утверждает, что они находятся на позициях C0 и D0 в EBCDIC. Это кажется довольно смешно ожидать программистов использовать \u ускользает что - то , как вездесущий , как скобки ...
@R .: Быстрый взгляд показывает, что ты прав. Но в нем также содержится «Переносимость затрудняется отсутствием многих символов, обычно используемых в программировании и сетевых коммуникациях, таких как фигурные скобки». и «существует как минимум в шести несовместимых версиях». Я предполагаю, что это должна быть другая версия.
@R ..: Не нужно было бы запрещать все в ASCII, если бы указать, что первый проход компиляции - это разделение на строки, и любые символы новой строки, которые вводятся после этого, будут обрабатываться как есть, например эта string st="Hello\u000D\u000Athere" будет генерировать строку из двенадцати символов, содержащую возврат каретки и новую строку.
Если кто-то скептически настроен и хочет протестировать программу hello world, класс должен называться «Ugly.java». Это может вызывать еще одну забавную вещь ... Например, вставка символа LRM позволит вам скомпилировать код, например, for (char c‮ = 1; c‮ > 0; c‮++)
@biziclop Можем ли мы назвать это комментарием дня, даже если он был опубликован 8 дней назад? : /