Базовое кодирование невозможно с ведущим 0?

Question

Базовое кодирование невозможно с ведущим 0?

0

Я пытаюсь кодировать строку в base36.

static char *decode(unsigned long long value)
{
    char base36[37] = "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ";
    char buffer[14];
    unsigned int offset = sizeof(buffer);

    buffer[--offset] = '\0';
    do {
        buffer[--offset] = base36[value % 36];
    } while (value /= 36);

    return _strdup(&buffer[offset]);
}

int main()
{
    char original[8] = "0XDX3A1";
    unsigned long long encoded = _strtoui64(original, NULL, 36);
    char *decoded = decode(encoded);

    cout << "Original: " << original << " Decoded: " << decoded << endl;
    return 0;
}

Проблема здесь в том, что эти функции работают нормально: если строка, которую я пытаюсь кодировать, имеет ведущую 0, то декодированная строка - один символ (или более) меньше оригинала.

Как с этим бороться?

Luka 08 март 2014, в 21:54

Источник

1

Какое отношение имеет код к вопросу о декодировании ? Покажите код декодирования и строку, которую вы декодируете.
Kerrek SB 08 март 2014, в 20:36
0

Вы спрашиваете, почему значение 07 кодируется так же, как значение 7?
Thomas Padron-McCarthy 08 март 2014, в 20:38
0

Я добавил код, который вы просили.
Luka 08 март 2014, в 20:38
0

@ Томас Падрон-МакКарти: когда я кодирую '0A', а затем декодирую его, я получаю 'A'. Я хочу получить «0А».
Luka 08 март 2014, в 20:39
3

Ведущие нули в целых числах не значимы. Например, 07 - это то же число, что и 7.
Thomas Padron-McCarthy 08 март 2014, в 20:42
0

Я знаю это, но «0XDX3» - это НЕ «XDX3».
Luka 08 март 2014, в 20:42
1

Какой номер 0XDX3?
Thomas Padron-McCarthy 08 март 2014, в 20:43
0

@Luka: они имеют одинаковое значение. Если вы хотите получать одинаковое количество символов каждый раз, то выполняйте циклы в течение фиксированного числа итераций, а не до тех пор, пока ввод не станет равным нулю.
Oliver Charlesworth 08 март 2014, в 20:43
0

это строка ...
Luka 08 март 2014, в 20:43
0

Ведущие нули не имеют значения ни в одной базе. Даже если первые символы используются по соглашению для обозначения основания (например, 0xFF для шестнадцатеричного 255, 007 для восьмеричного 7), 0 является частью представления, а не значением.
Daniel Farrell 08 март 2014, в 20:44
0

Я не совсем понимаю. Не могли бы вы , пожалуйста , попробуйте опубликовать минимальную, рабочую программу , которая по- прежнему показывает проблемы, с наблюдаемым и ожидаемым.
Thomas Padron-McCarthy 08 март 2014, в 20:45
0

Я могу зациклить и добавить 0, необходимые в начале, но это усложняет проверку ошибок. Есть ли лучший способ? например, если я закодирую это в более высокую базу?
Luka 08 март 2014, в 20:45
0

@Luka Просто включите ожидаемые и фактические результаты (и покажите код декодирования).
sehe 08 март 2014, в 20:45
0

@Luka: какая проверка ошибок?
Oliver Charlesworth 08 март 2014, в 20:46
0

Лука, как именно ты приобретаешь original ?
ThoAppelsin 08 март 2014, в 20:49
0

Кроме того, я думаю, что ваш decode должен называться encode и наоборот.
Konrad Rudolph 08 март 2014, в 20:49
0

да, перепутал копирование. Добавлен полный пример.
Luka 08 март 2014, в 20:51
0

Как вы можете использовать strdup когда вы не можете использовать strtoui64 ? Мне пришлось изменить его на _strdup при подготовке кода на моем VS Express 2103
ThoAppelsin 08 март 2014, в 21:10
0

правда, отредактировано ...
Luka 08 март 2014, в 21:18
0

Почему этот вопрос имеет невозможное в своем названии.
vvy 08 март 2014, в 21:20
0

Кажется невозможным, если я не храню размер и строки переменной длины
Luka 08 март 2014, в 21:24

Показать ещё 19 комментариев

Теги:

c++

c

4 ответа

4

Если вы декодируете строку "01234" в качестве строки base-16 (например), вы получаете целочисленное значение 4660 (0x1234) - точно такое же целочисленное значение, которое вы получаете, декодируя строку "1234" или "00001234" как base-16. Преобразуя строку в целое число, вы выбросили любую информацию о ведущих нулях. Вы также отбросили любую информацию о прописных и строчных букв, считая, что A и a представляют одно и то же значение.

Преобразование этого целочисленного значения обратно в строку не приведет к восстановлению ведущего 0, если вы не добавите его явно. И если вы хотите добавить, что ведущие 0 (или несколько 0s) тогда и только тогда, когда они присутствовали в исходной строке, вам нужно будет как-то сохранить эту информацию.

Keith Thompson 08 март 2014, в 19:41

0

Я вижу, но как можно добавить ведущие 0, если я не знаю размер строки?
Luka 08 март 2014, в 20:54
2

@Luka: Вы не можете. Если вы хотите воссоздать исходную строку, вам необходимо хранить достаточно информации об исходной строке.
Oliver Charlesworth 08 март 2014, в 21:00
0

@ Оли Чарльзуорт: если я закодирую эту вещь как base37, это будет возможно, верно (трактуя '0' как ';' и добавляя ';' после 'Z')?
Luka 08 март 2014, в 21:09
0

@Luka: обрабатывать '0' как ';' ? Я не понимаю, как это имеет смысл или полезно.
Keith Thompson 08 март 2014, в 21:14
0

если до кодирования я заменю все '0' на ';', а после декодирования сделаю обратное, получу ли я ожидаемый результат, предполагая base37?
Luka 08 март 2014, в 21:19
1

@Luka: Независимо от того, как вы настраиваете строку для декодирования, "1234" и "01234" будут давать одно и то же число. Вы не можете перекодировать это число в две разные строки, не сохраняя где-либо дополнительную информацию. Вы не можете хранить дополнительную информацию в самом номере; это должно идти куда-то еще.
Keith Thompson 08 март 2014, в 21:40

Показать ещё 4 комментария

1

Вы вызываете функцию tat, которая принимает строку, содержащую представление числового значения, и преобразует ее в unsigned long long. Два строковых представления "00007" и "7" оба преобразуются в числовые 7, а ведущие нули теряются.

Если вы хотите, например, 00000036, чтобы скрыть до 00000010 в базе 36, вам просто нужно подсчитать нули, которые вы хотите, а затем решить, сколько из них нужно заменить (зависит ли это от относительной длины базовых 10 и базовых 36 строк?)

Но, похоже, в преобразованиях есть плохая практика. лучше, на мой взгляд, добавить ведущие нули при выводе значения. Как многие прокомментировали, они не имеют никакого значения и не должны быть частью логики преобразования.

Dan Farrell 08 март 2014, в 18:06

0

Я думаю, что вы имеете в виду «добавить ведущие нули», а не «добавить конечные нули».
Keith Thompson 08 март 2014, в 21:12
0

@KeithThompson Wat? Потратили некоторое время, чтобы увидеть разницу, разве эти две последовательности слов не идентичны?
ThoAppelsin 08 март 2014, в 21:15
0

@ThoAppelsin: Извините, я опечатка; Я исправил комментарий сейчас. Я имею в виду фразу в последнем абзаце.
Keith Thompson 08 март 2014, в 21:17
0

@KeithThompson О, теперь я понял
ThoAppelsin 08 март 2014, в 21:20
0

верно, @KeithThompson. Исправлено, спасибо.
Daniel Farrell 08 март 2014, в 21:34

Показать ещё 3 комментария

0

Я предлагаю вам создать обертку вокруг вашего метода и передать ей параметр длины.

Например.

char * wrap_base36enc(int out_len, unsigned long long value){
    char pre_str[MAX_VAL]="", *ans = base36enc(value);
    len -= strlen(ans);

    while(len--){
     strcat(pre_str,"0");
    }
    strcat(pre_str,ans);

    return pre_str;
}

vvy 08 март 2014, в 19:44

Ещё вопросы

Какое отношение имеет код к вопросу о декодировании ? Покажите код декодирования и строку, которую вы декодируете.
Вы спрашиваете, почему значение 07 кодируется так же, как значение 7?
Я добавил код, который вы просили.
@ Томас Падрон-МакКарти: когда я кодирую '0A', а затем декодирую его, я получаю 'A'. Я хочу получить «0А».
Ведущие нули в целых числах не значимы. Например, 07 - это то же число, что и 7.
@Luka: они имеют одинаковое значение. Если вы хотите получать одинаковое количество символов каждый раз, то выполняйте циклы в течение фиксированного числа итераций, а не до тех пор, пока ввод не станет равным нулю.
Ведущие нули не имеют значения ни в одной базе. Даже если первые символы используются по соглашению для обозначения основания (например, 0xFF для шестнадцатеричного 255, 007 для восьмеричного 7), 0 является частью представления, а не значением.
Я не совсем понимаю. Не могли бы вы , пожалуйста , попробуйте опубликовать минимальную, рабочую программу , которая по- прежнему показывает проблемы, с наблюдаемым и ожидаемым.
Я могу зациклить и добавить 0, необходимые в начале, но это усложняет проверку ошибок. Есть ли лучший способ? например, если я закодирую это в более высокую базу?
@Luka Просто включите ожидаемые и фактические результаты (и покажите код декодирования).
Лука, как именно ты приобретаешь original ?
Кроме того, я думаю, что ваш decode должен называться encode и наоборот.
да, перепутал копирование. Добавлен полный пример.
Как вы можете использовать strdup когда вы не можете использовать strtoui64 ? Мне пришлось изменить его на _strdup при подготовке кода на моем VS Express 2103
Почему этот вопрос имеет невозможное в своем названии.
Кажется невозможным, если я не храню размер и строки переменной длины
Я вижу, но как можно добавить ведущие 0, если я не знаю размер строки?
@Luka: Вы не можете. Если вы хотите воссоздать исходную строку, вам необходимо хранить достаточно информации об исходной строке.
@ Оли Чарльзуорт: если я закодирую эту вещь как base37, это будет возможно, верно (трактуя '0' как ';' и добавляя ';' после 'Z')?
@Luka: обрабатывать '0' как ';' ? Я не понимаю, как это имеет смысл или полезно.
если до кодирования я заменю все '0' на ';', а после декодирования сделаю обратное, получу ли я ожидаемый результат, предполагая base37?
@Luka: Независимо от того, как вы настраиваете строку для декодирования, "1234" и "01234" будут давать одно и то же число. Вы не можете перекодировать это число в две разные строки, не сохраняя где-либо дополнительную информацию. Вы не можете хранить дополнительную информацию в самом номере; это должно идти куда-то еще.
Я думаю, что вы имеете в виду «добавить ведущие нули», а не «добавить конечные нули».
@KeithThompson Wat? Потратили некоторое время, чтобы увидеть разницу, разве эти две последовательности слов не идентичны?
@ThoAppelsin: Извините, я опечатка; Я исправил комментарий сейчас. Я имею в виду фразу в последнем абзаце.
верно, @KeithThompson. Исправлено, спасибо.

ThoAppelsin · Accepted Answer · 2014-03-08T19-36-00.000Z

zeroCount новую переменную в ваш основной, называемый zeroCount в main
Ввести второй аргумент для функции decode, называемый zeroCount
Подсчитайте количество zeroCount нулей в original на zeroCount в main
Поместите нули в buffer[--offset] пока вы не будете потреблять весь zeroCount перед return

Как это:

static char *decode( unsigned long long value, int zeroCount )  
{           // introduced zeroCount argument there ^
    char base36[37] = "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ";
    char buffer[14];
    unsigned int offset = sizeof( buffer );

    buffer[--offset] = '\0';
    do {
        buffer[--offset] = base36[value % 36];
    } while ( value /= 36 );

    while ( zeroCount-- ) buffer[--offset] = '0';   // <-- added this

    return strdup( &buffer[offset] );
}

int main( )
{
    char original[8] = "0XDX3A1";
    unsigned long long encoded = _strtoui64( original, NULL, 36 );

    int zeroCount = 0;                                                  // added
    for ( int i = 0; i < sizeof original && original[i] == '0'; i++ )   // these
        zeroCount++;                                                    // three

    char *decoded = decode( encoded, zeroCount );   // <-- called along with zeroCount


    cout << "Original: " << original << " Decoded: " << decoded << endl;
    return 0;
}

Поскольку нет никакого очевидного правила для желаемого поведения 0 вам нужно, я должен был предположить, что вы хотели бы иметь много ведущих нулей, которые были у original.

Хорошо, сейчас это не так, я исправляю это ...
Больше нет ... Ну, это было глупо с моей стороны, я думал, что инициализированные 0 с будут печататься как 0 с, но, конечно же, нет, они скорее должны быть превращены в '0' . Работает довольно хорошо прямо сейчас.
Не беспокойтесь, спасибо за помощь и усилия!