Алгоритм хеширования изображений для получения естественных значений первичного ключа, которые хорошо работают в табличных индексах PostgreSQL?

Question

Алгоритм хеширования изображений для получения естественных значений первичного ключа, которые хорошо работают в табличных индексах PostgreSQL?

1

Я создаю набор совлокальных хранилищ данных с изображениями, и я начинаю реализовывать простые/тривиальные поисковые и сортировочные алгоритмы на основе контента: SIFT, разреженное расстояние между цветами и гистограммой, базовое SVD и т.д.

В настоящее время я использую хэши sha1 двоичных данных в качестве индексов в таблицах PostgreSQL. Эти хэши "глупые" - они вычисляются путем подачи данных в вопрос * прямо на модуль Python hashlib.sha1 и хранятся в столбцах с hashlib.sha1, которые в точности равны представлению sha1 base64.

Было бы довольно панацеей реализовать алгоритм хэширования, который бы дал хеши, подходящие для индексирования таблиц Postgres, но это также каким-то образом описывало изображение, а также фашистское или хаммингское расстояние. В то время как phash выглядит как хороший кандидат, он, как оказалось, требует использования запатентованного механизма хранения и API... Я ищу что-то меньшее, чем "под ключ", которое будет хорошо работать с моими существующими Python/Postgresql/Solr/Редизационная экосистема.

Это не должно быть самым быстрым - для меня более важно реализовать алгоритм (или алгоритмы), который можно немного взломать и оставаться несколько убедительным.

(*) в основном это состоит из нетрансформированных или слегка трансформированных урожаев из моих изображений - таких, как: содержимое файла изображения JPEG/PNG/DNG, структуры данных профиля ICC, дампы JSON наборов тегов EXIF /IPTC и т.д.

fish2000 01 авг. 2011, в 05:21

Источник

1

Существует конфликт между тем, как работают индексы БД, и требованиями к хэшу образа. Индексы БД одномерные (линейно упорядоченные). Сходство изображений моделируется как метрика в многомерном пространстве (по крайней мере, я не знаю ни одного алгоритма, который бы использовал что-то более слабое). Не существует сохраняющего расстояние отображения из многомерного пространства на линейный индекс.
Rafał Dowgird 01 авг. 2011, в 10:41
0

Ага - пост Джитамаро (ниже), похоже, предлагает заполнение пространства кривой как средство для одномерности без значительной потери. Это возможный конец в этом случае? ... В любом случае, в данный момент я занимаюсь статистическим анализом цвета, а не извлечением признаков; Я определенно воспользуюсь другим подходом к индексированию таблиц, полных извлеченных функций, в соответствии с вашей точкой зрения, но если вы на мгновение меня здесь рассмешите: может быть хеш для цветовых данных (одноканальный или другой), который может также работать как индекс БД? ... В любом случае, спасибо за совет.
fish2000 01 авг. 2011, в 15:31
1

Боюсь, что даже один цвет - это слишком много для одного измерения. Мы, люди, трихроматичны, что означает, что сходство цветов - это 3D. Вы должны выбрать одно значение - яркость, дисперсию или что-то подобное. Однако не так много надежды на точность при таком подходе.
Rafał Dowgird 01 авг. 2011, в 19:02
1

@Rafal: кривая заполнения пространства может уменьшить любое измерение до 1 измерения. Это потому, что у sfc есть фрактальное измерение. Так что 3D-кривая возможна.
Gigamegs 02 авг. 2011, в 08:19
0

@Jitamaro: SFC на самом деле не уменьшает размер показателя сходства. Хорошо, 2D-изображение становится 1-мерной линией, но сходство линий пикселей все еще многомерно. С расстоянием Хэмминга, столько же размеров, сколько пикселей в строке - две линии могут различаться независимо для каждого из своих n пикселей.
Rafał Dowgird 02 авг. 2011, в 08:34
0

@Rafal: Я не думаю, что вы понимаете концепцию SFC или фрактала. А SFC это полезно именно из-за свойств, с которыми вы боретесь.
Gigamegs 02 авг. 2011, в 08:44
0

Хорошо, тогда как вы преобразуете SFC в значение, подходящее для индексации БД, чтобы близкие значения представляли похожие картинки?
Rafał Dowgird 02 авг. 2011, в 09:12
0

@Rafal: хорошее начало будет одним цветом и древовидной картой или подписью тепловой карты или отпечатком пальца.
Gigamegs 02 авг. 2011, в 22:58
0

@Jitamaro: Пожалуйста, уточните. Как именно вы хотите использовать SFC здесь?
Rafał Dowgird 03 авг. 2011, в 07:48
0

Вы индексируете полный x, y, пропуская координаты с нулевым значением. Тогда вы объединяете и md5 суммируете индекс?
Gigamegs 03 авг. 2011, в 08:29
0

@Jitamaro Я видел некоторые упоминания о редких гистограммах с хэшированием изображений - я использую регулярные ванильные 1d гистограммы одноканальных цветовых данных для вычисления метрик расстояния, но я не в состоянии понять, как скудно подгонять гистограммы, с которыми я работаю ... несмотря на это, идея SFC достаточно интересна, и я собираюсь разобраться в ней. Я относительно уверен, что я не придумаю какое-либо эффективное решение без каких-либо экспериментов. У кого-нибудь из вас есть примеры кода SFC или других соответствующих методов, на которые вы могли бы указать мне?
fish2000 07 авг. 2011, в 15:56
0

@Rafal Есть ли что-нибудь, чего можно было бы достичь путем объединения триплетов (R, G, B) в одно целочисленное значение - то есть литеральное целочисленное значение, которое представляет шестнадцатеричное число, подобное 0xFF1922?
fish2000 07 авг. 2011, в 16:03
1

Для 2d и 3d вы можете найти хорошее решение на tiac.net/~sw/2008/10/Hilbert . Я написал быструю 2d версию php для phpclasses.org (кривая Гильберта). Я получил рецепт из кулинарной книги хакеров и отсюда blog.notdot.net/2009/11/… . В английской википедии тоже есть хороший код. Но обычно вы начинаете с написания L-системы и использования рекурсии.
Gigamegs 07 авг. 2011, в 16:52
0

@Jitamaro отлично, спасибо за эти ссылки, я быстро продолжу. Салуд, сэр.
fish2000 07 авг. 2011, в 16:54
0

@ fish2000: Зависит от того, что вы делаете с числами. Если вы просто рассматриваете их как целые числа, то они подходят только для точных совпадений. Метрики близости не будут работать слишком хорошо. Небольшая разница в цвете, который вы положили в старший байт, приведет к большой разнице в целых числах по сравнению в целом.
Rafał Dowgird 08 авг. 2011, в 07:13
0

@Rafal Ага, конечно, следовало догадаться, что, спасибо - я также использую Solr, в контексте которого это число может быть более полезным. Вы случайно не знаете, существует ли какой-либо способ расширить собственные типы PostgreSQL с помощью какого-то типа «триплетных» данных (типа int или float), который бы облегчил хранение и / или индексирование несохраненных значений цвета?
fish2000 08 авг. 2011, в 16:07
0

@ fish2000: Хранение - да. PostgreSQL позволяет вам объявлять составные типы.
Rafał Dowgird 09 авг. 2011, в 06:52
0

Индексирование - это сложно. Существует расширение ГИС для PostreSQL, которое реализует пространственную индексацию, но я не уверен, подходит ли она для индексации цветов.
Rafał Dowgird 09 авг. 2011, в 07:00

Показать ещё 16 комментариев

Теги:

python

image-processing

postgresql

algorithm

hash

2 ответа

1

Весьма интересный подход описан в http://railsware.com/blog/2012/05/10/effective-similarity-search-in-postgresql/.

В основном изображение масштабируется до 15x15 px, затем интенсивность вычисляется для каждого пикселя (0,299 * красный + 0,587 * зеленый + 0,114 * синий). Этот массив из 255 значений хранится в столбце таблицы PostgreSQL с индексом Gin/Gist для быстрого поиска похожих изображений.

Marek Gregor 16 июнь 2015, в 06:21

0

Эта статья увлекательна и весьма актуальна - снятие отпечатков пальцев в PL / SQL на самом деле является предметно-ориентированным умением. Спасибо!
fish2000 01 март 2017, в 17:00

Ещё вопросы

Существует конфликт между тем, как работают индексы БД, и требованиями к хэшу образа. Индексы БД одномерные (линейно упорядоченные). Сходство изображений моделируется как метрика в многомерном пространстве (по крайней мере, я не знаю ни одного алгоритма, который бы использовал что-то более слабое). Не существует сохраняющего расстояние отображения из многомерного пространства на линейный индекс.
Ага - пост Джитамаро (ниже), похоже, предлагает заполнение пространства кривой как средство для одномерности без значительной потери. Это возможный конец в этом случае? ... В любом случае, в данный момент я занимаюсь статистическим анализом цвета, а не извлечением признаков; Я определенно воспользуюсь другим подходом к индексированию таблиц, полных извлеченных функций, в соответствии с вашей точкой зрения, но если вы на мгновение меня здесь рассмешите: может быть хеш для цветовых данных (одноканальный или другой), который может также работать как индекс БД? ... В любом случае, спасибо за совет.
Боюсь, что даже один цвет - это слишком много для одного измерения. Мы, люди, трихроматичны, что означает, что сходство цветов - это 3D. Вы должны выбрать одно значение - яркость, дисперсию или что-то подобное. Однако не так много надежды на точность при таком подходе.
@Rafal: кривая заполнения пространства может уменьшить любое измерение до 1 измерения. Это потому, что у sfc есть фрактальное измерение. Так что 3D-кривая возможна.
@Jitamaro: SFC на самом деле не уменьшает размер показателя сходства. Хорошо, 2D-изображение становится 1-мерной линией, но сходство линий пикселей все еще многомерно. С расстоянием Хэмминга, столько же размеров, сколько пикселей в строке - две линии могут различаться независимо для каждого из своих n пикселей.
@Rafal: Я не думаю, что вы понимаете концепцию SFC или фрактала. А SFC это полезно именно из-за свойств, с которыми вы боретесь.
Хорошо, тогда как вы преобразуете SFC в значение, подходящее для индексации БД, чтобы близкие значения представляли похожие картинки?
@Rafal: хорошее начало будет одним цветом и древовидной картой или подписью тепловой карты или отпечатком пальца.
@Jitamaro: Пожалуйста, уточните. Как именно вы хотите использовать SFC здесь?
Вы индексируете полный x, y, пропуская координаты с нулевым значением. Тогда вы объединяете и md5 суммируете индекс?
@Jitamaro Я видел некоторые упоминания о редких гистограммах с хэшированием изображений - я использую регулярные ванильные 1d гистограммы одноканальных цветовых данных для вычисления метрик расстояния, но я не в состоянии понять, как скудно подгонять гистограммы, с которыми я работаю ... несмотря на это, идея SFC достаточно интересна, и я собираюсь разобраться в ней. Я относительно уверен, что я не придумаю какое-либо эффективное решение без каких-либо экспериментов. У кого-нибудь из вас есть примеры кода SFC или других соответствующих методов, на которые вы могли бы указать мне?
@Rafal Есть ли что-нибудь, чего можно было бы достичь путем объединения триплетов (R, G, B) в одно целочисленное значение - то есть литеральное целочисленное значение, которое представляет шестнадцатеричное число, подобное 0xFF1922?
Для 2d и 3d вы можете найти хорошее решение на tiac.net/~sw/2008/10/Hilbert . Я написал быструю 2d версию php для phpclasses.org (кривая Гильберта). Я получил рецепт из кулинарной книги хакеров и отсюда blog.notdot.net/2009/11/… . В английской википедии тоже есть хороший код. Но обычно вы начинаете с написания L-системы и использования рекурсии.
@Jitamaro отлично, спасибо за эти ссылки, я быстро продолжу. Салуд, сэр.
@ fish2000: Зависит от того, что вы делаете с числами. Если вы просто рассматриваете их как целые числа, то они подходят только для точных совпадений. Метрики близости не будут работать слишком хорошо. Небольшая разница в цвете, который вы положили в старший байт, приведет к большой разнице в целых числах по сравнению в целом.
@Rafal Ага, конечно, следовало догадаться, что, спасибо - я также использую Solr, в контексте которого это число может быть более полезным. Вы случайно не знаете, существует ли какой-либо способ расширить собственные типы PostgreSQL с помощью какого-то типа «триплетных» данных (типа int или float), который бы облегчил хранение и / или индексирование несохраненных значений цвета?
@ fish2000: Хранение - да. PostgreSQL позволяет вам объявлять составные типы.
Индексирование - это сложно. Существует расширение ГИС для PostreSQL, которое реализует пространственную индексацию, но я не уверен, подходит ли она для индексации цветов.
Эта статья увлекательна и весьма актуальна - снятие отпечатков пальцев в PL / SQL на самом деле является предметно-ориентированным умением. Спасибо!

Bytemain · Accepted Answer · 2011-08-01T04-12-00.000Z

0

Лучший ответ

Как насчет кривой заполнения пространства, например кривая Гильберта или кривая moore?

Bytemain 01 авг. 2011, в 04:12

0

Это интересный способ исследования - я прочитал небольшую статью о кривых Гильберта, но я не использовал ее. Я предполагаю, что я использую кривую, чтобы сгладить изображение в гигантский вектор, к которому я затем могу применить широкий диапазон хешей и / или других преобразований ... Это ваше предложение?
fish2000 01 авг. 2011, в 15:20
1

В основном кривая Гильберта - это кривая черепицы. Это помогает уменьшить 2d сложность до 1d сложности, но чтобы преобразовать ее в хеш, вам понадобится другой алгоритм, возможно быстрое преобразование Фурье. Я хотел предложить вам что-то вроде сжатия jpeg, которое использует z-кривую и быстрое преобразование Фурье.
Gigamegs 01 авг. 2011, в 16:11