Change-Id: I9019c4382b7108ec7c442d2b0d4be044a3cb136a
libmdbx
Extended LMDB, aka "Расширенная LMDB".
The Future will Positive. Всё будет хорошо.
English version by Google and by Yandex.
Кратко
libmdbx - это встраиваемый key-value движок хранения со специфическим набором возможностей, которые при правильном применении позволяют создавать уникальные решения с чемпионской производительностью, идеально сочетаясь с технологией MRAM.
libmdbx умеет обновлять совместно используемый набор данных, никак не мешая при этом параллельным операциям чтения, не применяя атомарных операций к самим данным, и обеспечивая согласованность при аварийной остановке в любой момент. Поэтому libmdbx позволяя строить системы с линейным масштабированием производительности чтения/поиска по ядрам CPU и амортизационной стоимостью любых операций Olog(N).
История
libmdbx является потомком "Lightning Memory-Mapped Database", известной под аббревиатурой LMDB. Изначально доработка производилась в составе проекта ReOpenLDAP. Примерно за год работы внесенные изменения приобрели самостоятельную ценность. Осенью 2015 доработанный движок был выделен в отдельный проект, который был представлен на конференции Highload++ 2015.
В начале 2017 года движок libmdbx получил новый импульс развития, благодаря использованию в Fast Positive Tables, aka "Позитивные Таблицы" by Positive Technologies.
Характеристики и ключевые особенности
libmdbx наследует все ключевые возможности и особенности от своего прародителя LMDB, с устранением описанных далее проблем и архитектурных недочетов.
-
Данные хранятся в упорядоченном отображении (ordered map), ключи всегда отсортированы, поддерживается выборка диапазонов (range lookups).
-
Данные отображается в память каждого работающего с БД процесса. К данным и ключам обеспечивается прямой доступ без необходимости их копирования.
-
Транзакции согласно ACID, посредством MVCC и COW. Изменения строго последовательны и не блокируются чтением, конфликты между транзакциями не возможны. При этом гарантируется чтение только зафиксированных данных, см relaxing serializability.
-
Чтение и поиск без блокировок, без атомарных операций. Читатели не блокируются операциями записи и не конкурируют между собой, чтение масштабируется линейно по ядрам CPU.
-
Эффективное хранение дубликатов (ключей с несколькими значениями), без дублирования ключей, с сортировкой значений, в том числе целочисленных (для вторичных индексов).
-
Эффективная поддержка коротких ключей фиксированной длины, в том числе целочисленных.
-
Амортизационная стоимость любой операции Olog(N), WAF (Write Amplification Factor) и RAF (Read Amplification Factor) также Olog(N).
-
Нет WAL и журнала транзакций, после сбоев не требуется восстановление. Не требуется компактификация или какое-либо периодическое обслуживание. Поддерживается резервное копирование "по горячему", на работающей БД без приостановки изменения данных.
-
Отсутствует какое-либо внутреннее управление памятью или кэшированием. Всё необходимое штатно выполняет ядро ОС!
Сравнение производительности
Все данные получены многократным прогоном тестов на ноутбуке Lenovo Carbon-2, i7-4600U 2.1 ГГц, 8 Гб ОЗУ, с SSD-диском SAMSUNG MZNTD512HAGL-000L1 (DXT23L0Q) 512 Гб.
Исходный код бенчмарка IOArena и сценарии тестирования доступны на github.
Интегральная производительность
Показана соотнесенная сумма показателей производительности в трёх бенчмарках:
-
Чтение/Поиск на машине с 4-мя процессорами;
-
Транзакции с CRUD-операциями (вставка, чтение, обновление, удаление) в режиме синхронной фиксации данных (fdatasync при завершении каждой транзакции или аналог);
-
Транзакции с CRUD-операциями (вставка, чтение, обновление, удаление) в режиме отложенной фиксации данных (отложенная запись посредством файловой систем или аналог);
Бенчмарк в режиме асинхронной записи не включен по двум причинам:
-
Такое сравнение не совсем правомочно, его следует делать с движками ориентированными на хранение данных в памяти (Tarantool, Redis).
-
Превосходство libmdbx становится еще более подавляющем, что мешает восприятию информации.
Масштабируемость чтения
Для каждого движка показана суммарная производительность при одновременном выполнении запросов чтения/поиска в 1-2-4-8 потоков на машине с 4-мя процессорами.
Синхронная фиксация
-
Линейная шкала слева и темные прямоугольники соответствуют количеству транзакций в секунду, усредненному за все время теста.
-
Логарифмическая шкала справа и желтые интервальные отрезки соответствуют времени выполнения транзакций. При этом каждый отрезок показывает минимальное и максимальное время затраченной на выполнения транзакций, а крестик показывает среднеквадратичное значение.
Выполняется 10.000 транзакций в режиме синхронной фиксации данных на диске. При этом требуется гарантия, что при аварийном выключении питания (или другом подобном сбое) все данные будут консистентны и полностью соответствовать последней завершенной транзакции. В libmdbx в этом режиме при фиксации каждой транзакции выполняется системный вызов fdatasync.
В каждой транзакции выполняется CRUD-операция (две вставки, одной чтение, одно обновление, одно удаление). Бенчмарк стартует на пустой базе и в результате выполняемых действий при завершении в базе насчитывается 10.000 небольших key-value записей.
Отложенная фиксация
- Линейная шкала слева и темные прямоугольники соответствуют количеству транзакций в секунду, усредненному за все время теста.
- Логарифмическая шкала справа и желтые интервальные отрезки соответствуют времени выполнения транзакций. При этом каждый отрезок показывает минимальное и максимальное время затраченной на выполнения транзакций, а крестик показывает среднеквадратичное значение.
Выполняется 100.000 транзакций в режиме отложенной фиксации данных на диске. При этом требуется гарантия, что при аварийном выключении питания (или другом подобном сбое) все данные будут консистентны на момент завершения одной из транзакций, но допускается потеря изменений из некоторого количества последних транзакций, что для многих движков предполагает включение WAL (write-ahead logging) либо журнала транзакций, который в свою очередь опирается на гарантию упорядоченности данных в журналируемой файловой системе. libmdbx при этом не ведет WAL, а передает весь контроль файловой системе и ядру ОС.
В каждой транзакции выполняется CRUD-операция (две вставки, одной чтение, одно обновление, одно удаление). Бенчмарк стартует на пустой базе и в результате выполняемых действий при завершении в базе насчитывается 100.000 небольших key-value записей.
Асинхронная фиксация
-
Линейная шкала слева и темные прямоугольники соответствуют количеству транзакций в секунду, усредненному за все время теста.
-
Логарифмическая шкала справа и желтые интервальные отрезки соответствуют времени выполнения транзакций. При этом каждый отрезок показывает минимальное и максимальное время затраченной на выполнения транзакций, а крестик показывает среднеквадратичное значение.
Выполняется 1.000.000 транзакций в режиме асинхронной фиксации данных на диске. При этом требуется гарантия, что при аварийном выключении питания (или другом подобном сбое) все данные будут консистентны на момент завершения одной из транзакций, но допускается потеря изменений из любого количества последних транзакций. Во всех движках при этом включался режим предполагающий минимальную нагрузку записи на диск, и соответственно минимальную гарантию сохранности данных. В libmdbx при этом используется режим асинхронной записи измененных страниц на диск силами ядра ОС посредством системрго вызова msync(MS_ASYNC).
В каждой транзакции выполняется CRUD-операция (две вставки, одной чтение, одно обновление, одно удаление). Бенчмарк стартует на пустой базе и в результате выполняемых действий при завершении в базе насчитывается 1.000.000 небольших key-value записей.
Стоимость как потребление ресурсов
Показана соотнесенная сумма использованных ресурсов в ходе бенчмарка в режиме отложенной фиксации:
-
суммарное количество операций ввода-вывода (IOPS), как записи, так и чтения.
-
суммарное затраченное время процессора, как в режиме пользователя, так и в режиме ядра ОС.
-
максимальный объем места на диске. который требовался во время работы теста.
Движок ForestDB был исключен при окончательном формировании диаграммы, так как многократно превысил потребление каждого из ресурсов (потратил процессорное время на генерацию IOPS для заполнения диска). Что не позволяло наглядно сравнить показатели остальных движков на одной диаграмме.
Все данные собирались посредством системного вывова getrusage() и сканированием директорий с данными.
Недостатки и Компромиссы
-
Единовременно может выполняться не более одной транзакция изменения данных (один писатель). Зато все изменения всегда последовательны, не может быть конфликтов или ошибок при откате транзакций.
-
Отсутствие WAL обуславливает относительно большой WAF (Write Amplification Factor). Поэтому фиксация изменений на диске может быть дорогой и является главным ограничителем для производительности по записи. В качестве компромисса предлагается несколько режимов ленивой и/или периодической фиксации. В том числе режим
MAPASYNC
, при котором изменения происходят только в памяти и асинхронно фиксируются на диске ядром ОС. -
COW для реализации MVCC выполняется на уровне страниц в B+ дереве. Поэтому изменение данных амортизационно требует копирования Olog(N) страниц, что расходует пропускную способность оперативной памяти и является основным ограничителем производительности в режиме
MAPASYNC
. -
В LMDB существует проблема долгих чтений (приостановленных читателей), которая приводит к деградации производительности и переполнению БД. В libmdbx предложены средства для предотвращения, выхода из проблемной ситуации и устранения её последствий. Подробности ниже.
-
В LMDB есть вероятность разрушения БД в режиме
WRITEMAP+MAPASYNC
. В libmdbx дляWRITEMAP+MAPASYNC
гарантируется как сохранность базы, так и согласованность данных. При этом также, в качестве альтернативы, предложен режимUTTERLY_NOSYNC
. Подробности ниже.
Проблема долгих чтений
Следует отметить, что проблема "сборки мусора" так или иначе существует во всех СУБД (Vacuum в PostgreSQL). Однако в случае libmdbx и LMDB она проявляется более остро, прежде всего из-за высокой производительности, а также из-за намеренного прощения внутренних механизмов ради производительности.
Понимание проблемы требует некоторых пояснений, которые изложены ниже, но могут быть сложны для быстрого восприятия. Поэтому, тезисно:
-
Изменение данных на фоне долгой операции чтения может приводить к исчерпанию места в БД.
-
После чего любая попытка обновить данные будет приводить к ошибке
MAP_FULL
до завершения долгой операции чтения. -
Характерными примерами долгих чтений являются горячее резервное копирования и отладка клиентского приложения при активной транзакции чтения.
-
В оригинальной LMDB после этого будет наблюдаться устойчивая деградация производительности всех механизмов обратной записи на диск (в I/O контроллере, в гипервизоре, в ядре ОС).
-
В libmdbx предусмотрен механизм аварийного прерывания таких операций, а также режим
LIFO RECLAIM
устраняющий последующую деградацию производительности.
Операции чтения выполняются в контексте снимка данных (версии БД), который был актуальным на момент старта транзакции чтения. Такой читаемый снимок поддерживается неизменным до завершения операции. В свою очередь, это не позволяет повторно использовать страницы БД в последующих версиях (снимках БД).
Другими словами, если обновление данных выполняется на фоне долгой операции чтения, то вместо повторного использования "старых" ненужных страниц будут выделяться новые, так как "старые" страницы составляют снимок БД, который еще используется долгой операцией чтения.
В результате, при интенсивном изменении данных и достаточно длительной операции чтения, в БД могут быть исчерпаны свободные страницы, что не позволит создавать новые снимки/версии БД. Такая ситуация будет сохраняться до завершения операции чтения, которая использует старый снимок данных и препятствует повторному использованию страниц БД.
Однако, на этом проблемы не заканчиваются. После описанной ситуации, все дополнительные страницы, которые были выделены пока переработка старых была невозможна, будут участвовать в цикле выделения/освобождения до конца жизни экземпляра БД. В оригинальной LMDB этот цикл использования страниц работает по принципу FIFO. Поэтому увеличение количества циркулирующий страниц, с точки зрения механизмов кэширования и/или обратной записи, выглядит как увеличение рабочего набор данных. Проще говоря, однократное попадание в ситуацию "уснувшего читателя" приводит к устойчивому эффекту вымывания I/O кэша при всех последующих изменениях данных.
Для устранения описанных проблемы в libmdbx сделаны
существенные доработки, подробности ниже. Иллюстрации к
проблеме "долгих чтений" можно найти в слайдах
презентации.
Там же приведен пример количественной оценки прироста
производительности за счет эффективной работы
BBWC при включении LIFO RECLAIM
в libmdbx.
Вероятность разрушения БД в режиме WRITEMAP+MAPASYNC
При работе в режиме WRITEMAP+MAPSYNC
запись измененных
страниц выполняется ядром ОС, что имеет ряд преимуществ. Так
например, при крахе приложения, ядро ОС сохранит все изменения.
Однако, при аварийном отключении питания или сбое в ядре ОС, на
диске будет сохранена только часть измененных страниц БД. При
этом с большой вероятностью может оказаться так, что будут
сохранены мета-страницы со ссылками на страницы с новыми
версиями данных, но не сами новые данные. В этом случае БД
будет безвозвратна разрушена, даже если до аварии производилась
полная синхронизация данных (посредством mdbx_env_sync()
).
В libmdbx эта проблема устранена, подробности ниже.
Дополнительные "фичи" libmdbx относительно LMDB
-
Режим
LIFO RECLAIM
.Для повторного использования выбираются не самые старые, а самые новые страницы из доступных. За счет этого цикл использования страниц всегда имеет минимальную длину и не зависит от общего числа выделенных страниц.
В результате механизмы кэширования и обратной записи работают с максимально возможной эффективностью. В случае использования контроллера дисков или системы хранения с BBWC возможно многократное увеличение производительности по записи (обновлению данных).
-
Обработчик
OOM-KICK
.Посредством
mdbx_env_set_oomfunc()
может быть установлен внешний обработчик (callback), который будет вызван при исчерпания свободных страниц из-за долгой операцией чтения. Обработчику будет передан PID и pthread_id. В свою очередь обработчик может предпринять одно из действий:-
отправить сигнал kill (#9), если долгое чтение выполняется сторонним процессом;
-
отменить или перезапустить проблемную операцию чтения, если операция выполняется одним из потоков текущего процесса;
-
подождать некоторое время, в расчете что проблемная операция чтения будет штатно завершена;
-
перервать текущую операцию изменения данных с возвратом кода ошибки.
-
-
Гарантия сохранности БД в режиме
WRITEMAP+MAPSYNC
.При работе в режиме
WRITEMAP+MAPSYNC
запись измененных страниц выполняется ядром ОС, что имеет ряд преимуществ. Так например, при крахе приложения, ядро ОС сохранит все изменения.Однако, при аварийном отключении питания или сбое в ядре ОС, на диске будет сохранена только часть измененных страниц БД. При этом с большой вероятностью может оказаться так, что будут сохранены мета-страницы со ссылками на страницы с новыми версиями данных, но не сами новые данные. В этом случае БД будет безвозвратна разрушена, даже если до аварии производилась полная синхронизация данных (посредством
mdbx_env_sync()
).В libmdbx эта проблема устранена путем полной переработки пути записи данных:
-
В режиме
WRITEMAP+MAPSYNC
libmdbx не обновляет мета-страницы непосредственно, а поддерживает их теневые копии с переносом изменений после фиксации данных. -
При завершении транзакций, в зависимости от состояния синхронности данных между диском и оперативной память, libmdbx помечает точки фиксации либо как сильные (strong), либо как слабые (weak). Так например, в режиме
WRITEMAP+MAPSYNC
завершаемые транзакции помечаются как слабые, а при явной синхронизации данных как сильные. -
При открытии БД выполняется автоматический откат к последней сильной фиксации. Этим обеспечивается гарантия сохранности БД.
К сожалению, такая гарантия надежности не дается бесплатно. Для сохранности данных, страницы формирующие крайний снимок с сильной фиксацией, не должны повторно использоваться (перезаписываться) до формирования следующей сильной точки фиксации. Таким образом, крайняя точка фиксации создает описанный выше эффект "долгого чтения". Разница же здесь в том, что при исчерпании свободных страниц ситуация будет автоматически исправлена, посредством записи изменений на диск и формированием новой сильной точки фиксации.
В последующих версиях libmdbx будут предусмотрены средства для асинхронной записи данных на диск с автоматическим формированием сильных точек фиксации.
-
-
Возможность автоматического формирования контрольных точек (сброса данных на диск) при накоплении заданного объёма изменений, устанавливаемого функцией
mdbx_env_set_syncbytes()
. -
Возможность получить отставание текущей транзакции чтения от последней версии данных в БД посредством
mdbx_txn_straggler()
. -
Утилита mdbx_chk для проверки БД и функция
mdbx_env_pgwalk()
для обхода всех страниц БД. -
Управление отладкой и получение отладочных сообщений посредством
mdbx_setup_debug()
. -
Возможность связать с каждой завершаемой транзакцией до 3 дополнительных маркеров посредством
mdbx_canary_put()
, и прочитать их в транзакции чтения посредствомmdbx_canary_get()
. -
Возможность узнать есть ли за текущей позицией курсора строка данных посредством
mdbx_cursor_eof()
. -
Возможность явно запросить обновление существующей записи, без создания новой посредством флажка
MDBX_CURRENT
дляmdbx_put()
. -
Возможность обновить или удалить запись с получением предыдущего значения данных посредством
mdbx_replace()
. -
Поддержка ключей и значений нулевой длины. Включая сортированные дубликаты, в том числе вне зависимости от порядка их добавления или обновления.
-
Исправленный вариант
mdbx_cursor_count()
, возвращающий корректное количество дубликатов для всех типов таблиц и любого положения курсора. -
Возможность открыть БД в эксклюзивном режиме посредством
mdbx_env_open_ex()
, например в целях её проверки. -
Возможность закрыть БД в "грязном" состоянии (без сброса данных и формирования сильной точки фиксации) посредством
mdbx_env_close_ex()
. -
Возможность получить посредством
mdbx_env_info()
дополнительную информацию, включая номер самой старой версии БД (снимка данных), который используется одним из читателей. -
Функция
mdbx_del()
не игнорирует дополнительный (уточняющий) аргументdata
для таблиц без дубликатов (без флажкаMDBX_DUPSORT
), а при его ненулевом значении всегда использует его для сверки с удаляемой записью. -
Возможность открыть dbi-таблицу, одновременно с установкой компараторов для ключей и данных, посредством
mdbx_dbi_open_ex()
. -
Возможность посредством
mdbx_is_dirty()
определить находятся ли некоторый ключ или данные в "грязной" странице БД. Таким образом избегаю лишнего копирования данных перед выполнением модифицирующих операций (значения в размещенные "грязных" страницах могут быть перезаписаны при изменениях, иначе они будут неизменны). -
Корректное обновление текущей записи, в том числе сортированного дубликата, при использовании режима
MDBX_CURRENT
вmdbx_cursor_put()
. -
Все курсоры, как в транзакциях только для чтения, так и в пишущих, могут быть переиспользованы посредством
mdbx_cursor_renew()
и ДОЛЖНЫ ОСВОБОЖДАТЬСЯ ЯВНО.
ВАЖНО, Обратите внимание!
Это единственное изменение в API, которое значимо меняет семантику управления курсорами и может приводить к утечкам памяти. Следует отметить, что это изменение вынужденно. Так устраняется неоднозначность с массой тяжких последствий:
- обращение к уже освобожденной памяти;
- попытки повторного освобождения памяти;
- memory corruption and segfaults.
-
Дополнительный код ошибки
MDBX_EMULTIVAL
, который возвращается изmdbx_put()
иmdbx_replace()
при попытке выполнять неоднозначное обновление или удаления одного из нескольких значений с одним ключом, т.е. когда невозможно однозначно идентифицировать одно целевое значение из нескольких. -
Возможность посредством
mdbx_get_ex()
получить значение по заданному ключу, одновременно с количеством дубликатов. -
Наличие функций mdbx_cursor_on_first() и mdbx_cursor_on_last(), которые позволяют быстро выяснить стоит ли курсор на первой/последней позиции.
-
При завершении читающих транзакций, открытые в них DBI-хендлы не закрываются и не теряются при завершении таких транзакций посредством mdbx_txn_abort() или mdbx_txn_reset(). Что позволяет избавится от ряда сложно обнаруживаемых ошибок.
-
Генерация последовательностей посредством
mdbx_dbi_sequence()
. -
Обновление данных с одновременным получением старых значений, а также адресное изменение конкретного multi-значения посредством
mdbx_replace()
. -
Расширенное динамическое управление размером БД, включая выбор размера страницы посредством
mdbx_env_set_geometry()
. -
Три мета-страницы вместо двух, что позволяет гарантированно консистентно обновлять слабые контрольные точки фиксации без риска повредить крайнюю сильную точку фиксации.