mirror of
https://github.com/isar/libmdbx.git
synced 2025-01-02 00:34:13 +08:00
mdbx: устранение yнаследованной от LMDB ошибки приводящей к повреждению БД при использовании MDBX_DUPFIXED (backport).
Тезисно:
- Использование DUPFIXED (включая INTEGERDUP) могло приводить к
повреждению БД и/или потере данных. Этот коммит устраняет эту угрозу.
- Вероятность проявления существенно увеличивается с увеличением
размера/длины мульти-значений/дубликатов (не ключей).
- В MDBX проблема унаследована от LMDB, где существует более 11 лет,
начиная с коммита ccc4d23e74
и до настоящего времени.
Для вложенных страниц типа LEAF2 (которые содержат только значения
одинаковой длины, без таблицы смещений к ним), упомянутым выше коммитом,
было добавлено резервирование места (что в целом спорно, но в некоторых
сценариях позволяет уменьшить накладные расходы). Ошибка была в том, что
в коде не исключалась возможность превышения размера страницы БД, что
далее приводило к арифметическому переполнению, повреждению БД и/или
просписи памяти.
This commit is contained in:
parent
a0a4af7701
commit
ea97fbae74
145
src/core.c
145
src/core.c
@ -13087,13 +13087,23 @@ __cold static void setup_pagesize(MDBX_env *env, const size_t pagesize) {
|
|||||||
leaf_nodemax > (intptr_t)(sizeof(MDBX_db) + NODESIZE + 42) &&
|
leaf_nodemax > (intptr_t)(sizeof(MDBX_db) + NODESIZE + 42) &&
|
||||||
leaf_nodemax >= branch_nodemax &&
|
leaf_nodemax >= branch_nodemax &&
|
||||||
leaf_nodemax < (int)UINT16_MAX && leaf_nodemax % 2 == 0);
|
leaf_nodemax < (int)UINT16_MAX && leaf_nodemax % 2 == 0);
|
||||||
env->me_leaf_nodemax = (unsigned)leaf_nodemax;
|
env->me_leaf_nodemax = (uint16_t)leaf_nodemax;
|
||||||
env->me_branch_nodemax = (unsigned)branch_nodemax;
|
env->me_branch_nodemax = (uint16_t)branch_nodemax;
|
||||||
env->me_psize2log = (uint8_t)log2n_powerof2(pagesize);
|
env->me_psize2log = (uint8_t)log2n_powerof2(pagesize);
|
||||||
eASSERT(env, pgno2bytes(env, 1) == pagesize);
|
eASSERT(env, pgno2bytes(env, 1) == pagesize);
|
||||||
eASSERT(env, bytes2pgno(env, pagesize + pagesize) == 2);
|
eASSERT(env, bytes2pgno(env, pagesize + pagesize) == 2);
|
||||||
recalculate_merge_threshold(env);
|
recalculate_merge_threshold(env);
|
||||||
|
|
||||||
|
/* TODO: recalculate me_subpage_xyz values from MDBX_opt_subpage_xyz. */
|
||||||
|
env->me_subpage_limit = env->me_leaf_nodemax - NODESIZE;
|
||||||
|
env->me_subpage_room_threshold = 0;
|
||||||
|
env->me_subpage_reserve_prereq = env->me_leaf_nodemax;
|
||||||
|
env->me_subpage_reserve_limit = env->me_subpage_limit / 42;
|
||||||
|
eASSERT(env,
|
||||||
|
env->me_subpage_reserve_prereq >
|
||||||
|
env->me_subpage_room_threshold + env->me_subpage_reserve_limit);
|
||||||
|
eASSERT(env, env->me_leaf_nodemax >= env->me_subpage_limit + NODESIZE);
|
||||||
|
|
||||||
const pgno_t max_pgno = bytes2pgno(env, MAX_MAPSIZE);
|
const pgno_t max_pgno = bytes2pgno(env, MAX_MAPSIZE);
|
||||||
if (!env->me_options.flags.non_auto.dp_limit) {
|
if (!env->me_options.flags.non_auto.dp_limit) {
|
||||||
/* auto-setup dp_limit by "The42" ;-) */
|
/* auto-setup dp_limit by "The42" ;-) */
|
||||||
@ -17285,6 +17295,26 @@ static __hot int cursor_touch(MDBX_cursor *const mc, const MDBX_val *key,
|
|||||||
return rc;
|
return rc;
|
||||||
}
|
}
|
||||||
|
|
||||||
|
static size_t leaf2_reserve(const MDBX_env *const env, size_t host_page_room,
|
||||||
|
size_t subpage_len, size_t item_len) {
|
||||||
|
eASSERT(env, (subpage_len & 1) == 0);
|
||||||
|
eASSERT(env,
|
||||||
|
env->me_subpage_reserve_prereq > env->me_subpage_room_threshold +
|
||||||
|
env->me_subpage_reserve_limit &&
|
||||||
|
env->me_leaf_nodemax >= env->me_subpage_limit + NODESIZE);
|
||||||
|
size_t reserve = 0;
|
||||||
|
for (size_t n = 0;
|
||||||
|
n < 5 && reserve + item_len <= env->me_subpage_reserve_limit &&
|
||||||
|
EVEN(subpage_len + item_len) <= env->me_subpage_limit &&
|
||||||
|
host_page_room >=
|
||||||
|
env->me_subpage_reserve_prereq + EVEN(subpage_len + item_len);
|
||||||
|
++n) {
|
||||||
|
subpage_len += item_len;
|
||||||
|
reserve += item_len;
|
||||||
|
}
|
||||||
|
return reserve + (subpage_len & 1);
|
||||||
|
}
|
||||||
|
|
||||||
static __hot int cursor_put_nochecklen(MDBX_cursor *mc, const MDBX_val *key,
|
static __hot int cursor_put_nochecklen(MDBX_cursor *mc, const MDBX_val *key,
|
||||||
MDBX_val *data, unsigned flags) {
|
MDBX_val *data, unsigned flags) {
|
||||||
int err;
|
int err;
|
||||||
@ -17656,12 +17686,21 @@ static __hot int cursor_put_nochecklen(MDBX_cursor *mc, const MDBX_val *key,
|
|||||||
if (mc->mc_db->md_flags & MDBX_DUPFIXED) {
|
if (mc->mc_db->md_flags & MDBX_DUPFIXED) {
|
||||||
fp->mp_flags |= P_LEAF2;
|
fp->mp_flags |= P_LEAF2;
|
||||||
fp->mp_leaf2_ksize = (uint16_t)data->iov_len;
|
fp->mp_leaf2_ksize = (uint16_t)data->iov_len;
|
||||||
xdata.iov_len += 2 * data->iov_len; /* leave space for 2 more */
|
/* Будем создавать LEAF2-страницу, как минимум с двумя элементами.
|
||||||
cASSERT(mc, xdata.iov_len <= env->me_psize);
|
* При коротких значениях и наличии свободного места можно сделать
|
||||||
|
* некоторое резервирование места, чтобы при последующих добавлениях
|
||||||
|
* не сразу расширять созданную под-страницу.
|
||||||
|
* Резервирование в целом сомнительно (см ниже), но может сработать
|
||||||
|
* в плюс (а если в минус то несущественный) при коротких ключах. */
|
||||||
|
xdata.iov_len += leaf2_reserve(
|
||||||
|
env, page_room(mc->mc_pg[mc->mc_top]) + old_data.iov_len,
|
||||||
|
xdata.iov_len, data->iov_len);
|
||||||
|
cASSERT(mc, (xdata.iov_len & 1) == 0);
|
||||||
} else {
|
} else {
|
||||||
xdata.iov_len += 2 * (sizeof(indx_t) + NODESIZE) +
|
xdata.iov_len += 2 * (sizeof(indx_t) + NODESIZE) +
|
||||||
(old_data.iov_len & 1) + (data->iov_len & 1);
|
(old_data.iov_len & 1) + (data->iov_len & 1);
|
||||||
}
|
}
|
||||||
|
cASSERT(mc, (xdata.iov_len & 1) == 0);
|
||||||
fp->mp_upper = (uint16_t)(xdata.iov_len - PAGEHDRSZ);
|
fp->mp_upper = (uint16_t)(xdata.iov_len - PAGEHDRSZ);
|
||||||
old_data.iov_len = xdata.iov_len; /* pretend olddata is fp */
|
old_data.iov_len = xdata.iov_len; /* pretend olddata is fp */
|
||||||
} else if (node_flags(node) & F_SUBDATA) {
|
} else if (node_flags(node) & F_SUBDATA) {
|
||||||
@ -17673,19 +17712,85 @@ static __hot int cursor_put_nochecklen(MDBX_cursor *mc, const MDBX_val *key,
|
|||||||
fp = old_data.iov_base;
|
fp = old_data.iov_base;
|
||||||
switch (flags) {
|
switch (flags) {
|
||||||
default:
|
default:
|
||||||
if (!(mc->mc_db->md_flags & MDBX_DUPFIXED)) {
|
growth = IS_LEAF2(fp) ? fp->mp_leaf2_ksize
|
||||||
growth = node_size(data, nullptr) + sizeof(indx_t);
|
: (node_size(data, nullptr) + sizeof(indx_t));
|
||||||
break;
|
if (page_room(fp) >= growth) {
|
||||||
|
/* На текущей под-странице есть место для добавления элемента.
|
||||||
|
* Оптимальнее продолжить использовать эту страницу, ибо
|
||||||
|
* добавление вложенного дерева увеличит WAF на одну страницу. */
|
||||||
|
goto continue_subpage;
|
||||||
}
|
}
|
||||||
growth = fp->mp_leaf2_ksize;
|
/* На текущей под-странице нет места для еще одного элемента.
|
||||||
if (page_room(fp) < growth) {
|
* Можно либо увеличить эту под-страницу, либо вынести куст
|
||||||
growth *= 4; /* space for 4 more */
|
* значений во вложенное дерево.
|
||||||
break;
|
*
|
||||||
}
|
* Продолжать использовать текущую под-страницу возможно
|
||||||
/* FALLTHRU: Big enough MDBX_DUPFIXED sub-page */
|
* только пока и если размер после добавления элемента будет
|
||||||
__fallthrough;
|
* меньше me_leaf_nodemax. Соответственно, при превышении
|
||||||
|
* просто сразу переходим на вложенное дерево. */
|
||||||
|
xdata.iov_len = old_data.iov_len + (growth += growth & 1);
|
||||||
|
if (xdata.iov_len > env->me_subpage_limit)
|
||||||
|
goto convert_to_subtree;
|
||||||
|
|
||||||
|
/* Можно либо увеличить под-страницу, в том числе с некоторым
|
||||||
|
* запасом, либо перейти на вложенное поддерево.
|
||||||
|
*
|
||||||
|
* Резервирование места на под-странице представляется сомнительным:
|
||||||
|
* - Резервирование увеличит рыхлость страниц, в том числе
|
||||||
|
* вероятность разделения основной/гнездовой страницы;
|
||||||
|
* - Сложно предсказать полезный размер резервирования,
|
||||||
|
* особенно для не-MDBX_DUPFIXED;
|
||||||
|
* - Наличие резерва позволяет съекономить только на перемещении
|
||||||
|
* части элементов основной/гнездовой страницы при последующих
|
||||||
|
* добавлениях в нее элементов. Причем после первого изменения
|
||||||
|
* размера под-страницы, её тело будет примыкать
|
||||||
|
* к неиспользуемому месту на основной/гнездовой странице,
|
||||||
|
* поэтому последующие последовательные добавления потребуют
|
||||||
|
* только передвижения в mp_ptrs[].
|
||||||
|
*
|
||||||
|
* Соответственно, более важным/определяющим представляется
|
||||||
|
* своевременный переход к вложеному дереву, но тут достаточно
|
||||||
|
* сложный конфликт интересов:
|
||||||
|
* - При склонности к переходу к вложенным деревьям, суммарно
|
||||||
|
* в БД будет большее кол-во более рыхлых страниц. Это увеличит
|
||||||
|
* WAF, а также RAF при последовательных чтениях большой БД.
|
||||||
|
* Однако, при коротких ключах и большом кол-ве
|
||||||
|
* дубликатов/мультизначений, плотность ключей в листовых
|
||||||
|
* страницах основного дерева будет выше. Соответственно, будет
|
||||||
|
* пропорционально меньше branch-страниц. Поэтому будет выше
|
||||||
|
* вероятность оседания/не-вымывания страниц основного дерева из
|
||||||
|
* LRU-кэша, а также попадания в write-back кэш при записи.
|
||||||
|
* - Наоботот, при склонности к использованию под-страниц, будут
|
||||||
|
* наблюдаться обратные эффекты. Плюс некоторые накладные расходы
|
||||||
|
* на лишнее копирование данных под-страниц в сценариях
|
||||||
|
* нескольких обонвлений дубликатов одного куста в одной
|
||||||
|
* транзакции.
|
||||||
|
*
|
||||||
|
* Суммарно наиболее рациональным представляется такая тактика:
|
||||||
|
* - Вводим три порога subpage_limit, subpage_room_threshold
|
||||||
|
* и subpage_reserve_prereq, которые могут быть
|
||||||
|
* заданы/скорректированы пользователем в ‰ от me_leaf_nodemax;
|
||||||
|
* - Используем под-страницу пока её размер меньше subpage_limit
|
||||||
|
* и на основной/гнездовой странице не-менее
|
||||||
|
* subpage_room_threshold свободного места;
|
||||||
|
* - Резервируем место только для 1-3 коротких dupfixed-элементов,
|
||||||
|
* расширяя размер под-страницы на размер кэш-линии ЦПУ, но
|
||||||
|
* только если на странице не менее subpage_reserve_prereq
|
||||||
|
* свободного места.
|
||||||
|
* - По-умолчанию устанавливаем:
|
||||||
|
* subpage_limit = me_leaf_nodemax (1000‰);
|
||||||
|
* subpage_room_threshold = 0;
|
||||||
|
* subpage_reserve_prereq = me_leaf_nodemax (1000‰).
|
||||||
|
*/
|
||||||
|
if (IS_LEAF2(fp))
|
||||||
|
growth += leaf2_reserve(
|
||||||
|
env, page_room(mc->mc_pg[mc->mc_top]) + old_data.iov_len,
|
||||||
|
xdata.iov_len, data->iov_len);
|
||||||
|
break;
|
||||||
|
|
||||||
case MDBX_CURRENT | MDBX_NODUPDATA:
|
case MDBX_CURRENT | MDBX_NODUPDATA:
|
||||||
case MDBX_CURRENT:
|
case MDBX_CURRENT:
|
||||||
|
continue_subpage:
|
||||||
fp->mp_txnid = mc->mc_txn->mt_front;
|
fp->mp_txnid = mc->mc_txn->mt_front;
|
||||||
fp->mp_pgno = mp->mp_pgno;
|
fp->mp_pgno = mp->mp_pgno;
|
||||||
mc->mc_xcursor->mx_cursor.mc_pg[0] = fp;
|
mc->mc_xcursor->mx_cursor.mc_pg[0] = fp;
|
||||||
@ -17693,11 +17798,18 @@ static __hot int cursor_put_nochecklen(MDBX_cursor *mc, const MDBX_val *key,
|
|||||||
goto dupsort_put;
|
goto dupsort_put;
|
||||||
}
|
}
|
||||||
xdata.iov_len = old_data.iov_len + growth;
|
xdata.iov_len = old_data.iov_len + growth;
|
||||||
|
cASSERT(mc, (xdata.iov_len & 1) == 0);
|
||||||
}
|
}
|
||||||
|
|
||||||
fp_flags = fp->mp_flags;
|
fp_flags = fp->mp_flags;
|
||||||
if (node_size_len(node_ks(node), xdata.iov_len) >
|
if (xdata.iov_len > env->me_subpage_limit ||
|
||||||
env->me_leaf_nodemax) {
|
node_size_len(node_ks(node), xdata.iov_len) >
|
||||||
|
env->me_leaf_nodemax ||
|
||||||
|
(env->me_subpage_room_threshold &&
|
||||||
|
page_room(mc->mc_pg[mc->mc_top]) +
|
||||||
|
node_size_len(node_ks(node), old_data.iov_len) <
|
||||||
|
env->me_subpage_room_threshold +
|
||||||
|
node_size_len(node_ks(node), xdata.iov_len))) {
|
||||||
/* Too big for a sub-page, convert to sub-DB */
|
/* Too big for a sub-page, convert to sub-DB */
|
||||||
convert_to_subtree:
|
convert_to_subtree:
|
||||||
fp_flags &= ~P_SUBP;
|
fp_flags &= ~P_SUBP;
|
||||||
@ -17721,6 +17833,7 @@ static __hot int cursor_put_nochecklen(MDBX_cursor *mc, const MDBX_val *key,
|
|||||||
mc->mc_db->md_leaf_pages += 1;
|
mc->mc_db->md_leaf_pages += 1;
|
||||||
cASSERT(mc, env->me_psize > old_data.iov_len);
|
cASSERT(mc, env->me_psize > old_data.iov_len);
|
||||||
growth = env->me_psize - (unsigned)old_data.iov_len;
|
growth = env->me_psize - (unsigned)old_data.iov_len;
|
||||||
|
cASSERT(mc, (growth & 1) == 0);
|
||||||
flags |= F_DUPDATA | F_SUBDATA;
|
flags |= F_DUPDATA | F_SUBDATA;
|
||||||
nested_dupdb.md_root = mp->mp_pgno;
|
nested_dupdb.md_root = mp->mp_pgno;
|
||||||
nested_dupdb.md_seq = 0;
|
nested_dupdb.md_seq = 0;
|
||||||
|
@ -1376,8 +1376,12 @@ struct MDBX_env {
|
|||||||
struct MDBX_lockinfo *me_lck;
|
struct MDBX_lockinfo *me_lck;
|
||||||
|
|
||||||
unsigned me_psize; /* DB page size, initialized from me_os_psize */
|
unsigned me_psize; /* DB page size, initialized from me_os_psize */
|
||||||
unsigned me_leaf_nodemax; /* max size of a leaf-node */
|
uint16_t me_leaf_nodemax; /* max size of a leaf-node */
|
||||||
unsigned me_branch_nodemax; /* max size of a branch-node */
|
uint16_t me_branch_nodemax; /* max size of a branch-node */
|
||||||
|
uint16_t me_subpage_limit;
|
||||||
|
uint16_t me_subpage_room_threshold;
|
||||||
|
uint16_t me_subpage_reserve_prereq;
|
||||||
|
uint16_t me_subpage_reserve_limit;
|
||||||
atomic_pgno_t me_mlocked_pgno;
|
atomic_pgno_t me_mlocked_pgno;
|
||||||
uint8_t me_psize2log; /* log2 of DB page size */
|
uint8_t me_psize2log; /* log2 of DB page size */
|
||||||
int8_t me_stuck_meta; /* recovery-only: target meta page or less that zero */
|
int8_t me_stuck_meta; /* recovery-only: target meta page or less that zero */
|
||||||
|
Loading…
x
Reference in New Issue
Block a user