mirror of
https://github.com/isar/libmdbx.git
synced 2025-01-04 17:24:12 +08:00
mdbx: переработка контроля "некогерентности" для уменьшения накладных расходов.
Существует проблема https://libmdbx.dqdkfa.ru/dead-github/issues/269, которая проявляется только при специфической неупорядоченности внутри ядра ОС, когда страницы, записанные в файл отображенный в память, становятся видны в памяти посредством работы unified page cache: - если записанная последней мета-страница "обгоняет" ранее записанные, т.е. когда записанное в файл позже становится видимым в отображении раньше, чем записанное ранее. Теперь, вместо постоянной полной сверки записываемых страниц, выполняется легковесная проверка при старте транзакций, с переключением в режим "как раньше" при обнаружении проблемы. В результате, в некоторых сценариях возвращается 5-10% производительности, а в отдельных синтетических тестах до 30%.
This commit is contained in:
parent
0498114469
commit
a06fe4f168
82
src/core.c
82
src/core.c
@ -4546,10 +4546,15 @@ typedef struct iov_ctx {
|
|||||||
|
|
||||||
__must_check_result static int iov_init(MDBX_txn *const txn, iov_ctx_t *ctx,
|
__must_check_result static int iov_init(MDBX_txn *const txn, iov_ctx_t *ctx,
|
||||||
size_t items, size_t npages,
|
size_t items, size_t npages,
|
||||||
mdbx_filehandle_t fd) {
|
mdbx_filehandle_t fd,
|
||||||
|
bool check_coherence) {
|
||||||
ctx->env = txn->mt_env;
|
ctx->env = txn->mt_env;
|
||||||
ctx->ior = &txn->mt_env->me_ioring;
|
ctx->ior = &txn->mt_env->me_ioring;
|
||||||
ctx->fd = fd;
|
ctx->fd = fd;
|
||||||
|
ctx->coherency_timestamp =
|
||||||
|
(check_coherence || txn->mt_env->me_lck->mti_pgop_stat.incoherence.weak)
|
||||||
|
? 0
|
||||||
|
: UINT64_MAX /* не выполнять сверку */;
|
||||||
ctx->err = osal_ioring_prepare(ctx->ior, items,
|
ctx->err = osal_ioring_prepare(ctx->ior, items,
|
||||||
pgno_align2os_bytes(txn->mt_env, npages));
|
pgno_align2os_bytes(txn->mt_env, npages));
|
||||||
if (likely(ctx->err == MDBX_SUCCESS)) {
|
if (likely(ctx->err == MDBX_SUCCESS)) {
|
||||||
@ -4582,9 +4587,63 @@ static void iov_callback4dirtypages(iov_ctx_t *ctx, size_t offset, void *data,
|
|||||||
MDBX_ASAN_UNPOISON_MEMORY_REGION(rp, bytes);
|
MDBX_ASAN_UNPOISON_MEMORY_REGION(rp, bytes);
|
||||||
osal_flush_incoherent_mmap(rp, bytes, env->me_os_psize);
|
osal_flush_incoherent_mmap(rp, bytes, env->me_os_psize);
|
||||||
/* check with timeout as the workaround
|
/* check with timeout as the workaround
|
||||||
* for https://libmdbx.dqdkfa.ru/dead-github/issues/269 */
|
* for https://libmdbx.dqdkfa.ru/dead-github/issues/269
|
||||||
if (unlikely(memcmp(wp, rp, bytes))) {
|
*
|
||||||
|
* Проблема проявляется только при неупорядоченности: если записанная
|
||||||
|
* последней мета-страница "обгоняет" ранее записанные, т.е. когда
|
||||||
|
* записанное в файл позже становится видимым в отображении раньше,
|
||||||
|
* чем записанное ранее.
|
||||||
|
*
|
||||||
|
* Исходно здесь всегда выполнялась полная сверка. Это давало полную
|
||||||
|
* гарантию защиты от проявления проблемы, но порождало накладные расходы.
|
||||||
|
* В некоторых сценариях наблюдалось снижение производительности до 10-15%,
|
||||||
|
* а в синтетических тестах до 30%. Конечно никто не вникал в причины,
|
||||||
|
* а просто останавливался на мнении "libmdbx не быстрее LMDB",
|
||||||
|
* например: https://clck.ru/3386er
|
||||||
|
*
|
||||||
|
* Поэтому после серии экспериментов и тестов реализовано следующее:
|
||||||
|
* 0. Посредством опции сборки MDBX_FORCE_CHECK_MMAP_COHERENCY=1
|
||||||
|
* можно включить полную сверку после записи.
|
||||||
|
* Остальные пункты являются взвешенным компромиссом между полной
|
||||||
|
* гарантией обнаружения проблемы и бесполезными затратами на системах
|
||||||
|
* без этого недостатка.
|
||||||
|
* 1. При старте транзакций проверяется соответствие выбранной мета-страницы
|
||||||
|
* корневым страницам b-tree проверяется. Эта проверка показала себя
|
||||||
|
* достаточной без сверки после записи. При обнаружении "некогерентности"
|
||||||
|
* эти случаи подсчитываются, а при их ненулевом счетчике выполняется
|
||||||
|
* полная сверка. Таким образом, произойдет переключение в режим полной
|
||||||
|
* сверки, если показавшая себя достаточной проверка заметит проявление
|
||||||
|
* проблемы хоты-бы раз.
|
||||||
|
* 2. Сверка не выполняется при фиксации транзакции, так как:
|
||||||
|
* - при наличии проблемы "не-когерентности" (при отложенном копировании
|
||||||
|
* или обновлении PTE, после возврата из write-syscall), проверка
|
||||||
|
* в этом процессе не гарантирует актуальность данных в другом
|
||||||
|
* процессе, который может запустить транзакцию сразу после коммита;
|
||||||
|
* - сверка только последнего блока позволяет почти восстановить
|
||||||
|
* производительность в больших транзакциях, но одновременно размывает
|
||||||
|
* уверенность в отсутствии сбоев, чем обесценивает всю затею;
|
||||||
|
* - после записи данных будет записана мета-страница, соответствие
|
||||||
|
* которой корневым страницам b-tree проверяется при старте
|
||||||
|
* транзакций, и только эта проверка показала себя достаточной;
|
||||||
|
* 3. При спиллинге производится полная сверка записанных страниц. Тут был
|
||||||
|
* соблазн сверять не полностью, а например начало и конец каждого блока.
|
||||||
|
* Но при спиллинге возможна ситуация повторного вытеснения страниц, в
|
||||||
|
* том числе large/overflow. При этом возникает риск прочитать в текущей
|
||||||
|
* транзакции старую версию страницы, до повторной записи. В этом случае
|
||||||
|
* могут возникать крайне редкие невоспроизводимые ошибки. С учетом того
|
||||||
|
* что спиллинг выполняет крайне редко, решено отказаться от экономии
|
||||||
|
* в пользу надежности. */
|
||||||
|
#ifndef MDBX_FORCE_CHECK_MMAP_COHERENCY
|
||||||
|
#define MDBX_FORCE_CHECK_MMAP_COHERENCY 0
|
||||||
|
#endif /* MDBX_FORCE_CHECK_MMAP_COHERENCY */
|
||||||
|
if ((MDBX_FORCE_CHECK_MMAP_COHERENCY ||
|
||||||
|
ctx->coherency_timestamp != UINT64_MAX) &&
|
||||||
|
unlikely(memcmp(wp, rp, bytes))) {
|
||||||
ctx->coherency_timestamp = 0;
|
ctx->coherency_timestamp = 0;
|
||||||
|
env->me_lck->mti_pgop_stat.incoherence.weak =
|
||||||
|
(env->me_lck->mti_pgop_stat.incoherence.weak >= INT32_MAX)
|
||||||
|
? INT32_MAX
|
||||||
|
: env->me_lck->mti_pgop_stat.incoherence.weak + 1;
|
||||||
WARNING("catch delayed/non-arrived page %" PRIaPGNO " %s", wp->mp_pgno,
|
WARNING("catch delayed/non-arrived page %" PRIaPGNO " %s", wp->mp_pgno,
|
||||||
"(workaround for incoherent flaw of unified page/buffer cache)");
|
"(workaround for incoherent flaw of unified page/buffer cache)");
|
||||||
do
|
do
|
||||||
@ -5074,7 +5133,8 @@ __cold static int txn_spill_slowpath(MDBX_txn *const txn, MDBX_cursor *const m0,
|
|||||||
#if defined(_WIN32) || defined(_WIN64)
|
#if defined(_WIN32) || defined(_WIN64)
|
||||||
txn->mt_env->me_overlapped_fd ? txn->mt_env->me_overlapped_fd :
|
txn->mt_env->me_overlapped_fd ? txn->mt_env->me_overlapped_fd :
|
||||||
#endif
|
#endif
|
||||||
txn->mt_env->me_lazy_fd);
|
txn->mt_env->me_lazy_fd,
|
||||||
|
true);
|
||||||
if (unlikely(rc != MDBX_SUCCESS))
|
if (unlikely(rc != MDBX_SUCCESS))
|
||||||
goto bailout;
|
goto bailout;
|
||||||
|
|
||||||
@ -8530,6 +8590,11 @@ static bool coherency_check(const MDBX_env *env, const txnid_t txnid,
|
|||||||
ok = false;
|
ok = false;
|
||||||
}
|
}
|
||||||
}
|
}
|
||||||
|
if (unlikely(!ok) && report)
|
||||||
|
env->me_lck->mti_pgop_stat.incoherence.weak =
|
||||||
|
(env->me_lck->mti_pgop_stat.incoherence.weak >= INT32_MAX)
|
||||||
|
? INT32_MAX
|
||||||
|
: env->me_lck->mti_pgop_stat.incoherence.weak + 1;
|
||||||
return ok;
|
return ok;
|
||||||
}
|
}
|
||||||
|
|
||||||
@ -8579,11 +8644,16 @@ static int coherency_check_written(const MDBX_env *env, const txnid_t txnid,
|
|||||||
const bool report = !(timestamp && *timestamp);
|
const bool report = !(timestamp && *timestamp);
|
||||||
const txnid_t head_txnid = meta_txnid(meta);
|
const txnid_t head_txnid = meta_txnid(meta);
|
||||||
if (unlikely(head_txnid < MIN_TXNID || (head_txnid < txnid))) {
|
if (unlikely(head_txnid < MIN_TXNID || (head_txnid < txnid))) {
|
||||||
if (report)
|
if (report) {
|
||||||
|
env->me_lck->mti_pgop_stat.incoherence.weak =
|
||||||
|
(env->me_lck->mti_pgop_stat.incoherence.weak >= INT32_MAX)
|
||||||
|
? INT32_MAX
|
||||||
|
: env->me_lck->mti_pgop_stat.incoherence.weak + 1;
|
||||||
WARNING("catch %s txnid %" PRIaTXN " for meta_%" PRIaPGNO " %s",
|
WARNING("catch %s txnid %" PRIaTXN " for meta_%" PRIaPGNO " %s",
|
||||||
(head_txnid < MIN_TXNID) ? "invalid" : "unexpected", head_txnid,
|
(head_txnid < MIN_TXNID) ? "invalid" : "unexpected", head_txnid,
|
||||||
bytes2pgno(env, ptr_dist(meta, env->me_map)),
|
bytes2pgno(env, ptr_dist(meta, env->me_map)),
|
||||||
"(workaround for incoherent flaw of unified page/buffer cache)");
|
"(workaround for incoherent flaw of unified page/buffer cache)");
|
||||||
|
}
|
||||||
return coherency_timeout(timestamp, 0);
|
return coherency_timeout(timestamp, 0);
|
||||||
}
|
}
|
||||||
return coherency_check_readed(env, head_txnid, meta->mm_dbs, meta, timestamp);
|
return coherency_check_readed(env, head_txnid, meta->mm_dbs, meta, timestamp);
|
||||||
@ -11678,7 +11748,7 @@ int mdbx_txn_commit_ex(MDBX_txn *txn, MDBX_commit_latency *latency) {
|
|||||||
|
|
||||||
iov_ctx_t write_ctx;
|
iov_ctx_t write_ctx;
|
||||||
rc = iov_init(txn, &write_ctx, txn->tw.dirtylist->length,
|
rc = iov_init(txn, &write_ctx, txn->tw.dirtylist->length,
|
||||||
txn->tw.dirtylist->pages_including_loose, fd);
|
txn->tw.dirtylist->pages_including_loose, fd, false);
|
||||||
if (unlikely(rc != MDBX_SUCCESS)) {
|
if (unlikely(rc != MDBX_SUCCESS)) {
|
||||||
ERROR("txn-%s: error %d", "iov-init", rc);
|
ERROR("txn-%s: error %d", "iov-init", rc);
|
||||||
goto fail;
|
goto fail;
|
||||||
|
@ -622,6 +622,11 @@ typedef struct pgop_stat {
|
|||||||
MDBX_atomic_uint64_t prefault; /* Number of prefault write operations */
|
MDBX_atomic_uint64_t prefault; /* Number of prefault write operations */
|
||||||
MDBX_atomic_uint64_t mincore; /* Number of mincore() calls */
|
MDBX_atomic_uint64_t mincore; /* Number of mincore() calls */
|
||||||
|
|
||||||
|
MDBX_atomic_uint32_t
|
||||||
|
incoherence; /* number of https://libmdbx.dqdkfa.ru/dead-github/issues/269
|
||||||
|
caught */
|
||||||
|
MDBX_atomic_uint32_t reserved;
|
||||||
|
|
||||||
/* Статистика для профилирования GC.
|
/* Статистика для профилирования GC.
|
||||||
* Логически эти данные может быть стоит вынести в другую структуру,
|
* Логически эти данные может быть стоит вынести в другую структуру,
|
||||||
* но разница будет сугубо косметическая. */
|
* но разница будет сугубо косметическая. */
|
||||||
|
Loading…
x
Reference in New Issue
Block a user