Блоґ одного кібера

Історія хвороби контуженого інформаційним вибухом

Персистентний dictionary на sqlite

with 3 comments

Персистентність – це таке розумне слово, яке означає що стан об’єкта зберігається в зовнішній пам’яті. Тобто якщо вимкнуть світло чи просто вб’ють процес, і оперативна пам’ять погасне, разом з об’єктом, при наступному запуску нашого процесу об’єкт завантажиться в такому ж стані, в якому він був останнього разу. Це надзвичайно зручно, правда?

А найзручнішим об’єктом часто є асоціативний масив, в python – dictionary, який реалізує функціональне бінарне відношення.

Він мені був дуже потрібний для реалізації словника. До цього я думав писати якийсь свій CRUD інтерфейс, потім додавати до нього підтримку імпорту tsv (може краще реалізувати це просто за допомогою окремої функції? Точно. Так і зроблю.) А ще раніше взагалі серіалізував словники. Але це працювало лише поки пар було мало. Коли я скачав дамп вікіпедії – пам’ять сказала “фіг вам”.

Код, взятий у Ереза Шінана, і несуттєво змінений (конструктор тепер не має обов’язкового параметра з ключем FileDict(fi"example.bd") замість FileDict(filename="example.bd")).

Працює якось так:

$ bpython 
>>> import filedict
>>> d = filedict.FileDict("test.db")
>>> d
{0: 0, 1: 1, 2: 2, 3: 3, 4: 4, 5: 5, 6: 6, 7: 7, 8: 8, 9: 9, 10: 10, 11: 11, 12: 12, 13: 13, 14: 14, 15: 15, 16: 16, 17: 17, 18: 18, 19: 19, 20: 20, 21: 21, 22: 22, 23: 23, 24: 24, 25: 25, 26: 26, 27: 27, 28: 28, 29: 29, 30: 30, 31: 31, 32: 32, 33: 33, 34: 34, 35: 35, 36: 36, 37: 37, 38: 38, 39: 39, 40: 40, 41: 41, 42: 42, 43: 43, 44: 44, 45: 45, 46: 46, 47: 47, 48: 48, 49: 49, 50: 50, 51: 51, 52: 52, 53: 53, 54: 54, 55: 55, 56: 56, 57: 57, 58: 58, 59: 59, 60: 60, 61: 61, 62: 62, 63: 63, 64: 64, 65: 65, 66: 66, 67: 67, 68: 68, 69: 69, 70: 70, 71: 71, 72: 72, 73: 73, 74: 74, 75: 75, 76: 76, 77: 77, 78: 78, 79: 79, 80: 80, 81: 81, 82: 82, 83: 83, 84: 84, 85: 85, 86: 86, 87: 87, 88: 88, 89: 89, 90: 90, 91: 91, 92: 92, 93: 93, 94: 94, 95: 95, 96: 96, 97: 97, 98: 98, 99: 99}
>>> for i in range(100):
...     del d[i]
... 
>>> d
{}
>>> d[u'Буник'] = u'Тарас'
>>> exit()

$ bpython 
>>> import filedict
>>> d = filedict.FileDict('test.db')
>>> for k,v in d.iteritems():
...     print k,v
... 
Буник Тарас

Швидкодія звісно ніяка (приблизно 10 записів на секунду, і трохи більше 1000 читань значення за ключем) , але можливо воно хоча б буде підтримувати великі обсяги даних… Все одно, народжений плазувати літати не зобов’язаний :).

UPD (thank you Erez!): Учитись, учитись і ще раз учитись!

 
with d.batch as fd:
     for i in range(100000): d[i] = i

Сотня тисяч записів за долі секунди! (fd means not file dictionary but also fast dictionary).

Правда це не зовсім записи, і не дай Бог аби в ці долі секунди щось сталось. Але все одно, це неймовірно зручно, і в тисячі разів швидше.
🙂

Advertisements

Written by bunyk

Березень 26, 2011 at 14:31

Оприлюднено в Кодерство

Tagged with ,

Відповідей: 3

Subscribe to comments with RSS.

  1. Notice that FileDict.batch makes changes much faster.

    erezsh

    Березень 26, 2011 at 15:52

    • OMG! Wow! It really makes! Thank you Erez.

      Also I tryed to understand what that __enter__ thing really means, and now even think that I know where to use with.

      Thank you a lot!

      bunyk

      Березень 26, 2011 at 16:59

  2. […] filedict – модуль з персистентним аналогом класу dictinary. Я про нього вже писав. […]


Залишити відповідь

Заповніть поля нижче або авторизуйтесь клікнувши по іконці

Лого WordPress.com

Ви коментуєте, використовуючи свій обліковий запис WordPress.com. Log Out / Змінити )

Twitter picture

Ви коментуєте, використовуючи свій обліковий запис Twitter. Log Out / Змінити )

Facebook photo

Ви коментуєте, використовуючи свій обліковий запис Facebook. Log Out / Змінити )

Google+ photo

Ви коментуєте, використовуючи свій обліковий запис Google+. Log Out / Змінити )

З’єднання з %s

%d блогерам подобається це: