Побудова “скриньок з вусами” львівських квартир що здаються на сьогодні
Я ще минулого року помітив що в питаннях про Python на StackOverflow обговорюють якісь панди. Це, як виявилось обгортка навколо matplotlib, numpy і подібних гарних речей. А ще, лазячи по своїх документах в Google знайшов скачану вже позаминулого року стіну групи пошуку нерухомості вконтакті. І так співпало що я і мій колега-аналітик зараз шукаємо квартиру у Львові. Я йому показав цей файл, і він загорівся бажанням проаналізувати ще якийсь сайт оголошень.
При всій повазі до lun.ua, але тут я прорекламую dom.ria.com. Передовсім, там є українська версія. А ще, можливість скачати результати пошуку як електронну таблицю, хоч і в xls форматі, і лише одну сторінку.
В python читати xls вміє бібліотека xlrd, тому треба доставити ще й її. Pandas взагалі має багато необов’язкових залежностей:
sudo pip3.5 install jupyter pandas xlrd matplotlib jupyter notebook # дуже модний графічний інтерпретатор
Якщо все поставити як вище і запустити “jupyter”, то можна робити обчислення в отакому документі: https://github.com/bunyk/mypandas/blob/master/dom.ria/dom.ria.ipynb
І можна побудувати графік скринька з вусами:
От, недаремно я деякі лекції з АнДану все таки не проспав! Хоча, який висновок робити з цього графіка – не знаю. Знаю лише що половина квартир потрапляють всередину прямокутника.
А ось гістограми по цінах для однокімнатних і двокімнатних:
Який з цих гістограм робити висновок окрім того що квартир дешевших за 2000 грн (окрім викидів) не буває (а я зараз живу за 700 грн/міс, хоча це пів квартири) – теж не знаю. Може ви самі якийсь зробите. І так, до речі, я шукаю одно чи двокімнатну квартиру десь в другому або третьому квартилі цін в районі вулиці Липинського.
Визначення вартості оренди квартири по її параметрах – це класична задача machine learning, в якомусь з навчальних курсів вона навіть зустрічалася. Тут напевно основна проблема – це мати достатньо якісних вхідних даних для тренування і верифікації моделі. Очевидно, що крім кількості кімнаті є інші явні і неявні фактори, що впливають на ціну оренди, які не завжди зазначені на сайтах
DixonD
9 Січня, 2017 at 14:07
Ця скринька з вусами: https://en.wikipedia.org/wiki/Box_plot 🙂
АнДану на Кубіку це для мене типовий приклад того, як викладач може зробити нереально цікавий предмет унилим гівном. Спав там не ти один.
leshaved
22 Лютого, 2017 at 08:34
А можна детальніше, дуже цікава тема) Сам ніколи аналітикою не займався, але питання квартир дуже цікавить.
BTC
20 Березня, 2017 at 13:33