Блоґ одного кібера

Історія хвороби контуженого інформаційним вибухом

Корисні налаштування Git

leave a comment »

Перше. Як не задовбувати всіх сміттям яке створює ваше IDE, і за замовчуванням мати gitignore для всіх репозиторіїв.

git config --global core.excludesfile ~/.gitignore

Ця команда відредагує файл ~/.gitconfig і в ~/.gitignore можна буде перелічити всякі там *.swp, чи що там ваш редактор створює.

Друге. Якщо Go не хоче встановлювати модулі з помилкою “fatal: could not read Username for ‘https://github.com’: terminal prompts disabled”, бо залежності прописані через https, а ви використовєуте SSH, це можна виправити таким налаштуванням:

git config --global url."git@github.com:".insteadOf "https://github.com/"

На цьому поки що все, дякую за увагу. 🙂

Written by bunyk

Листопад 12, 2019 at 12:48

Опубліковано в Кодерство, Конспекти

Tagged with ,

Чи правда досить 1000 слів щоб вивчити мову?

leave a comment »

І що робити якщо цього мало? 🙂 Колись читав статтю одного заробітчанина про те що 1000 слів достатньо для впевненого користування мовою. Але зараз маючи статистику по вікіпедії, можна порахувати скільки слів достатньо щоб впевнено читати вікіпедію. (Для тих кому лінь читати ввесь текст: ні, 1000 слів явно замало, їх треба знати десятки тисяч, але скльки точно – ХЗ).

Наприклад українська вікіпедія містить приблизно 240 мільйонів слів, з них різних: 4.5 мільйонів. Якщо їх вчити в порядку частотності, графік частки розуміння до кількості вивчених слів буде виглядати так:

Частка розуміння тексту залежно від кількості знайомих слів

Крім того, дослідження показують що доросла людина знає від 20 до 40 тисяч слів рідної мови, що набагато менше ніж 4 з половиною мільйони (хоча думаю мої оцінки кількості “різних” слів завищені, бо морфологія і помилки, а оцінки знання слів занижені, бо знову ж таки відмінювання і т.п.). Давайте подивимось на графік ближче:

Частка розуміння тексту залежно від кількості знайомих слів

Виходить, що навіть якщо знати 20 тисяч слів, можна розуміти лише 3/4 тексту. І вивчення ще 20 000 помагає менше ніж 10 000 до того. Як так? Давайте візмемо якісь випадкові статті, і виділимо слова що не входять в найчастіші 20 тисяч:

Сексуальна жага, сублімована чуттєвістю, сумом і меланхолією, спричиненою постійним відчуттям невдоволення, є стрижневими компонентами танго. Колись це почуття народжувалося через важке становище мільйонів іммігрантів-робітників, переважно чоловіків, які почувалися самотніми на чужій землі, тому часто навідувалися до будинків розпусти, де кохання за гроші ще дужче підсилювало в них «ностальгію за єднанням і коханням, ностальгію за жінкою» і засвідчувало їхню самотуErnesto Sabato, pág. 14.. Танго, власне, і виникло як масова й популярна «еротична досада», що призвела до такої ж масової й популярної внутрішньої рефлексії про кохання, секс, відчай і врешті про сенс життя і смерть простої людини.

Бачимо, що хоча в вікіпедії достатньо часто вживають слово “секс” (1215 раз), слово “сексуальна” чомусь вживають рідше (385 раз). 🙂 Я б спихнув це на нейтральність, але “сексуальної” – 1224 рази. Суть в тому що якщо знати одне слово, то й похідні знатимеш.

Селяни з Ляцького взяли активну участь в повстанні Богдана Хмельницького. Так наприклад 6 серпня 1649 року Андрій Голинський скаржився на селян з Камінного, Велисниці, Гостова, Волосівської Слободи, Ляцького, які під проводом шляхтичів Русинів Олександра, Андрія, Кикули Березовських «маючи змову з козаками й бунтівниками» напали на село Перерісль і там попустошили шляхетські двори. Крім того, зважаючи на сильну присутність польської шляхти у самому селі, траплялись напади і на Ляцьке. Юрій Коморовський 30 травня 1650 року скаржився, що селяни сіл Волосова, Цуцилова, Тисменичан, та Ворони спустошили двірські маєтки в Цуцилові, опісля спалили двір та корчму в Ляцькім.

Зрозуміло, багато статтей містять багато власних назв. Може варто б замість “попустошили” писати “спустошили”, але одне передбачає значення “трошки”, а інше “зовсім”. Хоча що то – що то не входить до топ20000.

Шарам — село в Ірані, в дегестані Касма, в Центральному бахші, шагрестані Совмее-Сара остану Ґілян. За даними перепису 2006 року, його населення становило 392 особи, що проживали у складі 114 сімейПерепис населення Ірану 2006.

“сімейПерепис” не мало б потрапити до мого рейтингу слів, певне треба кращий код виділення слів зі статті. Те що “дегестані” і “шагрестані” входять до найчастіше вживаних 20000 – теж перекос вікіпедії, бо до словника середньостатистичної людини такі слова не мали б входити.

Приклад зі ще іншої області:

Кодований геном білок за функціями належить до репресорів, фосфопротеїнів.
Задіяний у таких біологічних процесах як взаємодія хазяїн-вірус, транскрипція, регуляція транскрипції, поліморфізм, альтернативний сплайсинг.
Локалізований у цитоплазмі, ядрі, хромосомах, центромерах, кінетохорі.

Те що фосфопротеїни входять до найчастіших 20 тисяч слів – теж ознака перекосу вікіпедії. Щодо слова поліморфізм – хто зна, бо я знаю дві області знань де воно використовується. Але взагалі, частота слова, якщо не застосовувати якийсь стемінг чи іншу нормалізацію – це сум. Виглядає частотний словник ось так:

ядра,6772
ядрі,6369
ядро,3690
ядром,1452
ядрами,585
ядрах,298
ядру,74
мікроядра,26
ядрам,24
Сядристий,22
ядрові,22
ядраЧемпіонат,20
Сядристого,19
ядрова,19
коядро,17
мікроядро,15

Як німецька? Загалом більше мільярда слів з них різних 12 мільйонів. Ось графіки:

Залежність розуміння від знання слів в німецькій вікіпедії

Залежність розуміння від знання слів в німецькій вікіпедії

Бачимо що ситуація подібна. Ось приклад:

Berlin gehört zu den führenden Standorten der Informations- und Kreativwirtschaft in Europa. Der Wirtschaftsbereich umfasst den Buch- und Pressemarkt, Softwareentwicklung, Telekommunikationsleistungen, den Werbemarkt, Marktforschung, die Film- und Rundfunkwirtschaft, den Kunstmarkt, die Musikwirtschaft, die Architektenbranche, die Designwirtschaft und den Markt für Darstellende Künste.

Бачимо що більшість “рідкісних” слів – складаються з не таких вже й рідкісних. Напевне 100% треба змінити підрахунок, бо “Telekommunikationsleistungen” – це “Tele-kommunikations-leistungen”, телекомунікаційні потужності.

Таким чином щоб зробити нормальний частотний словник, треба напевне якийсь стеммер, і алгоритм для розбиття німецьких слів на частини. Для української просто стемер напевне. 🙂 Або робити його вручну…

Written by bunyk

Жовтень 10, 2019 at 16:55

Опубліковано в 1

Tagged with ,

Німецьке посольство

with 4 comments

Якось так сталося що в період виборів почали частіше писати про вакансії за кордоном. (Хоча може це я просто почав частіше в Linkedin заходити, просто аби новини не читати). Дякуючи Пороху тепер зганяти до Берліна на співбесіду так само просто як і до Києва, й коли є що вибрати, то можна й вибрати. Сьогоднішня тема буде не про співбесіди/резюме, мотивацію до переїзду чи порівняння життя в Берліні і Львові, а про найчасозатратніший етап, який можна прискорити якщо знати дещо наперед.

Може потім це переросте у серію статтей подібну до Переїзд на роботу в Берлін. За мотивом надуманого мною роману: “Західна цивілізація або мої спроби відчути себе європейцем”, яку теж рекомендую прочитати якщо серйозно збираєтесь влитись до рядів експатів, хоча вона вже досить стара й містить деякі помилки.

Отож, якщо у вас є бажання працювати в Німеччині і ви збираєтесь погодитись на офер, то ще до підписання контракту і обговорення дати виходу на роботу (яка в ньому прописується), заходите на сайт посольства і бронюєте собі і всім членам сім’ї які їдуть з вами дати співбесіди на національну візу. Ось посилання актуальне на сьогодні, якщо не працює, йдіть на https://kiew.diplo.de/ua-uk Послуги -> Забронювати дату співбесіди -> Національні візи та/або працевлаштування. Тому що я підписав контракт на роботу з першого вересня, бронював у травні, забронював подачу документів собі на 30 серпня, сім’ї на 2 вересня. 🙂
Прочитати решту цього запису »

Written by bunyk

Вересень 21, 2019 at 21:34

Опубліковано в Конспекти, Нещоденник

Tagged with

Скільки слів треба щоб написати вікіпедію? І які зустрічаються частіше?

with 3 comments

Виявляється відтоді як я рахував символи вікіпедії пройшло вже більше року. Рахував я їх за допомогою Go, хоча можна було сильно спростити собі життя і рахувати їх за допомогою Python і pywikipediabot. Сьогодні розкажу як, і як можна побачити з назви – рахуватимемо слова.

Я чомусь боявся що щоб порахувати слова пам’яті не вистачить, тому треба якусь базу даних. Або пробувати все в пам’яті, але аби комп’ютеру не стало погано якось обмежити доступну пам’ять. Але мої 4Gb використовувались лише щось трохи більше ніж на 40% для підрахунку всіх слів включно зі сторінками обговорень, категорій, шаблонів, сторінок опису файлів, і т.п. німецької вікіпедії.

В модулі pywikibot.pagegenerators є об’єкти XMLDumpOldPageGenerator і XMLDumpPageGenerator. Вони приймають назву архіву з XML дампом в конструкторі, а після створення по них можна ітеруватися отримуючи об’єкти сторінки. Не ведіться на слово “Old” в назві першого об’єкта, це означає не депрекацію, а те що текст сторінки буде братись з дампа, а в другому випадку з дампа буде братись лише заголовки, а за свіжим текстом зроблять запит, що сповільнить обробку разів в 500. Тобто замість кількох годин ви будете чекати рік. 🙂

Я спробував проаналізувати німецьку вікіпедію (код буде пізніше), на це пішло 694 хв (трохи менше ніж 12 годин) і вийшло що в ній на 6,425,028 сторінках використовується 2,381,457,397 слів (приблизно 371 на сторінку), з них різних слів 18,349,393. В кінцевому результаті CSV з частотним словничком виходить на 300MB.

Серед тих що зустрічаються лише раз є слова типу PikettdienstPikettdienst (помилка парсера який видаляв розмітку), слово – це юридичний термін швейцарської німецької і перекладається як “служба за викликом”. І є слова на зразок Werkshöfe – подвір’я фабрик.

Топ 50 слів виглядає так, і складає 28% всіх слів загалом:

der 58761447 sich 9169933
und 49084873 wurde 9114619
die 44536463 CET 8614461
in 35684744 an 8385637
von 24448221 er 7835324
ist 20614114 dass 7550955
den 19454023 du 7435099
nicht 17519638 bei 7420172
das 17302844 Diskussion 7237855
zu 16167971 aus 7065523
mit 15906145 Artikel 6967243
im 15167140 oder 6824420
des 14661593 werden 6508092
für 14016308 war 6449858
auf 13957013 nach 6426826
auch 12849476 wird 6117566
eine 11903977 aber 6052645
ein 11780352 am 6017703
Kategorie 11369651 sind 5953632
als 11167157 Der 5623930
dem 11124726 Das 5545595
CEST 11104741 einen 5465687
ich 10886406 noch 5409154
Die 10761776 wie 5293658
es 10204681 einer 5228368

До списку потрапили такі вікіпедійно специфічні слова як Kategorie (сторінки без категорій вважаються не комільфо), CEST і CET (центральноєвропейський літній час і центральноєвропейський час, в підписах в обговореннях).

Ну а що без сторінок обговорень? Проблемав тому, що при створенні об’єкту сторінки XMLDumpOldPageGenerator бере з дампа лише текст і заголовок, простір імен залишається не заповненим і за замовчуванням 0 (основний). Є ще поле isredirect так при спробі доступу до нього знову здійснюється запит. Тому, краще перейти на рівень нижче і використати XmlDump з pywikibot.xmlreader, він використовується так само, просто дає об’єкти не Page, а попростіші, які не вміють робити запити до вікіпедії і не мають методу save. Але нам його й не треба, правда?

Ось код який ігнорує перенаправлення і всі сторінки крім статтей:

"""Count word frequencies in wikipedia dump"""
import csv
from collections import Counter
from itertools import islice
import re
import sys

import mwparserfromhell
from pywikibot.xmlreader import XmlDump

def main():
    """Iterate over pages and count words"""
    if len(sys.argv) < 2:
        print('Please give file name of dump')
        return
    filename = sys.argv[1]

    pages = 0
    words = 0
    words_counts = Counter()
    print('Processing dump')

    for page in XmlDump(filename).parse():
        if (page.ns != '0') or page.isredirect:
            continue
        try:
            text = mwparserfromhell.parse(page.text).strip_code()
        except Exception as e:
            print(page.title, e)
            continue

        text = text.replace('\u0301', '') # remove accents
        # Ukrainian: 

        # page_words = re.findall(
        #     r'[абвгґдеєжзиіїйклмнопрстуфхцчшщьюя'
        #     r'АБВГҐДЕЄЖЗИІЇЙКЛМНОПРСТУФХЦЧШЩЬЮЯ’\'-]+',
        #     text
        # )
        
        # Any language:
        page_words = re.findall(r'\b[^\W\d]+\b', text)

        pages += 1
        words += len(page_words)
        words_counts.update(page_words)
        if pages % 123 == 0:
            print('\rPages: %d. Words: %d. Unique: %d. Processing: %s' % (
                pages, words, len(words_counts), (page.title + ' ' * 70)[:70],
            ), end='')

    print('Done. Writing csv')
    with open('common_words.csv', 'w', newline='') as csvfile:
        csvwriter = csv.writer(csvfile)
        for item in words_counts.most_common():
            csvwriter.writerow(item)

if __name__ == '__main__':
    main()

Він працює майже вдвічі швидше, 381 хвилину, бо обробляє лише 2,295,426 сторінок (обсяг німецької вікіпедії цього року). На цих сторінках є 1,074,446,116 слів (в середньому 468 на сторінку), з них різних – 12,002,417. (Виявляється є аж 6 мільйонів всяких слів які вживаються на всіляких службових сторінках німецької вікіпедії, і яких нема в статтях).

Якщо ж взяти українські статті, то на них треба ще менше часу – 131 хвилину (забув уточнити що в мене SSD), їх є 923238 (скоро мільйон!), слів 238263126 (в середньому 258 на сторінку, треба доповнювати 😉 ). З них різних – 4,571,418. Отак, в мене тепер є частотний словник української на 4.5 мільйони слів. І німецької на 12 мільйонів.

Хоча не спішіть з висновками що українська мова бідніша, бо мої методи потребують вдосконалення. По перше, так як Morgen (ранок) і morgen (завтра) – різні слова, то я не приводив букви в німецькій до одного регістру. (Правда й в українській забув це зробити).

По друге, в німецькому словнику 350590 разів зустрічається слово “www”, бо я вважав словом будь-яку послідовність літер латинки, а в українській відфільтрував кирилицю. Слово youtube зустрічається 8375 разів, а значить є ризик знайти якесь рідкісне слово на зразок “fCn8zs912OE”. 🙂

На WordPress глючить додавання картинок, тому нате вам відео:

А, і ось топ-10 української вікіпедії:

в,4551982
на,3730686
і,3475086
у,3353796
з,3053407
-,2695783
Категорія,2417267
та,2350573
до,1815429
року,1553492

Частота “року” наводить на думку що в українській вікіпедії якийсь перекос на історичні методи викладу. 🙂

Written by bunyk

Липень 30, 2019 at 23:24

Неповний огляд програм для розподіленого повторення (Memrise vs Duolingo)

with one comment

Це дуже важлива стаття, бо вона про речі про які чомусь надто мало людей знає, і через це витрачають багато часу свого короткого життя на те щоб страждати і терпіти марно, в той час як можна зробити зубріння в 10-20 разів ефективнішим, приємнішим і цікавішим.

Колись в молодших класах мені на весняні канікули задавали вивчити список слів, я брав перше слово зі списку, ходив 3 хвилини по кімнаті і бубонів “слово – ворд, слово – ворд, слово – ворд …” Через 3 хвилини брав наступне і так далі до кінця списку. Так проходила година, я втомлений від повторення списку з 20 слів і вже навіть не зовсім пам’ятав як англійською буде “слово”.

Основне правило навчання полягає в тому, що з чим більше ти щось робиш – тим краще воно виходить. Відповідно, якщо постійно повторювати одне й те ж слово, то дуже добре буде ритмічно вимовляти слова. Щоб вивчити іноземну мову треба добре вміти не це, а добре вміти пригадувати слова. Перше що треба зробити щоб збільшити ефективність – не повторювати одне й те саме вголос, а спробувати зробити собі контрольну. Наприклад виписати слова які треба вивчити лише англійською, і пробувати записати переклад українською. Цей ефект збільшення ефективності багато досліджується і називається ефектом тестування.

Наступне покращення – ефект розподілення. Якщо 10 разів протягом хвилини повторити щось – ви це звісно запам’ятаєте. На певний час. Може хвилин на 30, якщо звісно якоїсь гарної асоціації не знайдете, але тоді й 10 повторень зайві. Але якщо повторити раз, потім через хвилину другий, потім через 3 хвилини третій, потім через 10 хвилин четвертий, потім через 30 хвилин – 5-тий, через годину – 6-тий, через 4 години – 7-мий, наступного дня 8-мий, через три дні 9-тий, і ще через тиждень 10-тий, то ви це пам’ятатимете місяць. Якщо ще через місяць повторити, а потім через рік – то може й все життя.

Відповідно на цьому базуюються алгоритми розподіленого повторення які придумав Петро Возняк. На його сайті є цікава історія про те як він спочатку затуляв колонки в своєму зошиті-словнику, і записував результати, а потім купив комп’ютер і вже багато десятків років займається проектом SuperMemo. SuperMemo – це комерційне ПЗ для того щоб ефективно запам’ятати щось на все життя, і однойменна назва серії алгоритмів. SM-0 – це про те як ефективно користуватись зошитом словником, SM-2 – найпопулярніша комп’ютерна версія алгоритму (його модифіковані версії використовуються наприклад в Anki і Mnemosyne). SM-алгоритми вищих версій використовують нейронні мережі, зв’язки між словами (якщо ви знаєте слово airport, то треба трішки відкласти повторення слів airplane та port) і т.п, і використовуються лише в SuperMemo.
Прочитати решту цього запису »

Written by bunyk

Липень 12, 2019 at 15:04

Kubernetes з microk8s

leave a comment »

Kubernetes – це такий docker-compose на стероїдах, що дозволяє керувати кластером машин на яких запускаються контейнери. Infrastructure as a code, і всяке таке. Дивно що в цьому кібернетичному блозі про кібернетіс ще жодного разу не згадувалось, тому варто цю ситуацію виправити.

Інсталяція

Є різні способи поставити локально однонодовий кластер, minikube (з яким в мене не дуже вийшло), і microk8s, який на Ubuntu, і лінукси в яких є менеджер пакетів Snappy, ставиться так:

sudo snap install microk8s --classic

Це встановить кластер і CLI для керування кластером kubectl. Правда вона називатиметься microk8s.kubectl. Якщо ви не ставили kubectl окремо (можна через той же snap install) для керування кластером десь в хмарах, то можна зробити аліас, а якщо ставили – так можна переконфігурити її для роботи з локальним кластером:

microk8s.kubectl config view --raw > ~/.kube/config

Тоді можна наприклад отримати список нодів кластера:

$ kubectl get nodes
NAME                   STATUS    ROLES     AGE       VERSION
bunyk-latitude-e5470   Ready     <none>    3h        v1.14.0

Логічно що у випадку локальної інсталяції це буде лише один комп’ютер.

Щоб перемкнути kubectl на керування наприклад якимось кластером в хмарах Google, за умови що у вас встановлений gcloud, треба виконати:

gcloud container clusters get-credentials [CLUSTER_NAME]

Аддони й панель керування

Ще microk8s має команди для вмикання (enable) і вимикання (disable) аддонів:

microk8s.enable dns dashboard

dns потрібний для багатьох речей, тому його радять вмикати. dashboard – web UI, і InfluxDB з Grafana для моніторингу ресурсів. Щоб його побачити, треба викликати kubectl proxy і перейти за адресою: http://localhost:8001/api/v1/namespaces/kube-system/services/https:kubernetes-dashboard:/proxy/#!/login

Сторінка логіну

Там попросять залогінитись, щоб отримати JWT токен для логіну, треба виконати

kubectl -n kube-system get secret
# тоді в списку знайти ім'я що починається з kubernetes-dashboard-token-
# а тоді:
kubectl -n kube-system describe secret kubernetes-dashboard-token-c4bmp

Параметр -n означає простір імен, це щось на зразок директорії де лежать всі об’єкти кластера, наприклад секрети. Це також відображається в шляхах до API, як от /api/v1/namespaces/kube-system/services/https:kubernetes-dashboard:/proxy/ для доступу до сервісу https:kubernetes-dashboard. За замовчуванням kubectl працює з простором імен default, але у випадку вище, нам треба kube-system.

Запуск контейнерів в Kubernetes

Тепер може спробуємо щось запустити? Для цього треба створити под (pod – англійське слово що позначає групу китів. Вони взагалі дивні слова мають для цього. Зграя сов – це parliament, круків – murder). Под – це група контейнерів зі спільною IP адресою, які запускаються а ноді.

Найпростіший спосіб створити под – майже такий самий як запустити контейнер:

kubectl run nginx --image=nginx
# kubectl run --generator=deployment/apps.v1 is DEPRECATED and will be removed in a future version. Use kubectl run --generator=run-pod/v1 or kubectl create instead.
# deployment.apps/nginx created

Це говорить нам що команда створила deployment, але в майбутньому створюватиме лише поди, якщо не передати параметр --generator=run-pod/v1. Чому так пояснюють тут.

Що таке деплоймент? Нуууу, це важко пояснити, і це мене найбільше в Кубернетісі вибішує. Под – це набір конейнерів зі спільною IP адресою, набором портів, диском, і т.д. Под сам по собі запускати в kubernetes не рекомендують, бо після того як в нього трапиться якась аварія наприклад через закінчення пам’яті, його ніхто не перезапустить. Подом керує контролер, одним з яких є контролер що називається ReplicaSet, який задає кількість копій пода що мають бути запущені. І якщо одна з них з якихось причин здихає – запускається нова, щоб кількість завжди відповідала потрібній. Deployment – об’єкт що містить контролер ReplicaSet, і керує версіями імеджів контейнерів в подах цього контролера. Абстракцій як в TCP/IP…

Тим не менш, ми побачимо под в списку:

$ kubectl get pods
NAME                     READY   STATUS    RESTARTS   AGE
nginx-7db9fccd9b-w6468   1/1     Running   1          44h

Щоб видалити деплоймент разом з подами дають команду:

kubectl delete deployments/nginx

Трохи складніший спосіб створити под – написати маніфест:

apiVersion: v1 
kind: Pod
metadata:
  name: nginx
spec:
  containers:
    - image: nginx
      name: nginx
      ports:
        - containerPort: 80
          name: http
          protocol: TCP

Якщо його записати в файл, наприклад nginx.yaml, то щоб запустити:

kubectl apply -f nginx.yaml 

Як подивитись що всередині пода? Можна прокинути порт, і тоді те що контейнери в поді віддають на якомусь порті буде доступно на порті localhost:

kubectl port-forward nginx 8088:80

Загальне правило для портів в Kubernetes (бо такі пари порт:порт зустрічаються часто) – зліва порти ззовні, справа – всередині. Якщо все працює, на http://localhost:8088 ви маєте побачити сторінку де пише “If you see this page, the nginx web server is successfully installed and working.”

Можна подивитись логи:

$ kubectl logs -f nginx
127.0.0.1 - - [31/Mar/2019:17:00:53 +0000] "GET /favicon.ico HTTP/1.1" 404 154 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:66.0) Gecko/20100101 Firefox/66.0" "-"
127.0.0.1 - - [31/Mar/2019:17:01:56 +0000] "GET / HTTP/1.1" 304 0 "-" "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:66.0) Gecko/20100101 Firefox/66.0" "-"

Як змінити те що под показує на головній? Створити якийсь html файл і закинути його командою:

kubectl cp index.html nginx:/usr/share/nginx/html/index.html

Хоча так не прийнято робити, і можна хіба що під час розробки. Краще додати файли в імедж за допомогою Dockerfile.

Запуск сайту

Але давайте вже зробимо щось серйозне на кілька контейнерів. Наприклад як в цій публікації було за допомогою docker compose, тільки за допомогою kubernetes: два контейнери, один з них nginx веб-сервер що віддає статичні файли для фронт-енду, інший – API на python що віддає дані графіків.

Таким чином файли backend.docker, dashboard.html і server.py можна скопіювати собі в проект без змін (звідси). nginx.docker напевне краще називати frontend.docker, і помістити туди лише файли фронт-енду:

FROM nginx

COPY dashboard.html /usr/share/nginx/html/index.html

Конфігурацію nginx ми змінювати не будемо, бо відповідальним за диспетчеризацію запитів між фронт-ендом і бекендом в нас буде штука що називається Ingress.

Тут, на відміну від docker-compose який сам наші контейнери може зібрати, їх треба створити вручну:

docker build -t frontend -f frontend.docker .
docker build -t backend -f backend.docker .

Покладемо конфіг для двох деплойментів у файл site.yaml і скажемо кластеру оновитись (kubectl apply -f site.yaml):

apiVersion: apps/v1
kind: Deployment
metadata:
  name: frontend-deployment
spec:
  selector:
    matchLabels:
      tier: frontend
  replicas: 1
  template:
    metadata:
      labels:
        tier: frontend
    spec:
      containers:
      - name: frontend
        image: frontend
        ports:
        - containerPort: 80
---
apiVersion: apps/v1
kind: Deployment
metadata:
  name: backend-deployment
spec:
  selector:
    matchLabels:
      tier: backend
  replicas: 2 # більше подів для бекенду, бо йому самому може важко.
  template:
    metadata:
      labels:
        tier: backend
    spec:
      containers:
      - name: backend
        image: backend
        ports:
        - containerPort: 80

Один файл в Kubernetes може містити описи багатьох об’єктів, розділені рядком що містить “—“. Так простіше працювати, бо треба менше команд kubectl apply, чи kubectl delete.

Якщо kubectl get pods показує що наші поди мають статус ErrImagePull або ImagePullBackOff, це означає що kubernetes намагається взяти імеджі не з нашого комп’ютера, а з докерхабу.

Виявляється треба ще додати їх в реєстр microk8s. Для цього:

microk8s.enable registry

docker tag backend localhost:32000/backend
docker push localhost:32000/backend
docker tag frontend localhost:32000/frontend
docker push localhost:32000/frontend

Підозрюю що це можна було зробити простіше і швидше якщо зразу називати імеджі правильним тегом. Але майстерність приходить з досвідом. 🙂 В кінцевому результаті ви маєте мати три запущені поди, в двох деплойментах.

І що з того? Поки нічого, бо IP адреси цих подів динамічно міняються (коли їх перезапускають). Для того щоб мати постійний доступ потрібен сервіс, який проксює доступ до подів заданих мітками (labels). Мітки це пари ключ-значення які чіпляються до об’єктів в Kubernetes. Коли ми в описі пода писали:

labels: 
  tier: backend

То це ми йому якраз задавали мітки. Тепер по мітках ми можемо ці об’єкти отримувати:

bunyk@bunyk-thinkpad:~/projects/dockerizing$ kubectl get pods -l tier=frontend
NAME                                   READY   STATUS    RESTARTS   AGE
frontend-deployment-695cfcc94c-jl5hg   1/1     Running   0          3h6m
bunyk@bunyk-thinkpad:~/projects/dockerizing$ kubectl get pods -l tier=backend
NAME                                  READY   STATUS    RESTARTS   AGE
backend-deployment-669d885465-cfbrc   1/1     Running   0          3h6m
backend-deployment-669d885465-nh8lg   1/1     Running   0          3h6m

Так само сервіс має надає доступ з постійним IP до набору подів заданого мітками. Сервіси створюються так:

apiVersion: v1
kind: Service
metadata:
  name: backend
spec:
  selector:
    tier: backend
  ports:
  - protocol: TCP
    port: 80
    targetPort: 8080
---
apiVersion: v1
kind: Service
metadata:
  name: frontend
spec:
  selector:
    tier: frontend
  ports:
  - protocol: TCP
    port: 80
    targetPort: 80

Сервіс має селектор що визначає за якими подами стежити, і відкриває порти. port – це який порт відкрити, targetPort – це до якого порта в поді приєднатись. За цим треба слідкувати, бо якщо не виконається одна з умов: порт на якому слухає сервер в контейнері == containerPort, containerPort == targetPort сервіса, port сервіса == порт до якого приєднується клієнт, то отримаємо помилку “Connection refused” чи подібну.

Після чергового kubectl apply -f site.yaml можна подивитись які сервіси отримуємо:

$ kubectl get services
NAME         TYPE        CLUSTER-IP      EXTERNAL-IP   PORT(S)   AGE
backend      ClusterIP   10.152.183.69   <none>        80/TCP    110m
frontend     ClusterIP   10.152.183.63   <none>        80/TCP    30m
kubernetes   ClusterIP   10.152.183.1    <none>        443/TCP   8d
$ curl 10.152.183.69/data/1
[1.0997977838,0.6222197737,0.7265324166,1.0475918458,0.8271129655,0.6489646475,0.3625859258,0.7692987393,1.1331619921,1.4889188394]

Бачимо що сервіси які ми створюємо мають тип ClusterIP. Це тип за замовчуванням, і означає що він буде доступний лише з середини кластера. Нам доступний, бо ми ж сидимо на одній єдиній ноді кластера. Крім нього є ще NodePort, LoadBalancer і ExternalName, але розбиратись що це – ми не будемо, бо й без того голова вже пухне (чи у вас ні?).

Залишився ще Ingress. Це штука що дає доступ до сервісів кластера ззовні кластера. Конфігурується так:

apiVersion: extensions/v1beta1
kind: Ingress
metadata:
  name: entrypoint
  annotations:
    nginx.ingress.kubernetes.io/rewrite-target: /$1
    kubernetes.io/ingress.class: "nginx"
spec:
  rules:
  - http:
      paths:
      - path: /api/(.*)
        backend:
          serviceName: backend
          servicePort: 80
      - path: /(.*)
        backend:
          serviceName: frontend
          servicePort: 80

Перед тим як її створювати, треба ще виконати microk8s.enable ingress.

Тут важливий параметр nginx.ingress.kubernetes.io/rewrite-target, який означає “передавати сервісу запит замінивши URL на той що вказано, підставивши групи з регулярного виразу в path“.

Після застосування цієї конфігурації, на localhost в нас завантажиться фронтенд, пошле через ingress запити до бекенду, і все навіть буде через HTTP 2.0.

Питайтесь якщо що не виходить чи не доходить, в мене теж багато з того що тут написано не виходило зразу, може я вже стикався з тими проблемами що у вас.

Written by bunyk

Квітень 7, 2019 at 00:21

Опубліковано в Кодерство, Конспекти

Tagged with

Хакери викрали базу даних пін-кодів!

with 10 comments

Важлива інформація для власників банківських карток Visa і MasterCard, поділіться з друзями і знайомими щоб вони теж були попереджені.

Нижче викладаю копію бази даних з вкраденими пін-кодами. Перевірте чи ваш є серед них, і якщо є – рекомендую змінити на якийсь інший, якого нема серед списку зламаних.
Прочитати решту цього запису »

Written by bunyk

Квітень 1, 2019 at 00:59

Опубліковано в Кодерство

Tagged with