Блоґ одного кібера

Історія хвороби контуженого інформаційним вибухом

Posts Tagged ‘deutsch

Hunspell

leave a comment »

Hunspell розшифровується як “угорський правопис”, і це найбільш просунута програма перевірки правопису якщо не враховувати Grammarly. А все тому що угорська мова – найбільш скажена в плані морфології. Тому якщо щось підходить для угорської – для інших європейських мов точно підійде.

sudo apt install hunspell hunspell-uk hunspell-de-de libhunspell-dev
sudo pip install hunspell

hunspell має доволі простий інтерфейс для використання в мовах програмування (хоча й складні словники (читати man hunspell.5)):

>>> import hunspell
>>> spellchecker = hunspell.HunSpell('/usr/share/hunspell/uk_UA.dic', '/usr/share/hunspell/uk_UA.aff')
>>> spellchecker.spell('ласка')
True
>>> spellchecker.spell('ласкає')
False
>>> spellchecker.suggest('ласкає')
['ласка', 'ласкам', 'лускає', 'ласках', 'ляскає', 'ласка є', 'скалатає']
Прочитати решту цього запису »

Written by bunyk

13 Січня, 2020 at 19:45

Опубліковано в Інструменти, Кодерство

Tagged with ,

Німецька реєстрація

with one comment

Продовження серії публікацій про шлях експата, перша частина якої була про німецьке посольство.

– Come back after 10 years and get your car.
– Morning or afternoon?
– Well 10 years from now, what difference does it make?
– The plumber is coming in the morning.

З анекдотів Рейгана про СРСР, які насправді то про Німеччину.

В попередній публікації забув ще додати варто зареєструватись на подачу документів на Блакитну карту, бо я 22 вересня зареєстрував собі дату на 3 березня. Це можна зробити тут: https://service.berlin.de/dienstleistung/324659/en/ , прочитавши всі вимоги, знайшовши внизу посилання “Make an appointment”, тоді натиснути “Book an appointment”, тоді вибрати громадянство, чи маєте ви подружнього партнера громадянина ЄС, тип запиту Blaue Carte EU (section 19a), натиснути Next, заповнити особисту інформацію і email, і так поки вам не прийде лист з темою “Ausländerbehörde Berlin – Foreigners Registration Office appointment confirmation”, і pdf квитанції, яка містить адресу куди прийти, 150 тисяч якийсь там номер в черзі і чекліст зі всіма необхідними документами. Її треба надрукувати (хоча краще це зробити в Німеччині щоб лишнього багажу не везти).

Тепер про найважливіше що треба зробити по приїзду. Замельдуватися! Лендлорд тимчасової квартири (мій роботодавець) окрім договорів на квартиру, інтернет і т.п. дає такі документи:

  • Підтвердження заселення від квартировласника (Wohnungsgeberbestätigung)
  • Підтвердження про відсутність боргів з оренди (Mietschuldenfreiheitsbestätigung)

Їх, і формуляр “Anmeldung bei der Meldebehörde” можна знайти тут. Заповнений формуляр, ті документи і оригінал паспорта треба віднести в найближчий Bürgeramt, в який треба мати термін (термін кажуть можна зробити в той же день зранку, але мені на щастя з цим допомагав роботодавець, тому не знаю як точно це робиться).

Довідку про Anmeldung дають зразу. А через кілька тижнів на пошту (паперову) має прийти TaxID. (Або можна за ним сходити в Finanzamt, куди йти все одно доведеться щоб поміняти собі податковий клас.) І це те що вам потрібно аби отримувати зарплату, бо без TaxID роботодавець вам зарплату на рахунок не зможе послати.

Це все що пам’ятаю про реєстрацію. Просто робив я її давно, і займався іншими проблемами. В Німеччині (а може лише в Берліні, важко сказати бо я в інших місцях мало був) є більші проблеми ніж бюрократія. Але про це далі буде.

Written by bunyk

11 Січня, 2020 at 15:08

Опубліковано в Конспекти, Нещоденник

Tagged with ,

30 відтінків слова Zug

leave a comment »

Я думав що Zug німецькою означає поїзд і хід. Але є багато варіацій, наприклад ліфт – Aufzug (поїзд на!) я вирішив порахувати скільки різних слів в німецькій вікіпедії містять в собі Zug, і виявилось – трохи більше за 38000. Звісно враховуючи помилки мого метод підрахунку, їх насправді трохи менше. Недавно дізнався що конкретно шахматний хід має спеціальне слово. Хоча застосовується не завжди до шахмат, а й загалом як хід у грі:

Прочитати решту цього запису »

Written by bunyk

4 Січня, 2020 at 20:48

Опубліковано в Конспекти

Tagged with

Чи правда досить 1000 слів щоб вивчити мову?

leave a comment »

І що робити якщо цього мало? 🙂 Колись читав статтю одного заробітчанина про те що 1000 слів достатньо для впевненого користування мовою. Але зараз маючи статистику по вікіпедії, можна порахувати скільки слів достатньо щоб впевнено читати вікіпедію. (Для тих кому лінь читати ввесь текст: ні, 1000 слів явно замало, їх треба знати десятки тисяч, але скльки точно – ХЗ).

Наприклад українська вікіпедія містить приблизно 240 мільйонів слів, з них різних: 4.5 мільйонів. Якщо їх вчити в порядку частотності, графік частки розуміння до кількості вивчених слів буде виглядати так:

Частка розуміння тексту залежно від кількості знайомих слів

Крім того, дослідження показують що доросла людина знає від 20 до 40 тисяч слів рідної мови, що набагато менше ніж 4 з половиною мільйони (хоча думаю мої оцінки кількості “різних” слів завищені, бо морфологія і помилки, а оцінки знання слів занижені, бо знову ж таки відмінювання і т.п.). Давайте подивимось на графік ближче:

Частка розуміння тексту залежно від кількості знайомих слів

Виходить, що навіть якщо знати 20 тисяч слів, можна розуміти лише 3/4 тексту. І вивчення ще 20 000 помагає менше ніж 10 000 до того. Як так? Давайте візмемо якісь випадкові статті, і виділимо слова що не входять в найчастіші 20 тисяч:

Сексуальна жага, сублімована чуттєвістю, сумом і меланхолією, спричиненою постійним відчуттям невдоволення, є стрижневими компонентами танго. Колись це почуття народжувалося через важке становище мільйонів іммігрантів-робітників, переважно чоловіків, які почувалися самотніми на чужій землі, тому часто навідувалися до будинків розпусти, де кохання за гроші ще дужче підсилювало в них «ностальгію за єднанням і коханням, ностальгію за жінкою» і засвідчувало їхню самотуErnesto Sabato, pág. 14.. Танго, власне, і виникло як масова й популярна «еротична досада», що призвела до такої ж масової й популярної внутрішньої рефлексії про кохання, секс, відчай і врешті про сенс життя і смерть простої людини.

Бачимо, що хоча в вікіпедії достатньо часто вживають слово “секс” (1215 раз), слово “сексуальна” чомусь вживають рідше (385 раз). 🙂 Я б спихнув це на нейтральність, але “сексуальної” – 1224 рази. Суть в тому що якщо знати одне слово, то й похідні знатимеш.

Селяни з Ляцького взяли активну участь в повстанні Богдана Хмельницького. Так наприклад 6 серпня 1649 року Андрій Голинський скаржився на селян з Камінного, Велисниці, Гостова, Волосівської Слободи, Ляцького, які під проводом шляхтичів Русинів Олександра, Андрія, Кикули Березовських «маючи змову з козаками й бунтівниками» напали на село Перерісль і там попустошили шляхетські двори. Крім того, зважаючи на сильну присутність польської шляхти у самому селі, траплялись напади і на Ляцьке. Юрій Коморовський 30 травня 1650 року скаржився, що селяни сіл Волосова, Цуцилова, Тисменичан, та Ворони спустошили двірські маєтки в Цуцилові, опісля спалили двір та корчму в Ляцькім.

Зрозуміло, багато статтей містять багато власних назв. Може варто б замість “попустошили” писати “спустошили”, але одне передбачає значення “трошки”, а інше “зовсім”. Хоча що то – що то не входить до топ20000.

Шарам — село в Ірані, в дегестані Касма, в Центральному бахші, шагрестані Совмее-Сара остану Ґілян. За даними перепису 2006 року, його населення становило 392 особи, що проживали у складі 114 сімейПерепис населення Ірану 2006.

“сімейПерепис” не мало б потрапити до мого рейтингу слів, певне треба кращий код виділення слів зі статті. Те що “дегестані” і “шагрестані” входять до найчастіше вживаних 20000 – теж перекос вікіпедії, бо до словника середньостатистичної людини такі слова не мали б входити.

Приклад зі ще іншої області:

Кодований геном білок за функціями належить до репресорів, фосфопротеїнів.
Задіяний у таких біологічних процесах як взаємодія хазяїн-вірус, транскрипція, регуляція транскрипції, поліморфізм, альтернативний сплайсинг.
Локалізований у цитоплазмі, ядрі, хромосомах, центромерах, кінетохорі.

Те що фосфопротеїни входять до найчастіших 20 тисяч слів – теж ознака перекосу вікіпедії. Щодо слова поліморфізм – хто зна, бо я знаю дві області знань де воно використовується. Але взагалі, частота слова, якщо не застосовувати якийсь стемінг чи іншу нормалізацію – це сум. Виглядає частотний словник ось так:

ядра,6772
ядрі,6369
ядро,3690
ядром,1452
ядрами,585
ядрах,298
ядру,74
мікроядра,26
ядрам,24
Сядристий,22
ядрові,22
ядраЧемпіонат,20
Сядристого,19
ядрова,19
коядро,17
мікроядро,15

Як німецька? Загалом більше мільярда слів з них різних 12 мільйонів. Ось графіки:

Залежність розуміння від знання слів в німецькій вікіпедії

Залежність розуміння від знання слів в німецькій вікіпедії

Бачимо що ситуація подібна. Ось приклад:

Berlin gehört zu den führenden Standorten der Informations- und Kreativwirtschaft in Europa. Der Wirtschaftsbereich umfasst den Buch- und Pressemarkt, Softwareentwicklung, Telekommunikationsleistungen, den Werbemarkt, Marktforschung, die Film- und Rundfunkwirtschaft, den Kunstmarkt, die Musikwirtschaft, die Architektenbranche, die Designwirtschaft und den Markt für Darstellende Künste.

Бачимо що більшість “рідкісних” слів – складаються з не таких вже й рідкісних. Напевне 100% треба змінити підрахунок, бо “Telekommunikationsleistungen” – це “Tele-kommunikations-leistungen”, телекомунікаційні потужності.

Таким чином щоб зробити нормальний частотний словник, треба напевне якийсь стеммер, і алгоритм для розбиття німецьких слів на частини. Для української просто стемер напевне. 🙂 Або робити його вручну…

Written by bunyk

10 Жовтня, 2019 at 16:55

Опубліковано в 1

Tagged with ,

Неповний огляд програм для розподіленого повторення (Memrise vs Duolingo)

with one comment

Це дуже важлива стаття, бо вона про речі про які чомусь надто мало людей знає, і через це витрачають багато часу свого короткого життя на те щоб страждати і терпіти марно, в той час як можна зробити зубріння в 10-20 разів ефективнішим, приємнішим і цікавішим.

Колись в молодших класах мені на весняні канікули задавали вивчити список слів, я брав перше слово зі списку, ходив 3 хвилини по кімнаті і бубонів “слово – ворд, слово – ворд, слово – ворд …” Через 3 хвилини брав наступне і так далі до кінця списку. Так проходила година, я втомлений від повторення списку з 20 слів і вже навіть не зовсім пам’ятав як англійською буде “слово”.

Основне правило навчання полягає в тому, що з чим більше ти щось робиш – тим краще воно виходить. Відповідно, якщо постійно повторювати одне й те ж слово, то дуже добре буде ритмічно вимовляти слова. Щоб вивчити іноземну мову треба добре вміти не це, а добре вміти пригадувати слова. Перше що треба зробити щоб збільшити ефективність – не повторювати одне й те саме вголос, а спробувати зробити собі контрольну. Наприклад виписати слова які треба вивчити лише англійською, і пробувати записати переклад українською. Цей ефект збільшення ефективності багато досліджується і називається ефектом тестування.

Наступне покращення – ефект розподілення. Якщо 10 разів протягом хвилини повторити щось – ви це звісно запам’ятаєте. На певний час. Може хвилин на 30, якщо звісно якоїсь гарної асоціації не знайдете, але тоді й 10 повторень зайві. Але якщо повторити раз, потім через хвилину другий, потім через 3 хвилини третій, потім через 10 хвилин четвертий, потім через 30 хвилин – 5-тий, через годину – 6-тий, через 4 години – 7-мий, наступного дня 8-мий, через три дні 9-тий, і ще через тиждень 10-тий, то ви це пам’ятатимете місяць. Якщо ще через місяць повторити, а потім через рік – то може й все життя.

Відповідно на цьому базуюються алгоритми розподіленого повторення які придумав Петро Возняк. На його сайті є цікава історія про те як він спочатку затуляв колонки в своєму зошиті-словнику, і записував результати, а потім купив комп’ютер і вже багато десятків років займається проектом SuperMemo. SuperMemo – це комерційне ПЗ для того щоб ефективно запам’ятати щось на все життя, і однойменна назва серії алгоритмів. SM-0 – це про те як ефективно користуватись зошитом словником, SM-2 – найпопулярніша комп’ютерна версія алгоритму (його модифіковані версії використовуються наприклад в Anki і Mnemosyne). SM-алгоритми вищих версій використовують нейронні мережі, зв’язки між словами (якщо ви знаєте слово airport, то треба трішки відкласти повторення слів airplane та port) і т.п, і використовуються лише в SuperMemo.
Прочитати решту цього запису »

Written by bunyk

12 Липня, 2019 at 15:04

Львівські пригоди з німецькою

leave a comment »

Є дві речі за які я найбільше люблю Львів (жити тут не дуже комфортно, квартири і вулиці варто ремонтувати): люди і культура. Культура звісно найбільше літературна. А люди переважно теж понаїхавші – найцікавіший вид людей.

Сьогодні мав обидва задоволення. По перше знайшов шикарну книгарню на Братів Рогатинців 32. Там навіть чай наливають, хоча я про це дізнався лише коли розповів про відкриття моєму сусідові який працює в іншій книгарні. Зате зробив пару фоток:

Це слайдшоу вимагає JavaScript.

Зайшов я туди бо завтра контрольна по відмінюванню прикметників, а все ще плутаю сильну, слабку і якусь ще там відміни. А у кабінеті німецької бачив цікавий маленький довідник, зайшов спитати чи у них такий є. Натомість взяв три нові книжки (вклався в 145 грн), тому загалом в мене вже є 6 підручників з німецької (Schritte – шостий, і я рахую чотири томи як один):

Бібліотека “шпрехера”-початківця.

(+ Тиждень тому купив собі біля Федорова за 5 грн (як проїзд у маршрутці) “Op Center: Balance of power” англійською, відомого в певних колах Тома Кленсі. Оригінальна ціна – 9.99 канадських доларів). Така собі гостросюжетна книжка про каталонських сепаратистів, і втручання США у внутрішню політику Іспанії. Мені ще продавець намагався пояснити відмінності політики в США і у нас. Я сказав що сам книжку подивлюсь. 🙂 Стрільба, вибухи, бійки, шпигунські пристрої, кохання і сімейні драми присутні. Але це я відхиляюсь від німецької теми).

А ще сьогодні мав побачення з американкою з настільки українським ім’ям, яке тільки може бути, яка вчилась в Австрії (через що дуже любить Відень), а у Львові працює запрошеним викладачем англійської (хоча сама доктор політології). Не знаю чим я здався їй цікавим, може хіба тим що в нас перетинаються мовні вподобання. Ми спілкувались на дикій суміші німецької англійської і української. І добре що англійською багато, бо я тепер розумію як може виглядати погана вимова. Слова “село” і “сало” легко сплутати, особливо коли в твоїй рідній мові “а” часто читається як “е”, але результат виходить смішним. 🙂 Хоча вона просила не сміятись з її діаспорянської української.

Багато говорили про мови, Австрію, і звісно політику. 🙂 Але тема публікації обмежує, тому я розповім лише про Австрію. Виявляється окрім того що австріяки вітаються “Сервус” замість “Гальо”, в Відні кажуть Bahnsteig (перон), в той час як в місцях де поширений хохдойч – Gleis. Що більш логічно, тому що steigen – ступати, а Bahn – залізниця. Аналогічно до “Bürgersteig” – те куди ступає нога бюргера (тротуар). (Читати більше про німецькі слова)

А на минулому Stammtisch зустрів іншого американського професора з бізнес-адміністрування і маркетингу, зЛас-Вегаса, якого звати Алекс Жизневський (ні, він не білорус з “небесної сотні”).

Чюс! Тобто tschüss, а я піду нарешті готуватись до презентації на післязавтрашній LvivPy. Тому що розваги розвагами, а якщо пообіцяв комусь – то треба працювати. 😉 Шкода що я контрольну завтра завалю (зате є потенціал наздогнати).

Written by bunyk

28 Травня, 2015 at 20:53

Опубліковано в Нещоденник

Tagged with , ,

Не Rammstein-ом єдиним

with 15 comments

Хочеться кілька слів сказати про німецьку (німецькомовну) музику. Коли люди чують що вона мені подобається, вони зразу питають за Rammstein. Звісно, Rammstein теж. Тексти в них зі змістом, музика енергійна, група випробувана часом. Чого ще бажати?

Якось в “Пузатій Хаті” говорив з якимось німцем, то той казав що за кордоном Rammstein навіть більш відомий ніж на батьківщині. Я трохи здивувався, і запитав що тоді німці слухають. Мені сказали що Bushido. Я запитав “Що це? Якийсь хіп-хоп?”. Мені сказали що то не хіп-хоп а шайзе. Я згадав що колись теж чув про дуже популярну німецьку групу “Tokio Hotel”. Спитав за них, мені підтвердили що то теж шайзе. 🙂 Воно то так, але хлопцям треба віддати належне, вони почали виступати в 12 років. 🙂

Але по-перше, найвідоміша німецька група – це напевне Scorpions, хоча не всі в курсі що то німці. А по-друге, якщо вас цікавить важка музика, то є цілий жанр NDH (Neue Deutsche Härte, нова німецька важкість), куди входить той же Rammstein. Але крім нього й Oomph, Die Apokalyphishen Reiter, Megaherz, Eisbrecher, Unheilig, ASP, Lacrimosa (це вже трохи готика, але я все одно особливо в жанрах не розбираюсь, тому хай буде), Letze Instanz, Samsas Traum, Silber, Subway to Sally, Van Canto (співають англійською, але німці, і мають наприклад “Neuer Wind” німецькою) та багато інших. Я своїх улюблених перелічив.

Є рок з гумором – JBO, Knorkator. Зі специфічним німецьким гумором.

Є фолк-метал In Extremo (метал з волинкою), Morgenstern (подібно), Saltatio Mortis…

Але окрім того є наприклад щось на зразок бароккової музики Die Streuner, Cuirina, Coppelius, Ougenweide

KRAFTWERK im Kiew 02

Є електронна музика – Kraftwerk (Sie ist ein Model und sie sieht gut aus – це Kraftwerk написали, а не Rammstein). Є щось середнє між електронною і хіп-хопом, хоча скоріше електронна – Werde:Erdball.

Є хіп-хоп. Die Fantastischen Vier, Tic tac toe, Falco.

Є наприклад поп – Nena (відома за 99 Luftballons, або Irgendwie, Irgendwo, Irgendwann (гарно звучить в кавері Кому Вниз)), 2-Raum Wohnung, Ich und Ich, Oktoberklub (соціалістичний-бардово-хоровий поп), Kraftklub.

І легше ніж повітря – шансон. Послухайте Annett Louisan. Наприклад пісня про кішку. Власне заради неї я цю публікацію написав. Щоб ви бачили що німецькою є щось зовсім протилежне до Rammstein. І цілий спектр найрізноманітнішої музики між ними.

Ах, я цілком впевнений що я пропустив ще щось гарне німецькою мовою, тому якщо знаєте що – підказуйте.

Written by bunyk

16 Травня, 2015 at 10:26

Опубліковано в Всяке

Tagged with ,