Блоґ одного кібера

Історія хвороби контуженого інформаційним вибухом

Що б такого прочитати німецькою? (і невелика статистика)

leave a comment »

Задумався над цим питанням я ще давно, минулої зими. Щоправда так нічого більшого за Рапунцель так і не прочитав. На сайті мережі StackExchange було дуже популярне запитання на цю тему. Звідки я дізнався про такого письменника як Міхаель Енде. Після чого постійно почав зустрічати видання “Нескінченної історії” Видавництва Старого Лева, але мене так і не спокусиш, я спершу прочитаю її німецькою. Хотілось би ще прочитати його “Момо”, але ніяк не знайду німецький текст.

Критерії відбору літератури наступні:

  • Книжка повинна бути нескладною. Можливо дитячою. Хоча я чув, що “Маніфест комуністичної партії” теж нескладно написано, бо для пролетаріату. Треба буде додати в бібліотечку.
  • Книжка повинна захоплювати, затягувати і мотивувати читати далі. Всілякі детективи і фентезі в самий раз. Особливо щось на зразок Гаррі Поттера.
  • Я чомусь не бачу великого сенсу вивчаючи мову читати переклади, тому що такий самий текст існуватиме іншою мовою в кращій якості. І можливо ця мова англійська і нею ви зможете прочитати все набагато простіше та швидше. Хоча існує думка, що переклади теж простіше читати.

Далі я порахував скільки слів доведеться вивчити щоб читати певні книжки. В моїй бібліотеці набрались наступні файлики:

  • andersen.txt – Казки Андерсена
  • der_tod_in_venedig.txt – “Смерть у Венеції” Манна
  • klein_zaches.txt – “Крихітка Цахес” Гофмана
  • unendliche_geschichte.txt – “Нескінченна історія” Енде.

По них я зробив маленьку статистику, з якої дізнався цікаві речі.

Для того щоб розуміти більше половини тексту досить знати до двісті слів. Для 90% – біля трьох тисяч. В середньому книжка використовує 10000 різних слів.

І це все не враховуючи морфології! Ось вся статистика:


Слова які входять в 1000 найчастіше вживаних в КОЖНІЙ книжці (загалом 328):

Abend, Aber, Als, Art, Auch, Auf, Auge, Augen, Augenblick, Boden, Brust, Da,
Dann, Das, Der, Die, Ein, Ende, Er, Erde, Es, Fenster, Frau, Freude, Gedanken,
Gesicht, Haar, Hand, Herr, Herz, Himmel, Hände, Höhe, Ich, In, Ja, Kopf, Land,
Leben, Leib, Mann, Menschen, Mit, Mund, Mutter, Nacht, Nun, Platz, Rücken,
Seite, Seiten, Sie, So, Spiegel, Stadt, Stelle, Tage, Und, Was, Wasser, Weg,
Weise, Welt, Wie, Wort, Zeit, Zimmer, ab, aber, alle, allein, allen, alles,
als, alte, am, an, andere, auch, auf, aus, bald, begann, bei, beiden, beim,
bis, bleiben, blickte, blieb, da, dabei, damit, dann, daran, darauf, darin,
darüber, das, davon, dazu, daß, dem, den, denen, denn, der, des, dessen, die,
diese, diesem, diesen, dieser, dieses, doch, dort, drei, du, durch, durchaus,
eben, ein, eine, einem, einen, einer, eines, einige, einmal, endlich, er,
erblickte, erst, erste, ersten, es, etwas, fand, fest, fragte, fuhr, fühlte,
für, gab, ganz, ganze, ganzen, geben, gegen, gehen, gekommen, gerade, geschah,
gesehen, gewesen, gewiß, geworden, ging, gingen, gleich, große, großen, gut,
habe, haben, halten, hat, hatte, hatten, her, hervor, heute, hielt, hier, hin,
hinauf, hinein, hinter, hob, hätte, ich, ihm, ihn, ihnen, ihr, ihre, ihrem,
ihren, ihrer, im, immer, in, ins, ist, ja, jede, jetzt, kam, kann, kaum, kein,
keine, kleine, kleinen, kleiner, kommen, konnte, können, lag, lange, langen,
lassen, legte, leise, ließ, machen, machte, man, mehr, mein, mich, mit, morgen,
muß, mußte, müssen, nach, nahm, nehmen, neue, nicht, nichts, nie, nieder,
niemand, noch, nun, nur, ob, oder, oft, ohne, plötzlich, recht, rief, sagen,
sagte, sah, saß, schien, schlug, schon, schön, sehen, sehr, sei, sein, seine,
seinem, seinen, seiner, selbst, sich, sie, sind, so, sollte, sonst, sprach,
stand, stehen, still, tief, trat, trug, um, und, uns, unsere, unten, unter,
viel, voll, vom, von, vor, vorüber, wandte, war, waren, warf, was, weil, weit,
weiter, weiß, wenig, wenn, werde, werden, wie, wieder, will, wir, wird, wissen,
wo, wohl, wollen, wollte, wollten, worden, wurde, wurden, wußte, während,
würde, zog, zu, zum, zur, zurück, zusammen, zwar, zwei, zwischen, über 


books/andersen.txt
==================
Загалом слів: 55350
Різних слів: 7634
Слів для розуміння половини тексту: 116
Слів для розуміння 90% тексту: 2747

Слова з 100 найчастіше вживаних в кожній книжці,
що не входять до спільного списку (загалом 6):
alten, Gerda, --, Blumen, welche, mir


books/klein_zaches.txt
======================
Загалом слів: 35571
Різних слів: 7242
Слів для розуміння половини тексту: 142
Слів для розуміння 90% тексту: 3685

Слова з 100 найчастіше вживаних в кожній книжці,
що не входять до спільного списку (загалом 20):
Fürst, Prosper, mir, Balthasar, Alpanus, dich, Professor, Mosch, -, Kleinen,
Fräulein, Zinnober, Fabian, Minister, gar, Candida, lieber, fort, dir, Doktor


books/der_tod_in_venedig.txt
============================
Загалом слів: 25029
Різних слів: 7581
Слів для розуміння половини тексту: 185
Слів для розуміння 90% тексту: 5079

Слова з 100 найчастіше вживаних в кожній книжці,
що не входять до спільного списку (загалом 6):
Venedig, Tadzio, dachte, Aschenbach, Schönheit, seines


books/unendliche_geschichte.txt
===============================
Загалом слів: 116846
Різних слів: 12990
Слів для розуміння половини тексту: 124
Слів для розуміння 90% тексту: 3717

Слова з 100 найчастіше вживаних в кожній книжці,
що не входять до спільного списку (загалом 9):
mir, dich, -, Fuchur, Bastian, Atréju, Phantasien, dir, antwortete

Що ще цікаво – в книжках деякі частовживані слова не є частовживаними загалом. Якщо знайти такі слова – можна не читаючи дізнатись про що книжка. В “Нескінченній історії” бачимо що мова піде про Фантазію, Атрежу, Бастіана і Фухур. В “Смерті в Венеції” окрім венеції ще про Якогось Тадцьо. І там багато dachte (думають).

Якщо ви хочете й собі таку статистику – код на Gist. Що цікаво в тому коді – це collections.Counter, реалізація мультимножини в Python.

Advertisements

Written by bunyk

Серпень 11, 2013 at 18:12

Оприлюднено в Інструменти, Нещоденник

Tagged with , ,

Залишити відповідь

Заповніть поля нижче або авторизуйтесь клікнувши по іконці

Лого WordPress.com

Ви коментуєте, використовуючи свій обліковий запис WordPress.com. Log Out / Змінити )

Twitter picture

Ви коментуєте, використовуючи свій обліковий запис Twitter. Log Out / Змінити )

Facebook photo

Ви коментуєте, використовуючи свій обліковий запис Facebook. Log Out / Змінити )

Google+ photo

Ви коментуєте, використовуючи свій обліковий запис Google+. Log Out / Змінити )

З’єднання з %s

%d блогерам подобається це: