Блоґ одного кібера

Історія хвороби контуженого інформаційним вибухом

Posts Tagged ‘Курсова

Стохастичний метод оцінки словникового запасу (ідея для диплому)

leave a comment »

Ідея для диплому зі статистики. Або з якоїсь там лінгвістики. Власне я опишу лише задачу, тому що прибираю на столі, і цей листочок пора викинути. Тому що часу на її розв’язання я не маю. Але буду радий якщо хтось захопиться ідеєю і втілить.

Суть задачі в наступному. Ми хочемо оцінити скільки слів певної мови людина знає. Єдиний тест, який дасть 100% точні результати – взяти словник, і питати людину кожне слово. Тільки от біда, що для цього тесту потрібно часу більше ніж будь-хто захоче витратити. Тому кількість слів про які ми питаємо варто суттєво зменшити.

Якщо ми даємо користувачу питання чи знає він певне слово, і він відповідає “так”, ми можемо сказати що розподіл ймовірностей щодо кількості слів що він знає більший за певний, а якщо “ні” – менший за певний.

Тепер, нехай у нас є частотний словник. Маючи частоти для слів, ми знаємо ймовірність того що випадково обране в тексті слово – це слово w = p_w. І нехай, якщо користувач знає слово w, то всі слова що йшли в тексті до нього він теж знає. Скільки слів він прочитав? Ймовірність того що лише одне w – p_w, одне крім w – (1-p_w) p_w. N крім w – (1 - p_w)^N p_w. Розподіл Пуассона, якщо я не помиляюсь.

Інше питання – яка залежність між кількістю слів певного тексту, які людина читає і кількістю різних слів серед них? Якщо слово одне, то 1. Якщо два різні – теж 1, а два однакові – \frac{1}{2}. Три – 1, \frac{2}{3}, \frac{1}{3}….

Ах, і якщо хто хоче зайнятись цим, або іншим проектом пов’язаним з комп’ютерною лінгвістикою – можу допомогти вам отримати корпус текстів вікіпедії, звертайтесь.

Для англійської вже є такий тест: http://testyourvocab.com/. деталі його функціонування.

Advertisements

Written by bunyk

Листопад 4, 2013 at 01:04

Весна

with 5 comments

Зараз спробую зекономити час на багаторазові відповіді на запитання “як справи?” і куди я подівся.
Прочитати решту цього запису »

Written by bunyk

Травень 20, 2012 at 17:18

Оприлюднено в Нещоденник

Tagged with , , ,

Користувач має науковий ступінь бакалавра наук

with 5 comments

Ура!

– Скільки?
– Вже два дні. (Хоча здається всі хочуть знати оцінку).

Я як зазвичай сподівався на трійку. Вийшло п’ять. Комісія питала чи в мене вийшов Продукт. Я чесно признався що до продукту моїй купі коду ще дуже далеко. Сказали аби продовжував розробку. Приємно що їм здалось ніби це не мені одному треба.

Останній комміт перед роздруківкою.

А от сам текст дипломної. Який я правда ще так і не читав нормально ні разу. 50 сторінок без жодного автоперекладу (а не те що в декого 😛 ) і без коду. (Звісно була купа копіпасти з вікіпедії, в якій я чесно зізнався в бібліографії).

Прочитати решту цього запису »

Written by bunyk

Червень 26, 2011 at 00:10

Шаблон курсової/дипломної для кубика

with 5 comments

Підтримуючи цьогорічну моду, і нарешті реалізуючи минулорічні плани, я нарешті зробив шаблон курсової в стилі “тільки додай води” (змісту в сенсі). Можливо комусь згодиться.

Стандарти правда дотримані не до кінця, мої побажання теж. Але з допомогою добрих людей вийшло краще ніж минулого разу.

Зразок (pdf)

Так як wordpress не хоче аби в нього грузили всякі zip-архіви які можуть містити чорт-зна що, картинка окремо (її то в вимогах до оформлення не згадують, але ж гарно), зразок pdf окремо, а код вставлений прямо в пост (нижче).

Якщо код який ви будете вставляти в текст міститиме кирилицю – краще вставляйте його через verbatim (тільки слідкуйте аби не було довгих рядків). Якщо ж кирилиці не буде – не буде ніяких проблем, використовуйте середовище lstlisting.
Прочитати решту цього запису »

Written by bunyk

Червень 20, 2011 at 16:46

Оприлюднено в Конспекти, Розмітка

Tagged with ,

Дипломна робота

with 10 comments

Як сьогодні виявилось – завтра попередній захист. А все що в мене є – це лиш:

  1. Як написати плагін до Gedit?
  2. Створення власного вікібота
  3. Mercurial хостинг на Google Code
  4. Yet another lame implementation
  5. Кольоровий вивід у термінал
  6. Лексичний аналіз в Python
  7. Що таке мікроформати?
  8. Wiki to wordpress
  9. Персистентий dictionary на sqlite
  10. Тикаємо Freebase
  11. Продовжуємо спілкування з Freebase
  12. Сутнісний словник
  13. Словник транслітерації імен

Добре що захист лиш через місяць. Зможу якось то все оформити і розпечатати. І дописати ще десь 20 розділів які упущені.

І ще, вичитав тут недавно:

У більшості країн світу ступінь бакалавр це — повноцінна, закінчена базова вища освіта, або повна закінчена вища освіта в залежності від країни. В Україні та країнах колишнього СРСР ступінь «бакалавр» з’явився тільки після розпаду СРСР і присутня часто помилкова думка про те що ступінь «бакалавр» це неповноцінна або навіть незакінчена вища освіта, але це помилкова думка. Ступінь бакалавр:

  • Це повноцінна, закінчена базова вища освіта.
  • Це не рівень технікуму, технікум не має права видавати диплом «бакалавра».
  • Бакалавр має право при працевлаштуванні займати ті посади, які передбачають наявність вищої освіти відповідно до їх кваліфікаційних вимог.

Якщо порівнювати ступінь «бакалавра» з ступенем магістра, то у магістра більше привілеїв у викладацькій і науковій діяльності. У зв’язку з правилами участі в Болонському процесі, ступінь — спеціаліст (найпоширеніший в СРСР) з 2009 року остаточно припинив своє існування.

Все так серйозно, а я все ще навіть не знаю як працює двоїстий симплекс-метод. Навіть просто симплекс-метод вже забув… 😦

Written by bunyk

Травень 24, 2011 at 23:34

Оприлюднено в Нещоденник

Tagged with , ,

Сутнісний словник

with 9 comments

Вікіпедія – не словник. Правило вікіпедії.

Ігноруйте усі правила. Ще одне правило.

Я вже напевне кілька разів про це згадував, але сьогодні таки оформлю окремою заміткою. Проблема звичайних двомовних словників в тому, що вони намагаються встановити зв’язки між словами в різних мовах. А це досить важко зробити, і встановлюється зв’язок багато до багато. Перекладачу доводиться вибирати одне з можливих слів, як варіант перекладу.

Схема двомовного словника

Статті вікіпедії містять інформацію не про слова. Вони містять інформацію про певні сутності, якщо це так можна назвати. Назва сутності міститься в заголовку статті. Окрім цього є альтернативні назви, з яких створюють перенаправлення. Маємо множину назв для однієї сутності, серед яких можна виділити канонічну – назву статті, на яку й посилаються всі інші.

Окрім цього, стаття містить посилання на всі статті іншими мовами, а ті в свою чергу так само. Загалом, це можна представити такою схемою:
Прочитати решту цього запису »

Written by bunyk

Квітень 6, 2011 at 21:26

Нечітка логіка і захист курсових

leave a comment »

Спочатку трохи моїх розмірковувань про чорне і біле

Відомо, що математика відрізняється від життя тим, що вивчає ідеальні речі, які зазвичай не існують в нашому світі. Моделі скажемо так.

Вікіпедія каже, що логіка – це наука про форми та закони судження. А матлогіка вивчає математичні теорії, їх несуперечливість, та повноту. І в класичній логіці все чітко, і детерміновано – предикат або правильний або ні. Елемент або належить множині, або не належить. Це сама основа математики.

Але є ще нечіткі множини. Небо сильно належить множині голубих об’єктів, а при заході трохи належить множині рожевих. (Про захист курсових на цю тему читайте трохи нижче).
Прочитати решту цього запису »

Written by bunyk

Червень 2, 2010 at 21:17