html текст
All interests
  • All interests
  • Design
  • Food
  • Gadgets
  • Humor
  • News
  • Photo
  • Travel
  • Video
Click to see the next recommended page
Like it
Don't like
Add to Favorites

Вернулся невод с тиной морскою…

Года полтора назад я решил провести небольшой эксперимент. Цель была посмотреть на концентрированный новояз. Сделал я следующее:
1) Распарсил bash.im (тогда ещё bash.org.ru) и создал частотный словарь встречающихся там слов.
2) Распарсил Википедию и создал частотный словарь (точнее не совсем так, словарь Википедии у меня к тому моменту уже был, я его делал раньше для совсем других целей).
3) Рассортировал словарь Баша по встречаемости в порядке убывания, шёл по нему и печатал те слова, которые ни разу не встречались в Википедии.

В общем после всех приготовлений запустил я скрипт и приготовился увидеть современный слэнг во всей своей красе. Программа начала печатать…
Те, у кого нет аллергии на ненормативную лексику, могут пойти по ссылке и полюбоваться на начало полученного мной списка (никакой редактуры, публикую так как выдала программа):

Я предупредил!

Для тех, кто по ссылке не пошёл, скажу что я действительно получил много слэнга — одмин, сервак, комменты, фотик и т.д. Но ещё больше получил форсируемых арфогрофичиских ашыбок и мата.
Одно утешает — в русскоязычной Википедии этих слов всё-таки не было!

Приложение.

Так как статья всё-таки для программистов, я расскажу, как делать частотный словарь Википедии (если смогу отыскать исходники, приложу их к статье).
1) Качаем дамп русской википедии, последняя версия всегда лежит здесь — download.wikimedia.org/ruwiki/latest/ruwiki-latest-pages-articles.xml.bz2
2) Убираем все теги и оставляем голый текст при помощи вот этого питоновского скрипта, написанного товарищами из Италии — medialab.di.unipi.it/wiki/Wikipedia_Extractor записывая его по ходу дела в файлы удобного нам и нашей машине размера.
3) Для каждого файла делим текст используя в качестве разделителей всё, что не кириллица и не дефис (чтобы не поделить всякие кресла-качалки) и считаем токены (можно использовать collections.Counter из стандартной библиотеки Питона)
4) Сливаем получившиеся словари вместе.

Приложение 2

А вот собственно частотный словарь Википедии, делал его около двух лет назад.
Апдейт. Кол-во скачиваний превысило лимит дропбокса и ссылку заблокировали (вроде как временно), кладу ещё сюда — app.box.com/s/f33w8rlwo7dt1kejq7n1
Апдейт2. box уже тоже на грани… а у меня запарка жуткая… кто-нибудь, выложите ещё куда-нибудь, пожалуйста, а я сюда ссылку добавлю.
Апдейт3. Вот сюда залил, но пока не заходит, пишет «конвертируется» — docme.ru/DyD
С ним можно кучу всяких интересных вещей делать, например искать слова со всякими интересными свойствами (ну скажем «труднозаживляемый» — самое длинное слово русского языка в котором все буквы разные). Или скажем сделать генератор анаграмм. Впрочем об экспериментах со словарём постараюсь сделать отдельный пост.
Читать дальше
Twitter
Одноклассники
Мой Мир

материал с habrahabr.ru

3

      Add

      You can create thematic collections and keep, for instance, all recipes in one place so you will never lose them.

      No images found
      Previous Next 0 / 0
      500
      • Advertisement
      • Animals
      • Architecture
      • Art
      • Auto
      • Aviation
      • Books
      • Cartoons
      • Celebrities
      • Children
      • Culture
      • Design
      • Economics
      • Education
      • Entertainment
      • Fashion
      • Fitness
      • Food
      • Gadgets
      • Games
      • Health
      • History
      • Hobby
      • Humor
      • Interior
      • Moto
      • Movies
      • Music
      • Nature
      • News
      • Photo
      • Pictures
      • Politics
      • Psychology
      • Science
      • Society
      • Sport
      • Technology
      • Travel
      • Video
      • Weapons
      • Web
      • Work
        Submit
        Valid formats are JPG, PNG, GIF.
        Not more than 5 Мb, please.
        30
        surfingbird.ru/site/
        RSS format guidelines
        500
        • Advertisement
        • Animals
        • Architecture
        • Art
        • Auto
        • Aviation
        • Books
        • Cartoons
        • Celebrities
        • Children
        • Culture
        • Design
        • Economics
        • Education
        • Entertainment
        • Fashion
        • Fitness
        • Food
        • Gadgets
        • Games
        • Health
        • History
        • Hobby
        • Humor
        • Interior
        • Moto
        • Movies
        • Music
        • Nature
        • News
        • Photo
        • Pictures
        • Politics
        • Psychology
        • Science
        • Society
        • Sport
        • Technology
        • Travel
        • Video
        • Weapons
        • Web
        • Work

          Submit

          Thank you! Wait for moderation.

          Тебе это не нравится?

          You can block the domain, tag, user or channel, and we'll stop recommend it to you. You can always unblock them in your settings.

          • habrahabr.ru
          • домен habrahabr.ru

          Get a link

          Спасибо, твоя жалоба принята.

          Log on to Surfingbird

          Recover
          Sign up

          or

          Welcome to Surfingbird.com!

          You'll find thousands of interesting pages, photos, and videos inside.
          Join!

          • Personal
            recommendations

          • Stash
            interesting and useful stuff

          • Anywhere,
            anytime

          Do we already know you? Login or restore the password.

          Close

          Add to collection

             

            Facebook

            Ваш профиль на рассмотрении, обновите страницу через несколько секунд

            Facebook

            К сожалению, вы не попадаете под условия акции