Артур Скальский

© Би-Би-Си

ИнтернетМир

2692

19.08.2008, 15:04

Программы против спама помогут "отцифровать" книги

Компьютерные программы, защищающие от спама, сделали возможным с большей точностью перевести в электронную форму старинные книги и другие письменные источники.

Получить доступ ко многим сайтам можно лишь зарегистрировавшись на них, предварительно напечатав в специальном окошке набор символов, представленных в виде причудливой картинки. Владельцы интернет-ресурсов идут на это для противодействия натиску спам-сообщений.

Сейчас многие сайты вместо невнятной абракадабры используют для этих целей тексты из старинных письменных источников, которые были отсканированы и но не распознаны.

Куски текста, которые программы распознавания текста не осилили, как раз и предлагается расшифровать интернет-пользователям.

С учетом того, что около 100 млн. пользователей в день доказывают таким образом, что они не роботы, получается довольно внушительная армия потенциальных дешифровальщиков.

Объем нечитаемых слов в некоторых старинных документах может доходить до 20% из-за пожелтевшей бумаги или выцветших чернил.

Предельная точность

Специалисты из американского университета Карнеги-Меллон разработали систему под названием Recaptcha, которая собирает фрагменты сканированного текста, не поддавшиеся компьютерной программе, и затем рассылает их сайтам, которые подписаны на эту услугу.

Вместе с буквами, которые компьютер не узнал после сканирования, высылается и слово, уже внесенное в систему. Правильно распознав второе слово, пользователь получает доступ к сайту, а расшифровка первого слова дополняет базу данных, после того, как будет получено несколько подтверждающих ответов.

В материале, опубликованном в журнале Science, говорится, что такой подход позволяет добиться почти стопроцентной точности, что превосходит требования архивариусов.

В настоящее время около 40 тыс. сайтов предлагают своим пользователям решить такие простенькие задачки, и получают в день около 4 млн. ответов.

В прошлом году таким образом удалось расшифровать 440 млн. слов и перевести в цифровую форму весь архив газеты New York Times с 1908 года.

Артур Скальский

© Би-Би-Си

ИнтернетМир

2692

19.08.2008, 15:04

URL: https://www.babr24.net/?ADE=47073

Bytes: 2046 / 2039

Версия для печати

Скачать PDF

Поделиться в соцсетях:

Также читайте эксклюзивную информацию в соцсетях:
- Телеграм
- ВКонтакте

Связаться с редакцией Бабра:
[email protected]

Последние новости

01.08 20:59
Депутата Гусиноозерска лишили полномочий из-за утраты доверия

01.08 19:06
Проректора КрасГМУ Михаила Кулешко арестовали по делу о хищении премий сотрудников

01.08 18:57
Иномарка опрокинулась в Тункинском районе Бурятии. Один человек погиб, еще трое в больнице

01.08 18:21
Минздрав Красноярского края засудили за перебои с жизненно необходимыми лекарствами для ребенка

01.08 17:55
В Новосибирске мужчина пойдет под суд за незаконные валютные операции

01.08 17:28
Часть домов Ленинского района Томска останется без холодной воды в ночь с 1 на 2 августа

01.08 17:14
Трое детей с травмами глаз поступили за три дня в Ивано-Матрёнинскую детскую больницу

01.08 17:13
Экспорт мороженого из Сибири, в том числе из Томской области, растёт

01.08 16:55
Компании из Томской области реже берут займы из-за жёстких условий кредитования

01.08 16:34
Томича оштрафовали на пять тысяч за нарушение правил благоустройства

Лица Сибири

Дронов Михаил

Усов Леонид

Миронов Николай

Снарский Александр

Тарабан Наталья

Гришин Сергей

Мезенин Сергей

Пушкарев Иван

Полосин Андрей

Басюк Виктор