ИНОСТРАННОСТИ - главная страница

Информационно-аналитический дайджест о странах и иностранцах

ГЛАВНОЕ - ОБЩЕСТВО - ЗАКОНЫ - БИЗНЕС - ДЕНЬГИ - ОБУЧЕНИЕ - РАБОТА - НЕДВИЖИМОСТЬ - ТУРИЗМ
Здоровье - проПитание - Нравы - Культура - Спорт - Автомото - Технологии - Зоопарк - Происшествия

Иностранности - ТЕХНОЛОГИИ: НЕРАСПОЗНАВАЕМАЯ ВЕЧНОСТЬ


Реклама

ТЕХНОЛОГИИ


НЕРАСПОЗНАВАЕМАЯ ВЕЧНОСТЬ

Пока, правда, не создано такой компьютерной программы, которая смогла бы абсолютно самостоятельно распознать старинный текст без какого-либо вмешательства человека. Серьезно подводит, в частности, качество исходных книг. И здесь на помощь библиотекарям иногда приходят эксперты-криминалисты. Ведь опыт восстановления испорченных документов у них огромный.

Наступило время переводить все наслоения цивилизации в цифровой формат


Окончание. Начало материала:
ЦИФРОВАЯ ЦИВИЛИЗАЦИЯ

«Часто граждане обращаются для восстановления рукописных текстов, содержания оттисков печатей и штампов в трудовых книжках для начисления пенсий, когда текст в трудовой книжке почти невидим, а предприятие, на котором много лет назад работал человек уже не существует, - рассказывает Галина Колесникова, эксперт отдела криминалистических экспертиз и учетов УВД по Хабаровскому краю. - Иногда на исследование поступают документы военных лет, обожженные или залитые кровью, личные письма родственников, и экспертам удается восстановить их содержание».

Она рассказывает, как однажды к ним обратился погорелец: его дом и имущество полностью сгорели, уцелела только стеклянная банка, в которой он хранил свои сбережения, а в ней - комочек обугленных долларов. Экспертам удалось восстановить достоинство купюр, год выпуска и серийные номера.

Они даже могут восстановить текст, который, кажется, был безвозвратно утрачен. Например, удалось прочитать письмо, которое более 60 лет пролежало в кармане куртки военного летчика - его истребитель был сбит в 1942 году и обнаружен поисковым отрядом лишь два года назад. «Бумага письма сохранилась относительно хорошо, не была порвана, измята, не подверглась воздействию агрессивных сред. Но чернила, которыми был написан текст, стали почти полностью невидимыми, расплылись; даже при микроскопическом исследовании распознать текст письма было невозможно - буквы представляли собой синие пятна, - рассказывает Галина Колесникова. - Нашей задачей было отконтрастировать текст для его дальнейшего распознавания, не применяя при этом разрушающих методов».

Задача потребовала многих усилий: было проведено микроскопическое исследование, фотосъемка с различными светофильтрами, исследование при помощи видеоспектральных компараторов в различных режимах освещения, а затем кропотливое исследование с помощью программ графической обработки. Зато весь текст - пронзительное послание девушки о любви, нежности и надежде - удалось восстановить полностью!

И еще одну операцию пока не удается доверить компьютерной программе - вычитку распознанного текста. Ведь даже современный рекорд качества распознавания, о котором говорилось выше, предполагает, что четыре символа на странице были, возможно, определены неточно. С ними приходится работать корректорам - специалистам по древним языкам, а их труд дорог. Интересный подход решила применить корпорация IBM в международном проекте IMPACT: она задумала размещать тексты для распознавания в сети Интернет и затем применять веб-ориентированную технологию crowd computing. Слово crowd («толпа») говорит о том, что речь идет о привлечении через Сеть множества добровольных помощников - корректоров, работающих бесплатно.

Рассказывает Евгений Валах: «Наша система отслеживает возможность ошибок каждого конкретного человека. Ему периодически посылаются тестовые слова, буквы для распознавания, и мы получаем статистику ошибок для каждого волонтера. Следовательно, можем подбирать корректоров для каждого конкретного текста. Например, если человек делает один процент ошибок, мы отправляем текст еще двум другим корректорам, если процент ошибок больше, то трем корректорам, и так далее». С помощью такой процедуры можно достичь того уровня ошибок, который задан заказчиком, например 0,5 или 0,1 процента.

Эту систему коллективной корректуры специалисты IBM дополнили алгоритмами обучения компьютерной системы: они постоянно работают с веб-системой, разъясняя ошибки в распознавании текстов. Кроме того, система использует метод адаптивного расширения словаря: новые слова добавляются в основной словарь на базе кросс-идентификации и правки другими пользователями. И вот что важно, подчеркивает Евгений Валах, оцифрованные тексты просто выкладываются в Интернете, и это хорошо, потому что уже нельзя сказать: раз этого нет в Интернете, оно не существует.

Незаметно для нас Интернет обретает глубину, в нем формируются цифровые культурные слои цивилизации: исторические эпохи, словари и печатная продукция - документальные свидетельства тех эпох. Конечно, связать документы в единую ткань оцифрованной исторической эпохи еще только предстоит, но важный шаг уже сделан - технологии оцифровки есть и работают. Французы, немцы, англичане и разные прочие шведы заинтересованы в том, чтобы продемонстрировать свою роль в глобальных цивилизационных процессах. А как же мы со своими лучшими в мире технологиями?

Посмотрите, как представлена наша страна в Мировой цифровой библиотеке (World Digital Library, www.wdl.org), открытой весной 2009 года под эгидой ЮНЕСКО: «Журнал путешествия Лоренца Ланжа в Китай» (записки шведа, одного из первых европейцев, поступивших на службу к Петру Великому, который в 1715 году отправился в Китай в статусе особого представителя торговых интересов России), фотографии знаменитого Ферапонтова монастыря, что в Вологодской области, атлас Новосибирской области «По Ленину живем и строим», выпущенный к 100-летию со дня рождения вождя пролетариата.

Все это случайно оцифрованные осколки нашего российского культурного слоя, которые мы в отличие от европейцев даже не собираемся вшить в единую ткань исторических эпох. Может, пора вспомнить Александра Пушкина, сказавшего однажды: «Уважение к минувшему - вот черта, отличающая образованность от дикости».

Елена ПОКАТАЕВА.
«Итоги»

7/2/2011

ГЛАВНОЕ - ОБЩЕСТВО - ЗАКОНЫ - БИЗНЕС - ДЕНЬГИ - ОБУЧЕНИЕ - РАБОТА - НЕДВИЖИМОСТЬ - ТУРИЗМ
Здоровье - проПитание - Нравы - Культура - Спорт - Автомото - Технологии - Зоопарк - Происшествия

© «Иностранности» (2009-2019)

Редакция дайджеста | Реклама на сайте
Rambler's Top100