Новые технологии

Google учится распознавать отсканированный текст

Google учится распознавать отсканированный текстGoogle покрыл довольно много торфа во время марша к его цели создания каждого последнего бита доступной для поиска информации в мире. Но рассматривая всю основу, которая должна все же быть особенно покрыта в областях офлайновых данных и бумажных документов - мы не были удивлены, когда Google начал плескаться с технологиями оптического распознавания символов за последние годы. Теперь, гигант поиска официально начал свою следующую попытку обработать часть этого ранее недоступного для поиска информационного наполнения.

Google учится распознавать отсканированный текстКак объявлено на Официальном Блоге Google, компания теперь выполняет оптическое распознавание символов (OCR) на документах, которые потом индексирует и идентифицирует в PDF-формате. Google индексировал документы, которые изначально разрабатывались в PDF в течение достаточно долгого времени. Но появлется много отсканированных документов, которые хранят текст как изображения. Google теперь решил, что его открыто-исходная технология OCRopus, основанная на программном обеспечении "Tesseract", которое разработала HP, готова справиться с задачей индексации отсканированных документов, которые могут содержать любую смесь текста, изображений и пятен кофе.

"Представить в виде HTML" (View as HTML) от Google - весьма полезная особенность для этих документов, особенно если Вы хотите скопировать их часть. Тем не менее, любой текст, который Google в состоянии анализировать из изображений, внедренных в форматы PDF, такие как диаграммы или графы, также индексируется и доступен в HTML-виде.

Автор: Влад Кулиев
2.11.2008 (23:19)
Информер новостей
Расширение для Google Chrome
Пишите нам

Редакция: contact@supreme2.ru

Реклама: adv@supreme2.ru

Зеленые технологии

Лента новостей

Все права защищены © 2005-2024

"Supreme2.Ru" - новости для гиков

Контакты  | Policy  | Map Index

Использование любых материалов, размещенных на сайте, разрешается при условии ссылки на Supreme2.Ru. Для интернет-изданий - обязательна прямая открытая для поисковых систем гиперссылка. Ссылка должна быть размещена в независимости от полного либо частичного использования материалов. Материалы в рубрике "Новости партнеров" публикуются на правах рекламы.