Google учится распознавать отсканированный текст
Google покрыл довольно много торфа во время марша к его цели создания каждого последнего бита доступной для поиска информации в мире. Но рассматривая всю основу, которая должна все же быть особенно покрыта в областях офлайновых данных и бумажных документов - мы не были удивлены, когда Google начал плескаться с технологиями оптического распознавания символов за последние годы. Теперь, гигант поиска официально начал свою следующую попытку обработать часть этого ранее недоступного для поиска информационного наполнения.
Как объявлено на Официальном Блоге Google, компания теперь выполняет оптическое распознавание символов (OCR) на документах, которые потом индексирует и идентифицирует в PDF-формате. Google индексировал документы, которые изначально разрабатывались в PDF в течение достаточно долгого времени. Но появлется много отсканированных документов, которые хранят текст как изображения. Google теперь решил, что его открыто-исходная технология OCRopus, основанная на программном обеспечении "Tesseract", которое разработала HP, готова справиться с задачей индексации отсканированных документов, которые могут содержать любую смесь текста, изображений и пятен кофе.
"Представить в виде HTML" (View as HTML) от Google - весьма полезная особенность для этих документов, особенно если Вы хотите скопировать их часть. Тем не менее, любой текст, который Google в состоянии анализировать из изображений, внедренных в форматы PDF, такие как диаграммы или графы, также индексируется и доступен в HTML-виде.
Читайте также
- Xiaomi представила маршрутизатор Redmi Router AX5400 с чипом Qualcomm
- Western Digital повысила цены на флеш-память NAND — это следствие загрязнения производства в январе
- 4 вида вооружения, которые отправили в Европу из-за Украины, но никогда не испытывали в деле
- Twitter позволит вешать ярлыки на ботов, чтобы люди могли отличать их от живых пользователей
- Найдена загадочная "невидимая" черная дыра: космическая аномалия
- Новая статья: Обзор игрового 4K-монитора ASUS TUF Gaming VG28UQL1A: лучше поздно, чем никогда