Google учится распознавать отсканированный текст
Google покрыл довольно много торфа во время марша к его цели создания каждого последнего бита доступной для поиска информации в мире. Но рассматривая всю основу, которая должна все же быть особенно покрыта в областях офлайновых данных и бумажных документов - мы не были удивлены, когда Google начал плескаться с технологиями оптического распознавания символов за последние годы. Теперь, гигант поиска официально начал свою следующую попытку обработать часть этого ранее недоступного для поиска информационного наполнения.
Как объявлено на Официальном Блоге Google, компания теперь выполняет оптическое распознавание символов (OCR) на документах, которые потом индексирует и идентифицирует в PDF-формате. Google индексировал документы, которые изначально разрабатывались в PDF в течение достаточно долгого времени. Но появлется много отсканированных документов, которые хранят текст как изображения. Google теперь решил, что его открыто-исходная технология OCRopus, основанная на программном обеспечении "Tesseract", которое разработала HP, готова справиться с задачей индексации отсканированных документов, которые могут содержать любую смесь текста, изображений и пятен кофе.
"Представить в виде HTML" (View as HTML) от Google - весьма полезная особенность для этих документов, особенно если Вы хотите скопировать их часть. Тем не менее, любой текст, который Google в состоянии анализировать из изображений, внедренных в форматы PDF, такие как диаграммы или графы, также индексируется и доступен в HTML-виде.
Читайте также
- Intel Thunderbolt стукнуло 10 лет, за которые универсальный интерфейс прошёл большой путь развития
- Мощнейшие вспышки в системе Проксима Центавра: как умирала надежда
- LG представила портативный проектор CineBeam PH510PG — картинка диагональю до 100 дюймов с HD-разрешением
- Мотоциклы будущего: все ради аэродинамики
- Создан юркий и практичный бот для изучения океана без вреда для животных
- Игровой смартфон Nubia Red Magic 6 Pro получит сенсорные курки по бокам и дисплей с рекордной частотой 165 Гц