Поиск по сообщениям в этом блоге

Loading

вторник, 1 марта 2011 г.

Оптическое распознавание символов (OCR) в Google Docs на 34 языках

В Google Docs дополнительно к пяти ранее введенным с июня 2010 года языкам (английскому, французскому, итальянскому, немецкому и испанскому), для которых возможно оптическое распознавание символов (OCR), были добавлены еще 29 языков.

На сегодняшний день перечень языков с поддержкой оптического распознавания символов в Google Docs состоит из следующих тридцати четырех:
• английский
• болгарский
• венгерский
• вьетнамский
• голландский
• греческий
• датский
• индонезийский
• испанский
• итальянский
• каталанский
• китайский (упрощенный)
• корейский
• латышский
• литовский
• немецкий
• норвежский
• польский
• португальский
• румынский
• русский
• сербский
• словацкий
• словенский
• тайский
• турецкий
• украинский
• филиппинский
• финский
• французский
• хорватский
• чешский
• шведский
• японский

Для использования функции распознавания символов в изображениях и PDF-файлах в Google Docs при их загрузке необходимо отметить в чекбоксе опцию "Преобразовывать текст из PDF-файлов или изображений в формат Документов Google", затем выбрать нужный язык документа из раскрывающегося меню и произвести загрузку для обработки.


Стоит особо отметить, что, вероятно, на сегодняшний день это единственный онлайн OCR-сервис распознавания таких символов, как китайские иероглифы, тайские буквы и некоторые другие (к сожалению, пока не хватает арабского языка и других наиболее актуальных и достаточно распространенных). Как известно, основное и главное преимущество облачного онлайн-сервиса в том, что для использования его функций не требуется установка ПО на компьютер пользователя.

Одним из недостатков использования online OCR в сервисе Google Docs пока все так же остается отсутствие удобных инструментов управления данной функцией (например, отсутствие таких возможностей как распознавание многоязычного текста, использования OCR для уже загруженных ранее документов или изменения языка после загрузки документа и т. д.). Тем не менее, распознанный текст можно сразу и перевести, используя через меню Инструменты интегрированную в сервис функцию перевода без необходимости копирования и вставки текста в Google Translate или Google Translator Toolkit (хотя в последнем имеется более богатый инструментарий).

Google обещает продолжать добавлять дополнительные языки в OCR-сервис и при этом повышать скорость и качество распознавания символов для уже существующих.


Отправлено пользователелем Anonymous через Google Reader:

источник: Docs Blog, Автор: Google Docs, дата: 28.02.11

Last June, we introduced the ability to upload documents into Google Docs using Optical Character Recognition (OCR). OCR analyzes images and PDF files, typically produced by a scanner (or the camera of a mobile phone), extracts text and some formatting and allows you to edit the document in Google Docs.

We've gotten a lot of feedback on this feature, and one of the biggest requests was to add support for additional languages. Today, we're happy to announce that we've added support for 29 additional character sets, including those used in most European languages, Russian, Chinese Simplified and some other Asian languages. See the upload page for the full list.

How does it work? When uploading your images and PDF files using Google Docs, tell us what language your documents are in:


Hit upload, and we'll use this information to search for the right characters in your file. As usual, you will get best results with sharp, high-resolution images or PDF files. This update will also result in an improvement in OCR quality for languages that we've supported previously (English, French, Italian, German, Spanish). We've also made improvements to the way we import formatting from your documents, and are now doing a better job in preserving font and alignment information.


We'll keep adding languages and at at the same time will continue to improve speed and accuracy for the existing ones. In the meantime, we hope you take advantage of this new way to import your data into Google Docs.

Posted by Jaron Schaeffer, Software Engineer

Здесь вы можете: