テキストの抽出「テキスト全文検索」をする方法と活用の仕方についてご紹介します。
目次 ▼クリックすると説明に移動します。
- テキストの抽出方法について
- AI-OCRとは
- Google Cloud Vision APIについて
- AI-OCRの使い方
- PDF(アウトライン化)から作成
- 画像から作成
- AI-OCRの検索結果
- テキスト全文検索
- 検索結果のハイライト表示
- テキスト表示モード
- 本棚検索
- ビジネス10で無料トライアル
テキストの抽出方法について
テキストの抽出方法は2つあります。
1)PDF内のテキスト情報(非アウトライン状態)から抽出
PDF内のテキスト情報からの抽出は、より正確な文字情報を検索対象とする事が可能です。
PDF内のテキスト情報を利用できる場合、こちらの方法をおすすめします。
2)AI-OCRを利用して抽出
画像内にある文字情報を可能な限り抽出する方法です。
PDF内にあるテキスト情報が利用できない場合(アウトライン状態)や、画像からブックを作成する場合はこちらの方法をおすすめします。
※ 写真内の文字等、意図しない文字列や順番で抽出される場合があります。
PDFからのテキスト抽出方法は次のFAQをご参照ください
基本のブック作成マニュアル「PDFから作成する場合」
AI-OCRとは
AI-OCRとは人工知能を活用した光学文字認識技術のことです。
ebook5のAI-OCRは「Google Cloud Vision API」を利用し、画像情報を解析することでテキスト情報を抽出します。
ebook5のAI-OCRについて
ブック作成用にアップロードされたPDFや画像データを読み取り、データ内の文字列をテキスト情報として抽出・保存します。
抽出・保存されたテキスト情報が検索対象となります。
Google Cloud Vision APIについて
Google Cloud Vision APIは、Google社が提供する画像解析サービスです。
画像に含まれるさまざまな情報を検出したり、画像を分類したりすることができます。
Google独自の機械学習モデルを採用し、OCRの精度は日々進化していきます。
※Google Cloud Vision APIに送信した画像をOCR以外の目的で利用することや、Google社のサーバーに保存されることはありません。
データ使用に関しての詳細はGoogle社の下記ページをご覧ください。
» データ使用に関するよくある質問
AI-OCRの使い方
AI-OCRは、ビジネス10/ビジネス30でご利用いただける機能です。
1)PDFを選択
はじめに「PDFからつくる」をクリックし、アップロードするPDFを選択します。
2)PDFのタイプを選択
アップロードするPDFのタイプ(単ページ・見開き・混合)を選択します。
3)画質を選択
ブックになる画像の画質(高画質・中画質・低画質)を選択します。
4)テキスト全文検索ON/OFFを選択
テキスト全文検索機能の有効・無効の選択をします。
※ ブック作成後に管理画面から変更可能。
新規作成「無効」で作成した場合、管理画面から「有効」に変更しても既存ページは「無効」状態のままです。設定を変更後、ページ追加や差し替えでPDFをアップロードしたページは「有効」となります。
5)AI-OCR
テキスト情報が利用てきない(アウトライン化されている)PDFの画像内にある文字情報を抽出したいときは「AI-OCR」を選択します。
テキスト情報が利用できるPDFの場合は「PDF」の方が、より正確な文字情報を検索対象とする事が可能です。
6)PDFダウンロード許可の有効/無効を選択
アップロードしたPDFのダウンロードを許可する・しないの選択をします。
有効にするとブックにダウンロードボタンが表示されます。
※ ブック作成後に管理画面から変更可能
7)背景を選択
ブックの背景になる背景色やパターンを選択します。
※ ブック作成後に管理画面から変更可能
ブック完成
データのアップロードが進行し、ブックを作成します。
ブックは「非公開」で完成されますので、内容を確認し「公開」して完成です。
1)画像を選択
はじめに「画像からつくる」をクリックし、アップロードする画像を選択します。
・Shiftキーを押しながら選択すると複数選択が可能
・左下の「もっと選ぶ」から画像の追加が可能
画像を選択したら「→」ボタンで画面を進めて、画像をアップロードします。
2)テキスト全文検索ON/OFFを選択
テキスト情報が利用てきない(アウトライン化されている)PDFからもテキスト検索が可能です。
PDFの画像内にある文字情報を抽出して検索対象にしたいときは「ON」を選択します。
3)AI-OCR
そのまま「AIテキスト生成」を利用して「→」で進みます。
4)PDFダウンロード許可の有効/無効を選択
アップロードした画像のダウンロードを許可する・しないの選択をします。
有効にするとブックにダウンロードボタンが表示されます。
※ ブック作成後に管理画面から変更可能
5)背景を選択
ブックの背景になる背景色やパターンを選択します。
※ ブック作成後に管理画面から変更可能
ブック完成
データのアップロードが進行し、ブックを作成します。
ブックは「非公開」で完成されますので、内容を確認し「公開」して完成です。
AI-OCRの検索結果
抽出されたテキスト情報は、次の検索結果の対象となります。
・テキスト全文検索
・検索結果のハイライト表示
・テキスト表示モード
・本棚でのキーワード検索
検索結果とテキスト表示モードについては次のFAQをご参照ください
テキスト全文検索とテキスト表示モード
ビジネス10で無料トライアル
AI-OCRはビジネス10で無料トライアルでもご利用可能です。
人工知能を活用し画像情報を解析することができるテキスト情報の抽出をお試しください。