全文検索とは?実は使える検索エンジンの便利機能
カテゴリ:技術課題・解決法
全文検索とは、文書ファイルや各種データの中身において、先頭から末尾までのテキスト全てを検索の対象とする検索方法のこと。
普段何気なく利用するシステムやサービスに使われている検索機能ですが、実はこの全文検索に対応しているかどうかは、具体的にそのシステムやサービスが利用する検索エンジンに依存しているのです。
ひょっとしたら過去に検索したけど思うような結果が出なかったという場合、この全文検索に対応した検索エンジンを搭載していないシステムやサービスを利用しているのかもしれません。必要とする情報や業務内容次第では致命的にもなりえるので、ぜひ注意したいところです。
この記事では、
- 全文検索とは何か
- 全文検索がないと困る業務例
- 全文検索システムを手軽に導入する方法
についてご紹介します。
- エンタープライズサーチ「Neuron ES」紹介動画
- エンタープライズサーチ「Neuron ES」は、企業内に点在する資料やデータの保存場所を意識することなく、素早く欲しいファイルが検索できる企業内検索システムです。本動画は「Neuron ES」の概要や各機能紹介、導入効果をご紹介する「Neuron ES」をクイックにご理解いただけるコンテンツです。ぜひご視聴くださいませ。
全文検索とは
全文検索(full-text search)とは、文書ファイルや各種データの中身において、先頭から末尾までのテキスト全てを検索の対象とする検索方法です。
全文検索では、検索語句が文書中のどこに存在(ファイル名や本文中など)していても、検索対象になるため、膨大なデータから漏れなく情報を探したいケースはもちろん、思わぬ情報の発見に繋がるなどといったケースもあるようです。
製品やサービスによっては全文検索に対応していない
昨今は業務のデジタル化が急速に進み、文書データの管理だけでなく、売上管理や顧客管理、チャットやグループウェアなど様々なITサービスを利用しながら仕事を行うのも一般的となってきました。またそれらにはほぼ必ずと言っていいほど検索機能が備わっており、普段の業務で利用することもあるでしょう。
しかし利用する業務システムやITツールによっては、文書ファイルの途中まで(◯万文字以内、◯KBまでが対象範囲など)しか検索対象としない、あるいは一定のファイルサイズを超えたものは最初から検索対象から外してしまうなど様々な仕様を持っています。
情報を漏れなく探さなければならない業務において、こうした全文検索への対応有無・対応範囲は、時として業務に致命的な結果をもたらす場合があります。(顧客対応における過去履歴の参照や研究・調査等におけるデータ活用など)
こうした業務を行う場合は、検索機能を利用するシステムやサービスの検索エンジンが仕様として、全文検索に対応しているかどうかサービス提供者に確認すると良いでしょう。
ファイルサーバやクラウドストレージの検索精度もまちまち
特に社内で情報収集する際によく利用するものとして、デジタルデータが大量に保管された「ファイルサーバ」や「クラウドストレージ」などを思い浮かべる人もいると思います。
こうしたファイルサーバやクラウドストレージも、実は標準の検索エンジンでは全文検索に対応していないなどの仕様を持つケースも珍しくありません。
特に漏れなく情報を探さなければならない業務などの場合は、各ストレージの全文検索対応状況を調べてから検索するようにしてください。
自社内のファイルサーバの場合は、標準では全文検索に対応していないケースがほとんどですが、全文検索に対応するための何かしらの対策(ファイルサーバにおける全文検索対応システムなどの導入)を講じている場合は別となるので、自社の情報システム部門の担当者などに状況を確認すると良いでしょう。
エンタープライズサーチで各種ストレージの全文検索を解決
弊社が提供する「Neuron ES」は、ファイルサーバはもちろん、主要なクラウドストレージの全文検索に対応した企業内検索エンジンです。
各ストレージに特別なシステムを構築することなく、しかも既存の閲覧権限をActiveDirectryでのユーザー認証によってそのまま受け継ぐことができるため、安心してお使い頂けます。
さらにオンプレミスのファイルサーバはもちろん、各種クラウドストレージ(SharePoint OnlineやBoxなど)と併せて一括で横断的に検索できるため、普段の情報収集においても欲しい資料やデータをすぐに見つけ出すことが可能です。
全文検索によって漏れなく情報やデータを検索したい場合はもちろん、思わぬ情報の発見にも繋がる「Neuron ES」。ファイルサーバやクラウドストレージの全文検索にお悩みの方はぜひ一度ご相談ください。
> (参考記事)エンタープライズサーチとは?主な機能や導入メリット・活用事例を解説
全文検索ができない検索エンジンだとどうして困るのか?
「全文検索機能がなくても特に困っていないよ」という方でも、実は困っていることにまだ気付いていないだけかもしれません。
情報の欠落が致命傷になりかねない業務もあるでしょう。全文検索を使えないと困るケースとしては、例えば次のような場面が考えられます。
過去の全データを基にした分析作業
検索エンジンが全文検索に対応していなければ、分析対象となるデータの抽出は不完全なものとなってしまいます。そのようなデータを基に正確な分析作業を行うことで本来とは異なる分析結果が出てしまう可能性が生まれます。
顧客対応における履歴情報の確認
顧客とのやり取りや取引履歴は、取引開始時から最新の状況までの全てを確認できるようにしておきたいものです。
過去の取引履歴が全て見られなかったばかりに「大事なことだから最初に言っておいたのに」などと顧客からクレームへと繋がってしまうなどの恐れもあります。
過去にさかのぼってデータが「ない」ことを確認したい
社内に「その情報は存在しない」という情報が必要となるケースもあるでしょう。しかし「ない」ことの証明は非常に難しいのです。
もし全文検索に対応していない場合、全てのファイルを人の手と目で見直さなければなりません。全文検索では、全てのファイルを先頭行から最終行まで漏れなく確認するため、その情報が存在しないことも簡単に確認できます。
情報を漏れなく探し出す必要のない業務においては、特に必要性を感じない「全文検索」ですが、上記のようなシーンにおいては時としてマストな検索機能となるでしょう。
では最後に、全文検索の技術的な仕組みについて解説し終わりたいと思います。
【予備知識】全文検索エンジンの検索技術
一般的な検索エンジンは、どのような仕組みで全文検索を行っているのでしょうか。
ここでは全文検索の検索技術について簡単に解説します。
全文検索エンジンはgrep型と索引型の大きく2つ
全文検索の技術は大きく分けて「grep型」と「索引型」の2つの手法が存在しています。
grep型は全体を端から端まで検索することで、索引型は索引(インデックス)をつけて情報を探すものです。
ビジネスシーンにおける全文検索では、検索の際に毎回全てのデータを端から端まで検索するのは膨大な時間がかかってしまい現実的ではないため、索引型が用いられています。
grep型
検索する範囲の端から端まで、全部を検索して情報を探すもので、逐次検索とも言います。比較的小規模な範囲での全文検索に向いています。
・メリット
前処理など事前準備は不要で、すぐ検索できる。
・デメリット
検索範囲が広いほど検索にかかる時間が増加してしまう。
索引型
検索対象となる情報に、索引情報(インデックス)をつけておくことで、素早く検索できるようにする方法です。中規模〜大規模な全文検索に威力を発揮します。
・メリット
膨大な量の情報も素早く検索できる。
・デメリット
索引の構築に時間がかかってしまう。
索引情報(インデックス)方式は大きく3つ
そして索引型の中でも、索引の付け方として大きく3つに分けられます。
・形態素解析
・N-gram
・ハイブリッド方式
それぞれについて見てみましょう。
形態素解析方式
あらかじめ用意した辞書に従い、文法的に意味のある単位で単語を分割して、それをもとにインデックスを生成する方式のこと。
単語の意味を汲んでインデックスしているので、検索ノイズ(検索者が求めていないのに、検索結果に含まれてしまう情報)は少なくなります。
辞書によっては本来は1単語になる固有名詞が複数に分割されてしまったり、固有名詞を1単語で登録することで不都合が生じることも。
例えば「全文検索技術」という単語を形態素解析方式でインデックスした場合、「全文検索」「技術」と分解してインデックスしていると、「検索技術」で検索してもヒットしない。あるいは「全文検索技術」を1単語としてインデックスしていると「検索技術」で検索してもヒットしないといったケースがあります。
・メリット
検索ノイズが少ない
検索速度は比較的速い
・デメリット
辞書の性能によっては検索漏れが生じてしまう
辞書のメンテナンス、インデックス再生成が必要
N-gram方式
任意の文字数で分解して、インデックスを生成する方式です。「N=文字数」で、「N=2」の場合2文字ごとに区切ります。
N=1はユニグラム( uni-gram)、N=2はバイグラム( bi-gram)、N=3はトライグラム(tri-gram)と呼びます。
たとえば「新東京国際空港」という安吾をN=2のバイグラムでインデックスを作成する場合、意味は無視して「新東」「東京」「京国」「国際」「際空」「空港」と2文字ずつ分割してインデックスします。
検索者が入力した検索語も同じように分割し、AND検索をします。「国際空港」と入力した場合「国際」「際空」「空港」で検索されるため、検索漏れが生じることはありません。
しかし「東京都」と検索しているのに「京都」がヒットしてしまうなど、検索ノイズ(検索者が求めているのに、検索結果に含まれない情報)が発生します。
・メリット
検索漏れがない
・デメリット
検索結果にノイズが入りやすい
インデックスのデータが大きくなる
形態素解析より検索速度が遅い
二つを組み合わせたハイブリット方式
ハイブリット方式は、形態素解析方式の検索ノイズが入りにくいというメリットと、検索漏れが発生しないというN-gram方式のメリットを併せ持った方式です。
両者の検索結果をマージ(混合)して表示させます。その際に形態素解析方式で得られた結果を優先的に表示することで、検索者はN-gram方式で発生してしまう検索ノイズを意識せずに済みます。
・メリット
検索漏れが起きにくい
検索結果の上位にノイズが入りにくい
システム辞書のメンテナンスは基本的に不要
弊社が提供するエンタープライズサーチ「Neuron ES」もこのハイブリット方式を採用しています。
まとめ
さて今回は検索機能における「全文検索」についてお話しました。
全文検索により企業内やクラウドに散在している多種多彩な情報を漏れなく探し出すことできます。しかし、製品やサービスによっては全文検索に対応していない検索エンジンが採用されているケースも存在します。
ファイルサーバやクラウドストレージなどの分野においては、弊社が提供する「Neuron ES」を導入することで、ストレージサービス標準の検索エンジンが全文検索を採用していなくても全文検索に対応させることが可能です。
> エンタープライズサーチとは?主な機能や導入メリット・活用事例を解説
- エンタープライズサーチ「Neuron ES」紹介動画
- エンタープライズサーチ「Neuron ES」は、企業内に点在する資料やデータの保存場所を意識することなく、素早く欲しいファイルが検索できる企業内検索システムです。本動画は「Neuron ES」の概要や各機能紹介、導入効果をご紹介する「Neuron ES」をクイックにご理解いただけるコンテンツです。ぜひご視聴くださいませ。
\ 企業におけるデータ活用の最新情報をお届け /
弊社ブレインズテクノロジーでは、企業におけるデータ活用の最新情報として下記のようなお役立ち情報を毎月定期的に発信しております。
・企業における情報管理・情報共有の実態調査
・従業員の働き方やデータ活用に関するテーマ
・ナレッジマネジメントに関する課題や解決法 など
メールアドレスの登録のみで無料にて情報をお届けいたします。配信の解除もいつでも可能です。ぜひご登録ください!
※弊社個人情報の取り扱いに同意頂いた上でご登録ください。