XML based Fast Search

XMLデータをデータベースに入れずに、そのまま検索エンジンに かけることで超高速検索を実現

従来のデータベースを利用するときの問題点は、最初に形式をきちんと決めて設計しないといけないということです。実際の完成したシステムに手を加えるのにも非常にコストがかかります。そして、データベースに格納するデータがどんどん増えていくと、パフォーマンスがどんどん低下していってしまうという問題も起こります。ローコストXML基盤の次世代データベース技術は、全てのデータをXMLに変換し、そのままインテッ クスするシステムです。保存したデータ全体を高速で全文検索が可能です。ここで成される次世代データベースは、人工知能がアクセスするこ とを想定しており、既存のデータベースに比べて、ローコストで構築することができ、メンテナンスコストも抑えることができます。

XMLベースの高速検索技術

XMLベースの高速検索技術の最大の特徴は、データをXML形式で持っている点にあります。RDBにデータを持った場合よりも高速に検索ができるよう工夫しており、複数のキーワードで検索した場合のヒット精度も向上しています。この秘密は、検索キーワードの組み合わせを部分的に「and」にしたり「or」にしたりする機能を検索エンジンに実装していることによります。加えて、判例データの中身を様々なカテゴリーごとにタグ付けすることで、検索エンジンの性能を補っています。

dBengosi.comのキーワード重要度設定画面

このおかげで、キーワードを10個以上入力しても、しっかり検索結果を出せるようなシステムに仕上げることができます。さらに複数のキーワードを入力した際には、キーワードごとに重要度のパーセンテージを設定できる機能も備えており、自分が求めるデータをより探しやすくなっています。
 
では、同様の仕組みをRDBで作ってみたらどうなるでしょうか。実は、RDBでこの仕組みを実装しようとするとハードウエア面で非常に高いパフォーマンスが必要となり、必然的にコストも跳ね上がるという弊害が起きてしまいます。つまり、XMLだからこそ容易に実現できる仕組みというわけです。

検索スピード約20倍という高速処理が可能

XMLを採用したことで、既存のシステムと比べてコストは数十分の一から数百分の一程度で済む。検索スピードも1000回テストの平均応答時間で約20倍という高速処理が可能です。さらに、法令・判例データが増えてデータ量が10倍になったとしても、XMLでデータを持っていれば、検索時間が単純に10倍になるということはなく、それよりも早い時間で検索が可能になります。一方、RDBでは逆に10倍以上の時間がかかってしまう可能性もあるだけに、XMLでデータを持つことはとても重要なポイントだと考えています。

※ 1000回テストの平均応答時間