BoxWorks 2024でコンテンツとAIの可能性について紹介します。

詳細を表示

検索インデックス作成

ガイド 検索 検索インデックス作成

検索インデックス作成

Boxは、Boxに格納されているファイルまたはフォルダの検索インデックスを保持します。ファイルまたはフォルダが変更されるたびに、これらの単語がインデックスに追加されます。検索が実行されると、APIは、検索インデックスで、クエリに一致するファイルやフォルダを探します。Box内でコンテンツが追加、更新、または削除されると、それに応じて検索インデックスが更新されます。

検索可能になるまでの時間

ファイルのアップロードまたは変更後、そのファイルにインデックスが完全に作成され、検索できるようになるまで時間がかかる場合があります。ほとんどの場合、新しく追加または変更されたファイルは、10分以内にBox検索で検索可能になります。ただし、場合によっては、インデックス作成時間はその時点のサービスの負荷によって決まるため、10分を超えることもあります。

10分経過してもインデックスが更新されない場合もあります。このような場合は、Boxサポートに問い合わせて問題を解決することをお勧めします。

検索アクセス

検索結果では、認証済みユーザーがアクセスできるコンテンツ (プレビュー/表示できる項目) のみが返されます。

つまり、検索結果に表示されるためには、ユーザーが所有する項目かコラボレーションしている項目である必要があります。ユーザーが項目にアクセスできない場合や共有リンクを介して項目が共有されている場合は、その項目も検索結果に表示されません。

ただし、例外として、共有リンクを介して最近アクセスされた項目は、include_recent_shared_linksクエリパラメータをtrueに設定することで、検索結果に含めるようリクエストすることができます。

プレフィックス検索とワイルドカード検索

末尾のワイルドカード (プレフィックス検索とも呼ばれます) が検索結果に暗黙的に適用されているのは、テキストのインデックス作成方法が原因です。Boを検索すると、タイトルにBoxBoat、またはBoxerが含まれる項目が返されます。これは従来の検索エンジンでBo*またはBo%を検索した結果と同じになります。Boxでは、%ox%のような従来のワイルドカードの表記法がサポートされていません。Boxは、タイトルのプレフィックス検索に対応していますが、本文コンテンツのプレフィックス検索、タイトルまたは本文コンテンツのサフィックス検索、タイトルまたは本文コンテンツのインフィックス (部分) 検索には対応していません。たとえば、calを検索すると、Californiaというファイル名が一致しますが、decalまたはrecallは一致しません。この場合、Californiarecalldecalを含め、ファイル本文のコンテンツでのプレフィックス、インフィックス、またはサフィックスとは一致しません。

ステミング

Boxの検索では、ステミングを使用して、クエリの単語をインデックスの単語と照合します。このため、同じ語幹を含む単語は、クエリ内と完全に同じ形式でなくても、結果セットに含まれる場合があります。たとえば、runrunningは同じ語幹に対応するため、runningで検索すると、タイトルにrunを含むドキュメントが返されます。

ファイルコンテンツの検索

ファイル内のコンテンツも、Box検索インデックス内に格納されます。以下のファイルタイプでは、コンテンツの検索が可能です。

boxnotecsvdocdocxgdoc
gsheetgslidegslideshtmhtml
msgodpodtodspdf
pptpptxrtftsvwpd
xhtmlxlsxlsmxlsxxml
xsdxslasas3asm
batccccmakecpp
cscsscxxdifferb
groovyhhamlhhjava
jsjsonlesslogm
makemdmlmmphp
plplistpropertiespyrb
rstsassscalascriptscm
smlsqlshtxtvi
vimwebdocyaml

ドキュメントあたりのインデックスが作成されるテキスト

Boxの検索インデックスには、Businessレベル以上のアカウントの場合、ドキュメントあたり最大10,000バイト (英語で約10,000文字) が格納されます。この量は、言語、Boxのインデックスの作成方法、およびドキュメントの種類によって、ドキュメントごとに異なる場合があります。

ファイルコンテンツ検索が無効になっている企業 (たとえば、KeySafeをご利用のお客様) の場合、ドキュメント内の文字を検索できません。ファイルコンテンツ検索が無効の状態でドキュメントを調べる必要がある場合は、アカウントチームまでお問い合わせください。

OCRのサポート

現在、Boxではドキュメントに対してOCR処理を実行しません。

ドキュメントのバージョン

検索では、最新バージョンのドキュメントのコンテンツに対してのみインデックスを作成するため、古いドキュメントからの関連性のない多数の検索結果を選別する必要はありません。最新バージョン以外のドキュメントを照会する場合は、検索を使用できません。

言語のサポート

Boxの検索では、中国語、英語、フランス語、ドイツ語、イタリア語、日本語、およびスペイン語がサポートされています。Boxでは、1つのドキュメント内での複数言語のインデックス作成はサポートされていません。

ごみ箱

ごみ箱の検索は、このAPIでtrash_contentクエリパラメータを使用して実行できます。

Boxコミュニティの記事で、Boxでの検索に関する最新情報を確認する