テキスト検索の方法

<戻る>

重要事項

このtatoeba.orgの検索エンジン(Manticore, 旧名称Sphinx)は、他の標準的な検索エンジンとは仕様が異なります。

検索を行う際に、検索のための特殊記号である 疑問符(?) や 感嘆符(!) は、通常検索で使用することはできません。

また、日本語や中国語など、単語と単語の間にスペースを入れない言語を検索する場合は、検索文字列を二重引用符(“)で囲んでください。詳しくは、「単語区切りのない言語について」を参照してください。

検索オプション

このヘルプでは、Tatoebaサイトの上部にある検索バーで使用する検索文字列の適切な設定方法を説明しています。Tatoeba検索は、Googleの検索と同じような機能を有しますが、いくつか異なる点があります。

  • 英文の中に、"live", "lives", "living", "lived"を含む文を抽出するためには、検索文字列に "live" を指定します。(大文字・小文字は区別されません。そのため、検索結果には、"Live", "Living"などが含まれます。)

  • 完全一致させるためには、検索したい文字列の前に等号(=)を付けます。(大文字・小文字の区別はありません。)

  • 検索文字列の中に、パンクチュエーション(句読点)を含めないでください。ほとんどのパンクチュエーションは、無視されますが、疑問符(?) および 感嘆符(!) は特殊な検索文字として機能するため、特に注意が必要です。

    • 次の検索文字列を指定すると、正しい検索結果を得ることはできません。

    • ただし、次の検索文字列を指定すると、検索結果の中に”How strange!”を含みます。

  • 検索したい文字列の最後にドル記号($)を付けた場合、その文字列で終わる文を検索します。次の検索文字列は、"Tom"で終わる英文を検索結果に表示します。

  • ほとんどのパンクチュエーションは、検索で見つけることはできません。しかし、ドル記号($)とアンダーバー(_)は特別で、その記号の前に円記号(¥)またはバックスラッシュを付けることで、それらの文字を含む英文を検索結果に表示することができます。

  • 検索したい文字列の前にアクサンシルコンフレックス(^)を付けると、その文字列で始まる文を検索することができます。次の検索文字列は、”Tom”で始まる英文を検索結果に表示します。

  • 次の検索文字列を指定すると、"Tom"で始まり"Mary"で終わる英文を検索結果に表示します。

  • 次の検索文字列を指定すると、"Tom"または"He"で始まる英文を検索結果に表示します。

  • 次の検索文字列を指定すると、"fasting", "fasted", または "fasts"を含む英文を検索結果に表示します。検索したい文字列に、等号(=)を付けることで、完全一致検索を行うことができるため、形容詞の形式である"fast", "faster" や "fastest"を除外した検索結果を得ることができます。

  • フレーズ(句、熟語、慣用句など)を検索するには、検索したいフレーズを二重引用符(")で囲みます。完全一致検索を行いたい場合は、各文字列の前に等号(=)をつけるか、または、二重引用符(")の直前に等号(=)を付けることで、二重引用符内のすべての文字列に一致するフレーズを検索結果に得ることができます。

  • "live in Boston", "living in Boston", "lives in Boston"などのフレーズを検索する場合は、次のような検索文字列を使用します。

  • 次の検索文字列を指定すると、"live in Boston"というフレーズと完全一致する英文のみが検索結果に表示されます。

  • 次の検索文字列を指定すると、"I live in Boston"と完全一致するフレーズが検索されます。他の語を含むフレーズは検索結果に表示されません。

  • 次の検索文字列を指定すると、文頭に"Tom"がなく、文中にのみ"Tom"が含まれる英文を検索結果に表示します。

  • 次の検索文字列を指定すると、文頭や文末に"Tom"がなく、文中に"Tom"が含まれる英文を検索結果に表示します。

  • 検索文字列の中のクエスチョンマーク(?)は、1文字のワイルドカードです。

    • 次の検索文字列を指定すると、"whenever" や "wherever" が含まれる英文を検索結果に表示します。

  • 次の検索文字列を指定すると、"eve"が含まれる6文字の文字列で、"eve"の前に任意の2文字、後ろに1文字が含まれる"clever", "eleven", "peeves", "uneven"などを検索結果に表示します。

  • 次の検索文字列を指定すると、"Tom"と"Mary"の文字列の間に2つの文字列を含み、なおかつ"Mary"と"John"の文字列の間に1つの文字列を含むフレーズを検索結果に表示します。

  • 次の検索文字列を指定すると、文頭に"Tom"、文末に"Mary"を含み、なおかつ、"Tom"と"Mary"の間に任意の3つの文字列を含むフレーズを検索結果に表示します。

  • 次の検索文字列を指定すると、"red"で始まる文字列を持つ英文を検索結果に表示します。(この検索には、3文字以上指定する必要がります。)

  • 次の検索文字列を指定すると、"red"で終わる単語を持つ英文を検索結果を表示します。

  • 次の検索文字列を指定すると、文字列の中に"red"を含む英文を検索結果に表示します。

  • 次の検索文字列を指定すると、"French"を含むが、"Tom"を含まない英文を検索結果に表示します。

  • 次の検索文字列を指定すると、"cheek"を含むが、マイナス記号(-)が付いた文字列を含まない英文を検索結果に表示します。

  • 次の検索文字列を指定すると、"cat"が"dog"より先に現れる英文を検索結果に表示します。

  • 次の検索文字列を指定すると、"cat", "dog", "fish"のいずれか2つが含まれる英文を検索結果に表示します。

"I can't" を除外した "I can" のみの検索方法

  • 次の検索文字列を指定すると、"I can't" で始まる文字列を検索画面に表示します。

  • しかし、次の検索文字列を指定すると、"I can"と"I can't"の文を含みます。

  • “I can’t”を除外した ”I can” のみを検索する場合は、次の検索文字列を指定します。(注意:二重引用符が必要です)

"of ~ing"の検索方法

  • 次の検索文字列を指定すると、”of”の直後に“ing”で終わる文字列を含む英文を検索画面に表示します。

  • of NEAR/1 *ing -"*ing of"

  • 注釈

    • -"*ing of" は、"of"の前に"~ing"がくる英文を除外するために必要です。
    • この検索結果には、"~ing"が複数存在する英文も含まれます。それを必要としない場合は、ソート順を変更して下さい。

単語区切りのない言語について

日本語や中国語など、単語と単語の間にスペースを入れない言語を検索する場合は、検索したい文字列を二重引用符(")で囲んでください。例えば、「逆に」という文字列を検索する場合は、検索文字列に

を指定します。また、二つ以上の文字列「逆に」と「企業」を検索する場合は、検索文字列に

を指定します。 二重引用符(")を省略した場合は、Tatoeba検索は、各文字を1つ1つの単語として検索するため、検索文字列に指定した文字1つ1つを含む全ての文章が検索されます。その場合、文字列としての塊やその並び順は、無視されます。

アドバンスドサーチ

次のサイトで、高度な例文検索「アドバンスドサーチ」を行うことができます。

Create a Dashboard of Customized Links for Tatoeba.org

このサイトには、検索のための利用可能なプリセット項目が用意されています。お気に入りのページは、ブックマークに登録し繰り返し利用することができます。

詳細説明

Tatoeba検索では、大文字とパンクチュエーション(句読点)は無視されます。(ただし、パンクチュエーションが本ページに特記されていない場合に限る。)

Tatoeba検索は、英語を含む幾つかの言語において、デフォルトで検索文字列をステミング(語幹処理)します。ステミングとは、検索文字列と検索対象の言語の両方から、その言語特有の末尾シーケンス(語形の変化)を取り除き、語幹(語形変化の基礎になる部分)で検索を行う機能です。この機能により、liveを検索すると"lived" や"living"を含む英文が検索結果に表示されるようになります。

Tatoeba検索がステミングする言語は、以下の通りです。 デンマーク語、オランダ語、英語、フィンランド語、フランス語、ドイツ語、ハンガリー語、イタリア語、ノルウェー語(ブークモール)、ポルトガル語、ルーマニア語、ロシア語、スペイン語、スウェーデン語、トルコ語

文字列の完全一致検索を行いたい場合は、検索したい文字列の前に、=live のように等号(=)を置く必要があります。これは、検索したい文字列やフレーズを二重引用符(“)で囲むことで、完全一致検索を行うGoogle 検索に使い慣れているユーザにとっては違和感のある指定方法です。Manticore検索エンジンでは、二重引用符(“)は、Google 検索とは異なる機能を有し、これは、マルチワード(フレーズ)検索に影響します。Manticore検索エンジンでは、フレーズを二重引用符(“)で囲んだ場合、指定した連続する文字列の順序で、すべての文字列を含む例文を検索します。しかし、フレーズを二重引用符(“)で囲むだけでは、上記で説明した個々の文字列のステミングを抑制することができません。ステミングを抑制するためには、フレーズの中のそれぞれの文字列の前、またはフレーズの最初の二重引用符(“)の前に等号(=)を置く必要があります。また、同じ検索文字列に等号(=)とアクサンシルコンフレックス(^)の両方を使う必要がある場合は、等号(=)は、アクサンシルコンフレックス(^)の前に置く必要があります。例えば、”Noise”で始まる完全一致検索を行うには、検索文字列に ^=noise ではなく=^noise を指定します。

例として、

  • like thing

を検索文字列に指定するとします。これは、”like things”や“likely things” さらに”things like”を含む英文を検索結果に表示します。

  • "like thing"

のように二重引用符(“)を追加すると、"things like"(文字列が間違った順序で表示される)のような検索一致を取り除くことができますが、この場合、"like thing" や"likey things"などは、引き続き一致します。これに対して、

  • "=like =thing"

を指定すると、"like thing"のみに一致します(残念ながら、Tatoebaコーパス上には、その英文が存在しません)。さらに、二重引用符(“)を削除し、

  • =like =thing

を指定すると、その並び順は無視され、"What made you do a silly thing like that?"が一致するでしょう。また、

  • like=thing

のように等号(=)の一つを削除すると、"Such a strange thing is not likely to happen."が見つかります。

アステリスク()は、単語を表す文字列の先頭や末尾に置くことができますが、文字列の途中に置くことはできません。また、アステリスク()を文字列の先頭や末尾に置く場合は、少なくとも3文字の長さが必要です。

その他の検索演算子

  • “or”を意味するバーティカルライン(|) は、検索したい文字列のいずれかを含む英文を見つけます。次の検索文字列

    • hate | detest

    は、”hate” または “detest” のいずれか(または両方)が含まれる英文を検索結果に表示します。

  • “or式(ex-expression)”を他の文字列と一緒に指定したい場合は、”or式”を括弧の中に置く必要があります。次の検索文字列

    • (red|blue) house

    は、”red”または”blue”のいずれか(または両方)が”house”と一緒に含まれる英文を検索結果に表示します。

  • 検索文字列の前のハイフン(-)またはエクスクラメーション(!)は、その文字列が存在しない英文を見つけます。次の検索文字列

    • like –thing (またはlike !thing)

    は、”I like ice cream.”と一致しますが、”I like that red thing.”とは一致しません。

  • 検索文字列の前のアクサンシルコンフレックス(^)は、その文字列から始まる英文のみを見つけます。次の検索文字列

    • ^great

    は、”Great people are not always wise.”と一致しますが、”You are the great love of my life.”とは一致しません。

  • 検索文字列の後のドル記号($)は、その文字列で終わる英文のみと一致します。次の検索文字列

    • life$

    は、”This is the best day of my life.”と一致しますが、”Life means nothing without friends.”とは一致しません。

  • 指定した検索文字列以外は含まない英文の検索がしたい場合は、二重引用符(“)とアクサンシルコンフレックス(^)とドル記号($)を組み合わせます。次の検索文字列

    • "^i love you$"

    は、”I love you.”と” I love you!”に一致しますが、”I love you more than you love me.”には一致しません。(しかし、この検索では、” I loved you.”とも一致します。もし、検索文字列に "^i =love you$" を指定すると、” I loved you.”は除外されます。)

  • 検索文字列の間の二つのしょうなり記号(<<)は、最初に指定した文字列が2番目に指定した文字列の前にくる英文と一致しますが、2番目の文字列が最初の文字列の前にくる英文とは一致しません。次の検索文字列

    • dog << cat

    は、dogがcatより先にある英文と一致しますが、逆は一致しません。

  • フレーズに続く、チルダ記号(~)と整数(N)の組み合わせ(~N)は、検索文字列をN個未満に分割できる数を制限します。つまり、次の検索文字列

    • "you are *ble"~1

    は、”You are irresistible.”と一致しますが、”You are partially responsible.”とは一致しません。

他の機能については、Manticore documentation を参照してください。なお、ドキュメント内には、特定のフィールド(specific fields)に関するキーワードについての記載がありますが、これはTatoeba検索には適用されません。あらかじめご了承ください。