SharePoint au Quotidien avec EROL

 

Retour page Accueil
Remonter
Langues Japonais

 

 

 

 

 

 

 

 

Descriptions des fonctions de traitement du japonais :

 

Indexation sur les mots

MSSearch intègre un séparateur de mots sophistiqué qui est utilisé pour l'indexation et les interrogations. Ce composant est plus élaboré que le séparateur anglais parce que les délimitations des mots sont plus ambiguës en japonais qu'elles ne le sont en anglais.

Cela signifie que MSSearch indexe les mots et pas seulement les caractères dans les documents en japonais.

L'indexation sur les mots améliore la précision des recherches, réduit la taille d'index et prend en charge les techniques de normalisation qui améliorent la portée des recherches.

Exemple 1

Interrogation : 京都

Le document contient : 東京都

MSSearch n'extrait pas le document (à raison) parce que les caractères 東京 ne sont pas séparés. Par conséquent, le terme erroné 京都 n'est pas indexé. La précision de la recherche est améliorée.

Exemple 2

Interrogation : アジ

Le document contient : アジア

MSSearch ne renvoit pas le document (à raison) parce que アジア est indexé comme terme unique et ne correspond pas au terme de l'interrogation アジ. La précision de la recherche est améliorée.

Ce type de requête pose problème pour les systèmes d'indexation sur les caractères parce que le terme アジ est beaucoup moins utilisé que アジア. Une recherche lancée sur le terme アジ renverra de ce fait probablement un grand nombre de documents pour アジア et quelques uns seulement pour アジ.

Recherche de déclinaisons

MSSearch décline toutes les variantes d'un mot lorsqu'il indexe le document ainsi qu'au moment de l'interrogation. Ceci diffère de la version anglaise qui ne décline pas le mot lorsqu'elle indexe le document, mais seulement lors de l'exécution d'une interrogation.

De ce fait, les correspondances exactes en japonais ne fonctionnent pas exactement comme prévu, étant donné que le séparateur de mots peut changer la forme du mot en forme de base et supprimer un caractère qui ne fait pas partie de la signification de base du mot.

Les exemples suivants présentent des termes qui sont équivalents pour les besoins de la recherche :

  • Exemple 1 : 表示の切り替え方 et 表示を切り替えるには

     

  • Exemple 2 : 特捜部の調べによれば… et 特捜部が調べたところ

     

  • Exemple 3 : 買います et 買う et 買った

     

  • Exemple 4 : きれい et きれいな きれいでした

Normalisation du Hankaku/Zenkaku

Tous les caractères numériques et en Katakana à un seul octet (半角) et à deux octets (全角) sont normalisés. Une recherche utilisant des caractères à un seul octet trouve des correspondances à deux octets, et une recherche utilisant des caractères à deux octets trouve des correspondances à un seul octet.

Les exemples suivants présentent des termes qui sont équivalents pour les besoins de la recherche :

  • Exemple 1 : アメリカ et アメリカ

     

  • Exemple 2 : 2000 et 2000

Normalisation des nombres

Les chiffres arabes à un seul octet (半角数字), les chiffres arabes à deux octets (全角数字) et les chiffres japonais (漢数字) sont normalisés de sorte qu'une interrogation contenant l'un de ces types de chiffre peut retrouver des documents utilisant un autre type.

Les exemples suivants présentent des termes qui sont équivalents pour les besoins de la recherche :

  • Exemple 1 : 2000円札 et 2,000円札 et 2000円札 et 2千円札 et 二千円札 et 二〇〇〇円札

     

  • Exemple 2 : 第二次世界大戦 et 第2次世界大戦 et 2次世界大戦

Variante Katakana

Les interrogations contenant des termes en Katakana peuvent retrouver des documents comportant des variantes de ces mots. Toutefois, MSSearch ne renvoie pas des termes en Katakana qui sont différents même s'ils ressemblent à des variantes.

Les exemples suivants présentent des termes qui sont équivalents pour les besoins de la recherche :

  • Exemple 1 : デジタル et ディジタル

     

  • Exemple 2 : コンピュータ et コンピューター

     

  • Exemple 3 : ギリシャ et ギリシア

Toutefois, une interrogation de recherche du terme シアトル ne renvoit pas シャトル comme résultat.

Contraction Nakaguro

MSSearch retrouve des termes en Katakana contractés même lorsqu'un séparateur Nakaguro ou un autre type de séparateur est utilisé dans l'interrogation. En outre, les termes d'interrogation en Katakana contractés peuvent également trouver des formes du caractère Nakaguro dans les documents.

Les exemples suivants présentent des termes qui sont équivalents pour les besoins de la recherche :

  • Exemple 1 : アール・ヌーボー et アールヌーボー

     

  • Exemple 2 : サン=テグジュペリ et サンテグジュペリ

     

  • Exemple 3 : シャーロック・ホームズ et シャーロックホームズ

     

  • Exemple 4 : アガサクリスティ et アガサ=クリスティ

 

Voir la suite : 3

© 2001 Microsoft Corporation. Tous droits réservés.

EROL / TRUC 5 : 13-août-2004 12:44:14 +0200  

 

Retour page Accueil ] Remonter ] Langues Japonais ]

Envoyez un courrier électronique à EROL GIRAUDY (attention nospam dans l'E-mail) pour toute question ou remarque concernant ce site Web et visitez la rubrique Condition Utilisation et CNIL. Copyright © 2002 EROL (les sigles et logos ci-après sont la propriété de : Microsoft, Supinfo, Adobe, Compaq, HP, Sybari, Veritas, Moreover, K-map, Vyapin, Plumtree, Ixos, TooStore, K-Map, eRoom, DocKIT,NQL, Only4gurus, Nsius, Sharepointexperts, Iora, Erol, KCura, FrontPages, Nsi, Frontlook, IBuySpyPortal, moreover, slipstick, networknowledge, clubsps.org )
Dernière modification : vendredi, 13. août 2004 12:44