| Analiza językowa | ||
|
Analiza językowa Chodzi mi o to, aby język giętki powiedział wszystko, co pomyśli głowa..." - J.Słowacki.
"Polski, trudna języka"Nam chodzi o to, by znaleźć to wszystko, co pomyśli głowa i wyrazi słowami... Problemy przy wyszukiwaniu tekstów pisanych po polsku nie sprowadzają się wyłącznie do interpretacji polskich znaków. To, co znacząco odróżnia język polski np. od języka angielskiego, i sprawia zarazem najwięcej trudności, to morfologia co widać np. w rozbudowanej fleksji czyli odmianie wyrazów przez przypadki, rodzaje, czasy, osoby itd. - statystycznie jedno hasło w języku polskim posiada więcej niż 10 różnych form fleksyjnych, a niektóre części mowy, takie jak czasowniki, mają ich blisko 50! Użytkownikowi wyszukiwarki prawie nigdy nie zależy na odnalezieniu w tekście konkretnej formy fleksyjnej lecz najczęściej poszukuje on wskazanego hasła, np. szukając słowa "kolega" ma na myśli również słowa "kolegi", "koledze", "kolegę", "kolegą" itd. Niektóre wyszukiwarki zachęcają, by Użytkownik sam wskazał dopuszczalne warianty umieszczając w pytaniu gwiazdkę, co w wielu przypadkach daje "zaskakujące" wyniki - np. próba odnalezienia wszystkich form dla hasła "mak" (czyli pytanie "mak*") generuje wynik zawierający takie słowa jak "makowiec" czy "makówka" ale także "makrela", "makaron" no i "makabra". Metoda ta nie pozwala również na uwzględnienie, tak charakterystycznych w języku polskim, nieregularności w odmianie (np. "wóz" i "wozem" czy "człowiek" i "ludzie"). Neurosoft Gram - precyzja i skuteczność Przy tworzeniu wyszukiwarki NetSprint postawiliśmy przede wszystkim na precyzję wyszukiwania i skuteczność odrzucając rozwiązania tymczasowe lub działające "zazwyczaj dobrze". Z tego powodu do systemu NetSprint podłączony został moduł Neurosoft Gram opracowany przez naukowców z firmy Neurosoft z Wrocławia - lidera zastosowań sztucznej inteligencji w aplikacjach przemysłowych. Neurosoft Gram to procesor morfoskładniowy, którego jednym z zadań jest precyzyjna identyfikacja hasła w oparciu o dowolną formę fleksyjną. Aby to zadanie wykonać bezbłędnie Gram wyposażony został w pełny słownik języka polskiego (ponad 2 mln form fleksyjnych, blisko 180 tys. leksemów) zawierający informacje o wszelkich nieregularnościach i niuansach językowych, oraz w szereg algorytmów identyfikujących hasła nie dające się zapisać w słowniku.
Fleksja to nie wszystko Wyszukiwanie pojęć - nie tylko wyrazów To jeszcze nie ostatnie słowo
|
||
| Strona Główna | Toolbar | Dlaczego NetSprint? | Reklamuj siê u nas | NetSprint na Twojej stronie | Wszystko o NetSprint |
||
© 2000-2004 NetSprint.pl |
||