NLP-Tiedonhaku

mainokset

Tiedonhaku (IR) voidaan määritellä ohjelmistoksi, joka käsittelee tiedon järjestämistä, tallentamista, hakemista ja arviointia asiakirjatietovarastoista erityisesti tekstimuotoista tietoa. Järjestelmä auttaa käyttäjiä löytämään tarvitsemansa tiedot, mutta se ei yksiselitteisesti palauta kysymyksiin annettuja vastauksia. Se ilmoittaa sellaisten asiakirjojen olemassaolon ja sijainnin, jotka voivat koostua vaadituista tiedoista. Asiakirjoja, jotka täyttävät käyttäjän vaatimukset, kutsutaan asiaankuuluviksi asiakirjoiksi. Täydellinen IR-järjestelmä hakee vain asiaankuuluvat asiakirjat.

seuraavan kaavion avulla voimme ymmärtää tiedonhakuprosessin (IR) –

relevantti ulostulo informaatiosta

yllä olevasta kaaviosta käy ilmi, että tietoa tarvitsevan käyttäjän on laadittava pyyntö luonnollisella kielellä tehtävän kyselyn muodossa. Tämän jälkeen IR-järjestelmä vastaa hakemalla asiaankuuluvan tulosteen asiakirjojen muodossa vaadituista tiedoista.

Classical Problem in Information Retrieval (IR) System

IR-tutkimuksen päätavoitteena on kehittää malli tiedon hakemiseksi asiakirjojen arkistoista. Tässä, aiomme keskustella klassinen ongelma, nimeltään ad-hoc haku ongelma, liittyvät IR-järjestelmään.

ad-hoc-haussa käyttäjän on syötettävä luonnollisella kielellä kysely, joka kuvaa vaaditut tiedot. Tämän jälkeen IR-järjestelmä palauttaa vaaditut dokumentit, jotka liittyvät haluttuun tietoon. Oletetaan esimerkiksi, että etsimme jotain Internetissä ja se antaa joitakin tarkkoja sivuja, jotka ovat merkityksellisiä kohti vaatimuksemme, mutta siellä voi olla joitakin ei-relevantteja sivuja liian. Tämä johtuu ad-hoc-hakuongelmasta.

Ad-hoc-hakuun liittyvät näkökohdat

seuraavat ovat joitakin ad-hoc-hakuun liittyviä näkökohtia, joita käsitellään IR-tutkimuksessa−

  • miten käyttäjät relevanssin palautteen avulla voivat parantaa kyselyn alkuperäistä muotoilua?

  • miten toteuttaa tietokannan yhdistäminen, ts., miten eri tekstitietokantojen tulokset voidaan yhdistää yhdeksi tulosjoukoksi?

  • miten käsitellä osittain vioittuneita tietoja? Mitkä mallit sopivat samaan?

tiedonhaun (IR) malli

matemaattisesti malleja käytetään monilla tieteenaloilla, joilla on tavoite ymmärtää jokin reaalimaailman ilmiö. Tiedonhaun malli ennustaa ja selittää, mitä käyttäjä löytää merkitystä annettuun kyselyyn. IR-malli on pohjimmiltaan malli, joka määrittelee edellä mainitut hakumenettelyn näkökohdat ja koostuu seuraavista−

  • asiakirjamalli.

  • malli kyselyihin.

  • täsmäävä funktio, joka vertaa kyselyjä asiakirjoihin.

matemaattisesti hakumalli koostuu −

d-edustuksesta asiakirjoille.

R-edustus kyselyihin.

F-mallintamiskehys D: lle, Q: lle sekä niiden välinen suhde.

R (q,di) − samankaltaisuusfunktio, joka määrää asiakirjat tiedustelun osalta. Sitä kutsutaan myös rankingiksi.

tiedonhaun (IR) tyypit malli

tietomalli (IR) voidaan luokitella seuraaviin kolmeen malliin −

Klassinen IR-malli

se on yksinkertaisin ja helppo toteuttaa IR-malli. Tämä malli perustuu matemaattiseen tietoon, joka oli helposti tunnistettavissa ja myös ymmärrettävissä. Boolen, vektori ja probabilistinen ovat kolme klassista IR-mallia.

Ei-Klassinen IR-malli

se on täysin päinvastainen kuin klassinen IR-malli. Tällaiset IR-mallit perustuvat muihin periaatteisiin kuin samankaltaisuuteen, todennäköisyyteen, Boolen operaatioihin. Informaatiologiikan malli, tilanneteorian malli ja vuorovaikutusmallit ovat esimerkkejä ei-klassisesta IR-mallista.

vaihtoehtoinen IR-malli

se on klassisen IR-mallin tehostamista hyödyntäen joitakin erityistekniikoita joiltakin muilta aloilta. Cluster model, fuzzy model ja latent semanttinen indeksointi (LSI) mallit ovat esimerkki vaihtoehtoisesta IR-mallista.

TIEDONHAKUJÄRJESTELMIEN suunnitteluominaisuudet

nyt tutustutaan IR −järjestelmien suunnitteluominaisuuksiin –

Käänteinen indeksi

useimpien IR-järjestelmien ensisijainen tietorakenne on käänteisen indeksin muodossa. Voimme määritellä käänteisen indeksin tietorakenteeksi, joka listaa jokaiselle sanalle kaikki asiakirjat, jotka sisältävät sen ja esiintymistiheyden dokumentissa. Sen avulla on helppo etsiä kyselysanan ’osumia’.

Pysäytyssanat

Pysäytyssanat ovat niitä korkeataajuisia sanoja, joiden ei katsota olevan hyödyllisiä hakuun. Niissä on vähemmän semanttisia painoja. Kaikki tällaiset sanat ovat luettelossa nimeltä stop list. Esimerkiksi artikkelit ”a”, ”an”, ”the” ja prepositiot kuten ”in”, ”of”, ”for”, ” at ” jne. ovat esimerkkejä stop-sanoista. Käänteisen indeksin kokoa voidaan merkittävästi pienentää pysäytyslistalla. Zipfin lain mukaan muutaman kymmenen sanan kattava pysäytyslista pienentää käänteisen indeksin kokoa lähes puolella. Toisaalta joskus stop-sanan poistaminen voi aiheuttaa etsinnässä hyödyllisen termin poistamisen. Jos esimerkiksi ”A-vitamiinista” poistetaan aakkoset, Sillä ei olisi merkitystä.

Stemmaus

stemmaus, morfologisen analyysin yksinkertaistettu muoto, on heuristinen prosessi, jossa sanojen perusmuoto erotetaan pilkkomalla sanojen päät pois. Esimerkiksi sanat nauraminen, nauraminen, nauraminen stemmattaisiin kantasanaksi Nauru.

myöhemmissä jaksoissamme keskustelemme tärkeistä ja hyödyllisistä IR-malleista.

Boolen malli

se on vanhin tiedonhakumalli (IR). Malli perustuu joukko-teoriaan ja Boolen algebraan, jossa dokumentit ovat termien joukkoja ja kyselyt Boolen lausekkeita termeillä. Boolen Malli voidaan määritellä seuraavasti−

  • D-joukko sanoja, eli indeksointi termejä läsnä asiakirjassa. Tässä kukin termi on joko läsnä (1) tai poissa (0).

  • Q-Boolen lauseke, jossa termit ovat indeksin termit ja operaattorit ovat loogisia tuotteita-ja, looginen summa-tai ja looginen ero-ei

  • F-Boolen algebra termien sarjojen yli sekä dokumenttien sarjojen yli

    jos puhutaan relevanssipalautteesta, niin Boolen IR-mallissa Relevanssiennustus voidaan määritellä seuraavasti−

  • R-asiakirjan ennustetaan olevan kyselyilmaisun kannalta merkityksellinen, jos ja vain jos se täyttää kyselyilmaisun−

((𝑡𝑒𝑥𝑡 𝑖𝑛𝑓𝑜𝑟𝑚𝑎𝑡𝑖𝑜𝑛) 𝑟𝑒𝑟𝑖𝑒𝑣𝑎𝑙 𝑡ℎ𝑒𝑜𝑟𝑦)

Emme voi selittää, tämä malli kyselyn aikavälillä yhtä yksiselitteistä määritelmää joukko asiakirjoja.

esimerkiksi kyselytermi ”talous” määrittelee joukon dokumentteja, jotka indeksoidaan termillä ”talous”.

nyt, mikä olisi tulos, kun termit yhdistetään Boolen ja operaattorin kanssa? Se määrittelee asiakirjajoukon, joka on pienempi tai yhtä suuri kuin minkä tahansa yksittäisen termin asiakirjajoukot. Esimerkiksi kysely termeillä ”sosiaalinen” ja ”taloudellinen” tuottaa dokumenttien joukon asiakirjoja, jotka on indeksoitu molempien termien kanssa. Toisin sanoen, asiakirja asetettu kanssa risteysalueiden sekä asetetaan.

nyt, mikä olisi tulos, kun termit yhdistettäisiin Boolen tai operaattorin kanssa? Se määrittelee dokumenttijoukon, joka on suurempi tai yhtä suuri kuin minkä tahansa yksittäisen termin dokumenttijoukot. Esimerkiksi kysely termeillä ”sosiaalinen” tai ”taloudellinen” tuottaa dokumenttien joukon, joka indeksoidaan joko termillä ”sosiaalinen”tai ” taloudellinen”. Toisin sanoen asiakirja, joka on asetettu molempien sarjojen liittoon.

Boolen mallin edut

Boolen mallin edut ovat seuraavat−

  • yksinkertaisin malli, joka perustuu sarjoihin.

  • helppo ymmärtää ja toteuttaa.

  • se hakee vain tarkat osumat

  • se antaa käyttäjälle tunteen järjestelmän hallinnasta.

Boolen mallin haitat

Boolen mallin haitat ovat seuraavat−

  • mallin samankaltaisuusfunktio on Boolen. Näin ollen osittaisia osumia ei olisi. Tämä voi olla ärsyttävää käyttäjille.

  • tässä mallissa Boolen operaattorikäytöllä on paljon enemmän vaikutusvaltaa kuin kriittisellä sanalla.

  • kyselykieli on ekspressiivistä, mutta sekin on monimutkaista.

  • ei paremmuusjärjestystä haetuille asiakirjoille.

Vektoriavaruusmalli

Boolen mallin edellä mainittujen haittojen vuoksi Gerard Salton kollegoineen ehdotti mallia, joka perustuu Luhnin samankaltaisuuskriteeriin. Luhnin muotoilemassa samankaltaisuuskriteerissä todetaan, että ” mitä enemmän kaksi edustustoa on sovittu annetuissa elementeissä ja niiden jakaumassa, sitä suurempi on todennäköisyys, että ne edustavat samankaltaista tietoa.”

harkitse seuraavia tärkeitä kohtia ymmärtääksesi enemmän Vektoriavaruusmallista−

  • indeksiesitykset (dokumentit) ja kyselyt katsotaan korkeaulotteiseen Euklidiseen avaruuteen upotetuiksi vektoreiksi.

  • dokumenttivektorin ja kyselyvektorin samankaltaisuuden mitta on yleensä niiden välisen kulman kosini.

kosinin samankaltaisuuden mitta Formula_2564>

kosini on normalisoitu pistetulo, joka voidaan laskea seuraavan kaavan avulla −

$$Score \lgroup \vec{d} \vec{q} \rgroup= \frac{\sum_{k=1}^m d_{k}\:.q_{k}}{\sqrt{\sum_{k=1}^m\lgroup d_{k}\rgroup^2}\:.\sqrt{\sum_{k=1}^m}m\lgroup q_{k}\rgroup^2 }$$

$$pisteet \lgroup \vec{d} \vec{q}\rgroup =1\: when\:d =q $$

$$pisteet \lgroup \vec{d} \vec{q}\rgroup =0\: when\: d\: and\: q\: share\: no\:kohteet$$

vektoriavaruuden esitys Kyselyineen ja asiakirjoineen

kyselyä ja dokumentteja esittää kaksiulotteinen vektoriavaruus. Ehdot ovat auto ja vakuutus. Vektoriavaruudessa on yksi kysely ja kolme dokumenttia.

kaksiulotteinen Vektoriavaruus

kärkisijalla oleva dokumentti vastauksena termeihin auto ja vakuutus on dokumentti d2, koska Q: n ja D2: n välinen kulma on pienin. Syynä tähän on se, että sekä käsitteet auto ja vakuutus ovat keskeisiä D2 ja siten on korkea painot. Toisaalta myös D1 ja d3 mainitsevat molemmat termit, mutta kummassakin tapauksessa toinen niistä ei ole keskeisesti tärkeä termi asiakirjassa.

Termipainotus

Termipainotus tarkoittaa termien painoja vektoriavaruudessa. Suurempi paino termi, suurempi olisi vaikutus termi kosini. Mallin tärkeämmille termeille pitäisi antaa enemmän painoarvoa. Nyt herää kysymys, miten tätä voidaan mallintaa.

yksi tapa on laskea asiakirjan sanat sen termipainoksi. Luuletko kuitenkin, että se olisi tehokas menetelmä?

toinen tehokkaampi menetelmä on käyttää term frequency (tfij), document frequency (DFI) ja collection frequency (cfi).

Term Frequency (tfij)

se voidaan määritellä Wiin esiintymien lukumääränä dj: ssä. Tiedot, jotka on kaapattu termitaajuus on kuinka keskeinen sana on sisällä tietyn asiakirjan tai toisin sanoen voimme sanoa, että korkeampi termi taajuus enemmän, että sana on hyvä kuvaus sisällöstä kyseisen asiakirjan.

Document Frequency (dfi)

se voidaan määritellä niiden asiakirjojen kokonaismääräksi kokoelmassa, jossa wi esiintyy. Se on informatiivisuuden indikaattori. Semanttisesti keskittyneet sanat esiintyvät dokumentissa useita kertoja toisin kuin semanttisesti keskittymättömät sanat.

Keräystiheys (cfi)

se voidaan määritellä Wiin esiintymien kokonaismääräksi keräyksessä.

matemaattisesti, $df_{i}\leq cf_{i}\: ja\:\sum_{j}tf_{ij} = cf_{I}$

dokumenttien Taajuuspainotuksen muodot

tutustukaamme nyt dokumenttien taajuuspainotuksen eri muotoihin. Lomakkeet on kuvattu alla –

Term Frequency Factor

tämä luokitellaan myös term frequency factoriksi, mikä tarkoittaa, että jos termi t esiintyy usein asiakirjassa, T: n sisältävän kyselyn tulee hakea kyseinen asiakirja. Voimme yhdistää word-termitaajuuden (tfij) ja dokumenttitaajuuden (DFI) yhdeksi painoksi seuraavasti −

$$weight \left ( i,J \right ) =\begin{cases}(1+log(tf_{ij}))log\frac{n}{df_{i}}\:if\:tf_{i,j}\:\geq1\\0 \:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\:\: jos\: tf_{i,j}\:=0\end{cases}$$

tässä n on asiakirjojen kokonaismäärä.

Inverse Document Frequency (idf)

tämä on toinen asiakirjataajuuspainotuksen muoto, jota usein kutsutaan idf-painotukseksi tai käänteiseksi asiakirjataajuuspainotukseksi. Idf-painotuksessa on tärkeää, että termin niukkuus koko kokoelmassa mittaa sen merkitystä ja merkitys on kääntäen verrannollinen esiintymistiheyteen.

matemaattisesti

$$idf_{t} = log\left (1 + \frac{n}{n_{t}}\right)$$

$$idf_{t} = log\left(\frac{n-n_{t}}{n_{t}}\right)$$

täällä,

n = kokoelman asiakirjat

NT = termillä t

käyttäjän kyselyn parantaminen

tiedonhakujärjestelmän ensisijaisena tavoitteena on oltava tarkkuus − relevanttien asiakirjojen tuottaminen kohti käyttäjän vaatimus. Kuitenkin, kysymys, joka herää tässä on, miten voimme parantaa tuotosta parantamalla käyttäjän kyselyn muodostumista tyyli. Varmasti minkä tahansa IR-järjestelmän lähtö riippuu käyttäjän kyselystä ja hyvin muotoiltu kysely tuottaa tarkempia tuloksia. Käyttäjä voi parantaa kyselyään relevanssipalautteen avulla, joka on tärkeä osa mitä tahansa IR-mallia.

Relevanssipalaute

Relevanssipalaute ottaa lähtökohdan, joka palautetaan alun perin annetusta kyselystä. Tätä alustavaa tulostetta voidaan käyttää käyttäjätiedon keräämiseen ja sen selvittämiseen, onko tulosteella merkitystä uuden kyselyn suorittamiseen vai ei. Palautteet voidaan luokitella seuraavasti –

eksplisiittinen palaute

se voidaan määritellä palautteeksi, joka saadaan relevanssin arvioijilta. Nämä arvioijat ilmoittavat myös kyselystä saadun asiakirjan merkityksellisyyden. Kyselyn hakusuorituksen parantamiseksi relevanssipalautetiedot on interpoloitava alkuperäisen kyselyn kanssa.

arvioijat tai muut järjestelmän käyttäjät voivat ilmoittaa relevanssin eksplisiittisesti käyttämällä seuraavia relevanssijärjestelmiä−

  • Binäärirelevanssijärjestelmä – tämä relevanssipalautejärjestelmä osoittaa, että asiakirja on joko relevantti (1) tai epäoleellinen (0) tietylle kyselylle.

  • Graded relevanssijärjestelmä-graded relevanssipalautejärjestelmä ilmaisee dokumentin relevanssin tietyssä kyselyssä luokituksen perusteella käyttämällä numeroita, kirjaimia tai kuvauksia. Kuvaus voi olla esimerkiksi ”ei relevantti”, ”jokseenkin relevantti”, ”erittäin relevantti”tai ” relevantti”.

implisiittinen palaute

se on palaute, joka on päätelty käyttäjän käyttäytymisestä. Käyttäytymiseen sisältyy aika, jonka käyttäjä käytti asiakirjan katseluun, mikä asiakirja on valittu katseltavaksi ja mikä ei, sivun selaaminen ja vieritystoimet jne. Yksi parhaista esimerkeistä implisiittisestä palautteesta on viipymisaika, joka mittaa sitä, kuinka paljon aikaa käyttäjä käyttää hakutuloksessa linkitetyn sivun katseluun.

Pseudo-palaute

sitä kutsutaan myös sokeaksi palautteeksi. Se tarjoaa menetelmän automaattiseen paikalliseen analyysiin. Relevanssipalautteen manuaalinen osa automatisoidaan Pseudo-relevanssipalautteen avulla siten, että käyttäjä saa parannetun hakusuorituksen ilman laajennettua vuorovaikutusta. Tämän palautejärjestelmän tärkein etu on se, että se ei vaadi arvioijia kuten eksplisiittisessä relevanssipalautejärjestelmässä.

harkitse seuraavia vaiheita palautteen toteuttamiseksi−

  • Vaihe 1-ensimmäinen, tulos palautetaan alkukyselyn on otettava asiaankuuluva tulos. Relevanttien tulosten vaihteluvälin on oltava top 10-50-tuloksissa.

  • Vaihe 2-Nyt, Valitse top 20-30 ehdot asiakirjoista käyttäen esimerkiksi term frequency(TF)-inverse document frequency(idf) paino.

  • Vaihe 3-Lisää nämä ehdot kyselyyn ja vastaa palautettuja asiakirjoja. Palauta sitten tärkeimmät asiakirjat.

mainokset

Vastaa

Sähköpostiosoitettasi ei julkaista.