Astăzi sistemele de ÎR folosesc documente text ca bază de cunoaștere și integrează tehnici de prelucrare a limbajului natural (PLN) pentru a găsi (într-o colectie dată de documente sau prin căutare pe web) răspunsul la o întrebare pusă în limbaj natural.

Scenarii

  • Scenariu A: Extragerea exactă a răspunsului de pe Wikipedia.
    Wikipedia a devenit în ultimii ani o sursă de informații din ce în ce mai folosită, cu pagini verificate și diversificate. Căutarea pe Wikipedia (sau altă colecție de date de acest tip) în limbaj natural presupune că utilizatorul plasează o întrebare în limbaj natural, așa cum s-ar adresa unui respondent uman, iar sistemul oferă un răspuns complet în limbaj natural (nu doar o pagina web pe care utilizatorul se presupune ca ar putea găsi informația solicitată), extras din paginile Wikipedia. Cutarea în domeniu închis permite indexarea prealabilă, ceea ce duce la furnizarea unui răspuns in timp real.
  • Scenariu B: Căutarea avansată în textele legilor
    Căutarea în textele legislative a fost întotdeauna greoaie pentru un utilizator care nu este familiar cu domeniul juridic. Folosind sistemul de ÎR dezvoltat de noi, identificarea rapidă a unei legi a cărei aplicări este necesară într-un anumit context este la îndemâna oricui. În cadrul competiției CLEF, sistemul nostru a fost testat pentru evaluarea performanțelor în domeniul juridic. Colecția de texte legislative din care s-a extras răspunsul a fost Acquis-ul comunitar, care cuprinde legile Uniunii Europene. Exemple de întrebări la care sistemul a răspuns au fost: La ce nivel ar trebui să ajungă stabilizarea concentraţiilor de gaze cu efect de seră în atmosferă?, Care sunt procedurile comunitare pentru a contribui la lupta împotriva producătorilor de stupefiante?, Care este legătura dintre Banca Centrală Europeană şi euro? sau Unde este fumatul interzis?
  • Scenariu C: Medicină
    Sistemul de ÎR poate fi folosit în medicină, unde pe baza unei fișe de observații sau a unei discuții medic-pacient poate identifica cel mai probabil diagnostic, căutând într-o colecție de documente medicale, fișe și diagnostice. Doctorul discută cu pacientul și din discuție sunt extrase evenimente precum dată/simptom, care sunt ulterior transformate în query pentru un sistem de ÎR. Istoricul pacientului poate fi de asemenea încărcat pentru a ajuta la stabilirea unui diagnostic cât mai precis.

qa_img

Sistemele de ÎR folosesc o arhitectură generală de tip pipe-line, în care prelucrarea parcurge trei etape principale: analiza întrebării, căutarea documentară și extragerea răspunsului. Sistemul nostru este o variantă a arhitecturii generale, cu particularizări specifice legate de reprezentare si procesare pentru fiecare din componentele amintite mai sus.
Analiza intrebării: Această etapă are ca scop identificarea tipului răspunsului așteptat. În plus, se identifică tipul întrebării, focusul întrebării, si mulțimea cuvintelor cheie relevante pentru întrebare.
Căutarea documentară: În această etapă se urmarește extragerea paragrafelor relevante atașate fiecarei întrebări. Pentru aceasta mai intai corpusul se indexează pentru a putea identifica si extrage o cantitate cât mai redusă de informație relativ la o anumită întrebare. Dupa care se face extragerea paragrafelor relevante folosind si cuvintele cheie identificate la pasul anterior.
Extragerea răspunsului: Operația se bazează pe etapele anterioare. Procesul de extragere depinde de tipul așteptat al răspunsului: când răspunsul are un anumit tip de entitate de tip nume, modulul de extragere a răspunsului identifică aceste entitați în fiecare propozitie extrasă. Când tipul răspunsului nu este un nume de entitate, procesul de extragere se bazează în principal pe recunoașterea focusului, în acest caz șabloanele sintactice de găsire a răspunsului bazate pe focus fiind foarte importante.

Autori:

Adrian Iftene - Facultatea de Informatică Iași
e-mail: adiftene [at] info.uaic.ro 


Diana Trandabat - Facultatea de Informatică Iași
e-mail: dtrandabat [at] info.uaic.ro 


Mulțumiri: UAIC POSDRU /89/1.5/S/49944/