זיהוי דיאלוג ודוברים בטקסטים
הרעיון הוא לנסות לזהות דיאלוגים בטקסטים סיפוריים ולשייך לכל אמירה את הדובר שלה.
מתוך זיהוי והבנה של מהלך הדיאלוג אפשר לשרטט מערכות ואופי יחסים בסיפור, וגף לנסות לבודד ציטטות והבאת דברים ממקורות אחרים.
בעבודות קודמות, באנגלית — למשל
David K. Elson, Kathleen R. McKeown. 2010. Automatic Attribution of Quoted Speech in Literary Narrative. In Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI 2010), Atlanta, Georgia. [PDF]
המשימה מתבצעת על ידי
– זיהוי שמות פרטיים ושמות עצם בפסקה המקדימים את הציטוט במטרה למצוא דמויות או ביטויי התייחסות אליהן (שרלוק, מר הולמס, הבלש)
– אם אפשר, השמה של מין (זכר / נקבה) לדובר
– סימון דיאוגים בטקסט:
- החלפת המרכאות " בסימן <>
- זיהוי פועל דיבור <express_verb> ("קראו" "אמר" "פנתה")
- הסרת מידע טקסטואלי עודף
ומיון סוגי הציטוטים:
– Added quote: Bah!” said Scrooge, “Humbug!”
– Quote alone: Quote appears by itself in a paragraph but “Apparent conversation”
does not apply.
– Character trigram: <Target Quote>-<Expres Verb>-<Person>
– Anaphora trigram: <TARGET QUOTE> <PRONOUN> <EXPRESS VERB>
– All other quotes.
האם הכלים האלה יעבדו גם בעברית?