כלים לעיבוד שפות טבעיות

באדיבות יעל נצר:

בהאקתון הטקסטים של בן יהודה יהיו זמינים בשלושה פורמטים מעבר לזה של הטקסט הגולמי

–       Tokenized

–       Part of speech tagged

–       Parsed with dependencies

הקבצים נוצרו על ידי אוסף הכלים הבאים:

 

מתייג חלקי דיבר part of speech tagger

תיוג חלקי דיבר הוא התהליך המקבל טקסט בשפה טבעית ו-tag set – קבוצת תגים, ומציב לכל מילה את חלק הדיבר המתאים לה.

בעברית שיש בה חיבורים רבים בין מילים (למשל ה' הידיעה, ו' החיבור, ש הזיקה, מילות יחס באותיות בכל"מ, סיומות שייכות) – המתייג מבצע ניתוח מורפולוגי בד בבד עם התיוג.

ז"א, חלק הדיבר של 'בצלם' יכול להיות למעשה שלוש מילים (ב-צל-שלהם) או מילה אחת (שם פרטי, ארגון)

להורדה:

www.cs.bgu.ac.il/~adlerm/dat/tagger.zip

מנתח תחבירי constituency parsing

עבודה של יואב גולדברג, www.cs.bgu.ac.il/~yoavg/software/hebparsers/hebconstparser/

ניתוח מבנה של משפט יוצר עץ גזירה מבוסס צירופים וכולל גם תפקידים תחביריים

כל constituent מסומן בסוגריים.

המנתח מניח שכל שורה בטקסט היא משפט. הרצת התכנית אורכת זמן

סוג הפלט

המשפט: לאחר שצלצל ושינה ושילש באה השוערת

(TOP (S (PP (IN לאחר) (SBAR (COM ש) (S (VP (VP (VB צלצל)) (CC ו) (VP (VB שינה)) (CC ו) (VP (VB שילש)))))) (yyCM ,) (VP (VB באה)) (NPSBJ (H ה) (NN שוערת)) (yyDOT .)))

 

ניתוח עצי תלויות dependency parsing

 

כלי שפיתח יואב גולדברג

u.cs.biu.ac.il/~yogo/hebwiki/

Named Entity Recognizer של נעמה בן מרדכי

HebrewNER היא חבילת תכנה לזיהוי שמות פרטיים בטקסט עברי.  משימת זיהוי שמות פרטיים בטקסט היא אחת ממשימות הוצאת מידע (information extraction) בתחום עיבוד השפה הטבעית. במשימה זו אנו רוצים לתת לכל מילה בטקסט תיוג "שם פרטי" או "לא שם פרטי". במקרה של מתן תיוג "שם פרטי" יש לציין את סוג שם.

זיהוי השמות הפרטיים במערכת זו מתבצע ע"י שילוב מספר מודלים: מודל מרקוב חבוי (HMM), מודל אנטרופיה מקסימלית ומודל המשלב ביטויים רגולאריים עם לקסיקון הנבנה בעזרת קורפוס אימון. מודל האנטרופיה המקסימלית הוא המודל המוצלח ביותר ומצליח להתמודד עם כמות גדולה של מאפיינים. אולם המערכת אשר הציגה את התוצאות הטובות ביותר היא המערכת המשולבת.

www.cs.bgu.ac.il/~nlpproj/naama/

ה demo באתר לא פועל כרגע, אבל ההתקנה קלה, ג'אווה, קבצים בפורמט utf8

הפעלתי על טקסט מבן יהודה, זו דוגמת פלט, לפי המודל הקיים. אפשר לראות, למשל, ששנים עבריות לא מזוהות כתאריך. המודל מאומן על טקסטים בני זמננו, יש אפשרות לאמן מודל חדש (אבל זה מצריך תיוג).

חשוב להגיד ש recall נמוך (לא מזהה את רוב הצירופים) אבל precision יחסית גבוה.. (כלומר, לא טועה הרבה בזיהוי)

ערב           O

פסח           I_DATE

התרע"ח   O

בארמון     O

הבארון     I_PERS

רוטשילד  I_PERS

בפאריס    I_LOC

נחום          I_PERS

סוקולוב    I_PERS

ה state of the art  באנגלית הוא, למשל, הכלי של סטנפורד nlp.stanford.edu/software/CRF-NER.shtml

 

Categories: General |

אודות Sinai Rusinek

A missionary digital humanist, still aspiring to geekness. I run the DigIn Initative (www.thedigin.org). In daylights I am a post-doctoral fellow at the Polonsky academy (The Van Leer Jerusalem Institute) and editor of Contributions to the History of Concepts (www.historyofconcepts.org)