באדיבות יעל נצר:
בהאקתון הטקסטים של בן יהודה יהיו זמינים בשלושה פורמטים מעבר לזה של הטקסט הגולמי
– Tokenized
– Part of speech tagged
– Parsed with dependencies
הקבצים נוצרו על ידי אוסף הכלים הבאים:
מתייג חלקי דיבר part of speech tagger
תיוג חלקי דיבר הוא התהליך המקבל טקסט בשפה טבעית ו-tag set – קבוצת תגים, ומציב לכל מילה את חלק הדיבר המתאים לה.
בעברית שיש בה חיבורים רבים בין מילים (למשל ה' הידיעה, ו' החיבור, ש הזיקה, מילות יחס באותיות בכל"מ, סיומות שייכות) – המתייג מבצע ניתוח מורפולוגי בד בבד עם התיוג.
ז"א, חלק הדיבר של 'בצלם' יכול להיות למעשה שלוש מילים (ב-צל-שלהם) או מילה אחת (שם פרטי, ארגון)
להורדה:
www.cs.bgu.ac.il/~adlerm/dat/tagger.zip
מנתח תחבירי constituency parsing
עבודה של יואב גולדברג, www.cs.bgu.ac.il/~yoavg/software/hebparsers/hebconstparser/
ניתוח מבנה של משפט יוצר עץ גזירה מבוסס צירופים וכולל גם תפקידים תחביריים
כל constituent מסומן בסוגריים.
המנתח מניח שכל שורה בטקסט היא משפט. הרצת התכנית אורכת זמן
סוג הפלט
המשפט: לאחר שצלצל ושינה ושילש באה השוערת
(TOP (S (PP (IN לאחר) (SBAR (COM ש) (S (VP (VP (VB צלצל)) (CC ו) (VP (VB שינה)) (CC ו) (VP (VB שילש)))))) (yyCM ,) (VP (VB באה)) (NPSBJ (H ה) (NN שוערת)) (yyDOT .)))
ניתוח עצי תלויות dependency parsing
כלי שפיתח יואב גולדברג
u.cs.biu.ac.il/~yogo/hebwiki/
Named Entity Recognizer של נעמה בן מרדכי
HebrewNER היא חבילת תכנה לזיהוי שמות פרטיים בטקסט עברי. משימת זיהוי שמות פרטיים בטקסט היא אחת ממשימות הוצאת מידע (information extraction) בתחום עיבוד השפה הטבעית. במשימה זו אנו רוצים לתת לכל מילה בטקסט תיוג "שם פרטי" או "לא שם פרטי". במקרה של מתן תיוג "שם פרטי" יש לציין את סוג שם.
זיהוי השמות הפרטיים במערכת זו מתבצע ע"י שילוב מספר מודלים: מודל מרקוב חבוי (HMM), מודל אנטרופיה מקסימלית ומודל המשלב ביטויים רגולאריים עם לקסיקון הנבנה בעזרת קורפוס אימון. מודל האנטרופיה המקסימלית הוא המודל המוצלח ביותר ומצליח להתמודד עם כמות גדולה של מאפיינים. אולם המערכת אשר הציגה את התוצאות הטובות ביותר היא המערכת המשולבת.
www.cs.bgu.ac.il/~nlpproj/naama/
ה demo באתר לא פועל כרגע, אבל ההתקנה קלה, ג'אווה, קבצים בפורמט utf8
הפעלתי על טקסט מבן יהודה, זו דוגמת פלט, לפי המודל הקיים. אפשר לראות, למשל, ששנים עבריות לא מזוהות כתאריך. המודל מאומן על טקסטים בני זמננו, יש אפשרות לאמן מודל חדש (אבל זה מצריך תיוג).
חשוב להגיד ש recall נמוך (לא מזהה את רוב הצירופים) אבל precision יחסית גבוה.. (כלומר, לא טועה הרבה בזיהוי)
ערב O
פסח I_DATE
התרע"ח O
בארמון O
הבארון I_PERS
רוטשילד I_PERS
בפאריס I_LOC
נחום I_PERS
סוקולוב I_PERS
ה state of the art באנגלית הוא, למשל, הכלי של סטנפורד nlp.stanford.edu/software/CRF-NER.shtml