מיקום הכנס

שלום לכולם,

ההקאתון יתקיים החל ממחר, 17.2 בבניין חינוך באוניברסיטת חיפה, במרכז קיסריה רוטשילד, בניין חינוך. .

מליאת הפתיחה של ההקאתון וההרצאות יתקיימו בחדר 401 בבניין חינוך.

שלב הצעת ההצעות (יום ב, 17.2 שעה 1630), ושלב הצגת הפרוייקט (יום ג, 18.2 שעה 1630), יתקיימו בחדר 570 בבניין חינוך.

מחכים לראותכם

Categories: General | סגור לתגובות על מיקום הכנס

זיהוי דיאלוגים ודוברים

זיהוי דיאלוג ודוברים בטקסטים

הרעיון הוא לנסות לזהות דיאלוגים בטקסטים סיפוריים ולשייך לכל אמירה את הדובר שלה.

מתוך זיהוי והבנה של מהלך הדיאלוג אפשר לשרטט מערכות ואופי יחסים בסיפור, וגף לנסות לבודד ציטטות והבאת דברים ממקורות אחרים.

בעבודות קודמות, באנגלית — למשל

David K. Elson, Kathleen R. McKeown. 2010. Automatic Attribution of Quoted Speech in Literary Narrative. In Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence (AAAI 2010), Atlanta, Georgia. [PDF]

המשימה מתבצעת על ידי

–          זיהוי שמות פרטיים ושמות עצם בפסקה המקדימים את הציטוט במטרה למצוא דמויות או ביטויי התייחסות אליהן (שרלוק, מר הולמס, הבלש)

–          אם אפשר, השמה של מין (זכר / נקבה) לדובר

–          סימון דיאוגים בטקסט:

  • החלפת המרכאות " בסימן <>
  • זיהוי פועל דיבור <express_verb> ("קראו" "אמר" "פנתה")
  • הסרת מידע טקסטואלי עודף

ומיון סוגי הציטוטים:

–          Added quote: Bah!” said Scrooge, “Humbug!”

–         Quote alone: Quote appears by itself in a paragraph but “Apparent conversation”

does not apply.

–          Character trigram: <Target Quote>-<Expres Verb>-<Person>

–          Anaphora trigram: <TARGET QUOTE> <PRONOUN> <EXPRESS VERB>

–          All other quotes.

האם הכלים האלה יעבדו גם בעברית?

Categories: General | סגור לתגובות על זיהוי דיאלוגים ודוברים

והרי הטקסטים עצמם

תודה רבה לאסף ברטוב וליואב גולדברג שעמלו שעות כימים להכין, לנקות ולעבד את קורפוס הטקסטים לקראת ההאקתון הקרב והסדנאות שיקדמו לו. ותודה כמובן לכל צוות פרוייקט בן-יהודה ומתנדביו שהעלו את הטקסטים לרשת!

הנה הם לפניכם, עם מעט מידע על עבודת ההכנה:

קבצי הטקסט כפי שהם נמצאים כיום באתר פרויקט בן-יהודה הם בפורמט html שמחוללת תכנת Word: תערובת של קידוד חלונות-1255 עם תווים לא תקניים (ש-word 'שותל') עם תוי unicode מקודדים מספרית (escaped).

Screen Shot 2014-02-16 at 12.18.29 AM

כאן תמצאו את רשימת כל הקבצים שהכין אסף, הכוללת מס' קובץ, שם מחבר/ת ושם יציר/ה. התהליך שהריץ אסף על הטקסטים הפך אותם לקבצי טקסט (txt.) נקיים, בקידוד UTF8 התקני ובשתי גרסאות: האחת עם ניקוד, האחת בלעדיו. והרי התוצאה:

benyehuda.org/~asaf/thatcamp/

יואב הוסיף והוריד מן הקבצים נתונים תבניתיים מיותרים, חילק למשפטים וערך טוקניזציה (tokenization), תיוג, למטיזציה וניתוח עצי תלויות (על כך, ראו את הסבריה של יעל בפוסט הקודם). והרי התוצאה:
u.cs.biu.ac.il/~yogo/benyehuda/

>

Categories: General | תגובה אחת

כלים לעיבוד שפות טבעיות

באדיבות יעל נצר:

בהאקתון הטקסטים של בן יהודה יהיו זמינים בשלושה פורמטים מעבר לזה של הטקסט הגולמי

–       Tokenized

–       Part of speech tagged

–       Parsed with dependencies

הקבצים נוצרו על ידי אוסף הכלים הבאים:

 

מתייג חלקי דיבר part of speech tagger

תיוג חלקי דיבר הוא התהליך המקבל טקסט בשפה טבעית ו-tag set – קבוצת תגים, ומציב לכל מילה את חלק הדיבר המתאים לה.

בעברית שיש בה חיבורים רבים בין מילים (למשל ה' הידיעה, ו' החיבור, ש הזיקה, מילות יחס באותיות בכל"מ, סיומות שייכות) – המתייג מבצע ניתוח מורפולוגי בד בבד עם התיוג.

ז"א, חלק הדיבר של 'בצלם' יכול להיות למעשה שלוש מילים (ב-צל-שלהם) או מילה אחת (שם פרטי, ארגון)

להורדה:

www.cs.bgu.ac.il/~adlerm/dat/tagger.zip

מנתח תחבירי constituency parsing

עבודה של יואב גולדברג, www.cs.bgu.ac.il/~yoavg/software/hebparsers/hebconstparser/

ניתוח מבנה של משפט יוצר עץ גזירה מבוסס צירופים וכולל גם תפקידים תחביריים

כל constituent מסומן בסוגריים.

המנתח מניח שכל שורה בטקסט היא משפט. הרצת התכנית אורכת זמן

סוג הפלט

המשפט: לאחר שצלצל ושינה ושילש באה השוערת

(TOP (S (PP (IN לאחר) (SBAR (COM ש) (S (VP (VP (VB צלצל)) (CC ו) (VP (VB שינה)) (CC ו) (VP (VB שילש)))))) (yyCM ,) (VP (VB באה)) (NPSBJ (H ה) (NN שוערת)) (yyDOT .)))

 

ניתוח עצי תלויות dependency parsing

 

כלי שפיתח יואב גולדברג

u.cs.biu.ac.il/~yogo/hebwiki/

Named Entity Recognizer של נעמה בן מרדכי

HebrewNER היא חבילת תכנה לזיהוי שמות פרטיים בטקסט עברי.  משימת זיהוי שמות פרטיים בטקסט היא אחת ממשימות הוצאת מידע (information extraction) בתחום עיבוד השפה הטבעית. במשימה זו אנו רוצים לתת לכל מילה בטקסט תיוג "שם פרטי" או "לא שם פרטי". במקרה של מתן תיוג "שם פרטי" יש לציין את סוג שם.

זיהוי השמות הפרטיים במערכת זו מתבצע ע"י שילוב מספר מודלים: מודל מרקוב חבוי (HMM), מודל אנטרופיה מקסימלית ומודל המשלב ביטויים רגולאריים עם לקסיקון הנבנה בעזרת קורפוס אימון. מודל האנטרופיה המקסימלית הוא המודל המוצלח ביותר ומצליח להתמודד עם כמות גדולה של מאפיינים. אולם המערכת אשר הציגה את התוצאות הטובות ביותר היא המערכת המשולבת.

www.cs.bgu.ac.il/~nlpproj/naama/

ה demo באתר לא פועל כרגע, אבל ההתקנה קלה, ג'אווה, קבצים בפורמט utf8

הפעלתי על טקסט מבן יהודה, זו דוגמת פלט, לפי המודל הקיים. אפשר לראות, למשל, ששנים עבריות לא מזוהות כתאריך. המודל מאומן על טקסטים בני זמננו, יש אפשרות לאמן מודל חדש (אבל זה מצריך תיוג).

חשוב להגיד ש recall נמוך (לא מזהה את רוב הצירופים) אבל precision יחסית גבוה.. (כלומר, לא טועה הרבה בזיהוי)

ערב           O

פסח           I_DATE

התרע"ח   O

בארמון     O

הבארון     I_PERS

רוטשילד  I_PERS

בפאריס    I_LOC

נחום          I_PERS

סוקולוב    I_PERS

ה state of the art  באנגלית הוא, למשל, הכלי של סטנפורד nlp.stanford.edu/software/CRF-NER.shtml

 

Categories: General | סגור לתגובות על כלים לעיבוד שפות טבעיות

מנגנון חיפוש וייצוג על פי חתכים נבחרים

טוב, אז עכשיו אני:

The suggested group will create a search, filtering and visualization mechanism for the Ben-Yehuda website that will enable: author, title, year and word search (in either title or full text, preferably lemmatized) with map and timeline visualization. In a second phase, we will aspire to enable a text analytical platform (e.g. ANTCONC) and a graph and network visualization tool (e.g. RAW or PALLADIO).

Bialik_&_Ravnitzki
קבוצת העבודה שאני מציעה תאפשר חיפוש וסינון מתוחכם בקורפוס הטקסטים של פרוייקט בן יהודה, על פי מלים בגוף הטקסט או בכותרת (וכל המוסיף למטיזציה הרי זה משובח), מחבר, סוגה,תאריך ומקום חיבור/פרסום. את התוצאות אפשר יהיה לקבל כרשימה, כמפה, וכציר זמן.
אם תנוח עלינו הרוח, או תמיכה ומימון, נוכל להתקדם מכאן להנגשה של הקורפוס בכלי ניתוח טקסט (דוגמת ANTCONC) ובכלי של ניתוח רשתות, דוגמת הגרפים של RAW או  PALLADIO.
כשהפרוייקט שהציע עמוס – named entity recognition, יעלה פרי, אפשר יהיה לשלב בחיפוש לא רק את המטא-דאטה והטקסט אלא גם את המקומות והדמויות המסומנות בו.

במלים אחרות, אני רוצה כלי שיאפשר לכל משתמש/ת של פרוייקט בן יהודה, גם ללא כל ידע בתכנות וכריית מידע, לבדוק באתר פרוייקט בן-יהודה שאלות כמו, למשל:

מי, מתי והיכן הזכירו את המונח 'חילוני' או 'ציונות'?

אילו שירים עבריים מזכירים את הלענה, או את חודש כסלו?

כיצד מיוצג הכרמל בספרות העברית?

מכיון שסביר שאהיה עסוקה בארגון ההאקתון, חוששתני שלא אוכל להוביל את הקבוצה לבד, ואזדקק למוביל/ה במקומי. כך או כך, הקבוצה תידרש למתכנת/ת, לאיש/אשת בלשנות חישובית ולאנשי/נשות מדעי הרוח שיבחרו ויעבדו את המידע לגרסת הניסיון.

Categories: General | סגור לתגובות על מנגנון חיפוש וייצוג על פי חתכים נבחרים

מגיעים לחיפה ברכב?

rechev

לכניסה לאוניברסיטה ברכב, אנא שלחו את פרטי הרכב, עם שמכם (והזכירו שאתם משתתפים בהאקתון), לתמר לביאל: tlavyel שטרודל univ.haifa.ac.il כבר ביום ראשון בבוקר!

Categories: General | סגור לתגובות על מגיעים לחיפה ברכב?

האקתון בן יהודה מתקרב…

 Screen Shot 2014-02-13 at 11.33.10 AMוהרי מספר הודעות לקראת השבוע הבא:

1.      שימו לב לעדכונים בלוח הזמנים!  
2.      נפגש בבוקר יום שני, בבניין חינוך ומדעים באוניברסיטת חיפה (בכניסה לאוניברסיטה, מימין), קומה 4, חדר 401.
3.      אלו מכם הבאים מחוץ לחיפה: אנו מקווים שמצאתם כבר מקומות לינה, והתארגנתם לנסיעהאנו נדאג לארוחות במהלך היומיים של הארוע. מומלץ לצבור גם שעות שינה, שכן רבים מכם מתכוונים להישאר ולעבוד ביום שני אל תוך הלילה, וגם אם איננו דורשים זאת מכולכם, נשמח אם תצטרפו.
 
4.      זה הזמן להציע הצעות לקבוצות העבודה!
 
5.      אנא הביאו אתכם מחשבים ניידים (לא טאבלטים!) לסדנאות ולהאקתון.
 
6.      לקראת הסדנאות שביום שני, מומלץ מאד לנסות ולהתקין מראש את התכנות הרלוונטיות. אם לא תצליחו, נוכל לעזור בהתקנה בהפסקות של יום שני, אך התקנה מראש תחסוך לכולנו זמן יקר:
 
לסדנה:  Introduction to text encoding with TEI
הורידו את העורך של אוקסיג'ן:
והירשמו לגרסת הנסיון:
 
 
לסדנה: Discovering Deep Semantic Structures in Large Corpora
הורידו את התכנות החינמיות
 
(להוראות התקנה מפורטות: programminghistorian.org/lessons/topic-modeling-and-mallet )
 

 

Categories: General | סגור לתגובות על האקתון בן יהודה מתקרב…

הצעת קבוצת עבודה – ערן הדס

מציאת הבדלים בין שני קורפוסים על-סמך מאפיינים טקסטואליים.

לדוגמה: מציאת הבדל בין שני משוררים דרך מידת/אופן השימוש שלהם באוצר מלים של קורפוס מסוים.

דוגמה ספציפית: ביאליק נגד טשרניחובסקי – איך בא ההבדל הסגנוני ביניהם לידי ביטוי כשמודדים את השימוש שלהם במלים יחידאיות במקרא.

שימושים אפשריים: הוכחה "מתמטית" של הנחות איכותניות בספרות השוואתית, מציאת מחבר או דמיון למחבר על-סמך תכונות של טקסט (author attribution) ועוד

Finding differences between authors according to their use of specific textual features

Categories: General | תגובה אחת

Workshop Proposal – ebook converter

Convert Ben-Yehuda's files to epub and kindle formats, that will help the public (me) reading project's literature.

Workshop stages:

1. First converting from word format to MultiMarkDown format. Assaf already made a parser for this using Ruby – github.com/abartov/bybeconv.  You should look carefully in the script here. You can create Ruby environment on Linux by the following command: \curl -sSL get.rvm.io | bash -s stable –rails.  (thanks again to Assaf).

2. Develop converter of MultiMarkDown to epub and kindle formats, probably there is open source code for this.

3. Build a website for automatic process based on given url.

4. Help Assaf combine this feature in Ben-Yehuda website.

 

Categories: General | 2 תגובות

הצעת קבוצת עבודה – משה לביא

סוכן חכם לזיהוי עיבודי אגדה, מקורותיהם ומדידת עוצמת זיקתם למקורותיהם

פרוייקט בן יהודה כולל בין היתר מספר טקסטים שהם עיבודים מודרניים (ובמקרים נדירים מוקדמים יותר) של מקורות אגדה מן הספרות התלמודית והמדרשית.
חומרים רבים מעין אלו מצויים גם באוספים ספרותיים רבים מימי הביניים, ואף בקטעי גניזה רבים.
הטיפול המחקרי בחומרים אלו כולל בין היתר את האיתור של המקורות והמקבילות של העיבודים, את הניסיון להבחין בין שימוש ישיר לבין הקבלה, את מדידת מידת האקטיביות של המעבד.
מבחינת השירות לציבור תוצרי הסוכן הם בעלי ערך מובהק אף יותר מן ההבטחה הטמונה בהם לקידום המחקר –
א. עצם הוספת ההפניות למקורות והקישור האוטומטי אליהם,
ב. אפשרות הצגת סינופסיס משווה היא התקדמות חשובה.
ג. חשוב מכך – יצירת קישור אוטומטי לכלי רשת ראויים שכבר קיימים לרבים מסיפורי האגדה: (1) אתר ספר האגדה; (2) דפים באתר מדרשת; — קישורים נוספים שאני לא מודע אליהם.
בדרך כלל מתבצעות שרשרות הפעולות הבאות:
א. חיפוש מקבילות באמצעות כלי חיפושי קיימים (בעיקר פרוייקט השו"ת).
ב. העמדה סינופטית של המקבילות בצד העיבודים.
ג. במקרה של עיבוד שלא נמצא מקורו – הערכת אופיו של המקור העומד ברקע העיבוד על פי מאפייני לשון וסגנון.
הפרוייקט המוצע ימכן מרכיבים שונים (ובודאי לא את כולם בבת אחת) בשלבי העבודה הזו:
א. זיהוי אוטומטי של טקסטים החשודים כהיותם עיבודי אגדה.
ב. איתור המקבילות / המקורות של מקורות אלו.
ג. מדידת 'עוצמת הזיקה', ונסיון להגדיר מדדים להגדרתה כשימוש ישיר או עקיף.
ד. חילול אוטומטי של סינופסיס.
ה. חילול אוטומטי של קישורים והפניות.
אתגרים יחודיים:
ו. זיהוי 'קלפים מנצחים' – מה הם האלמנטים המהותיים המאפשרים בקלות לאתר מקבילות? מימוש הפרוייקט באמצעות שימוש עקיף בכלים קיימים (סוכן חכם לחיפושים במאגרים קייימים; זיהוי כלים קיימים שמאפשרים מימוש מרכיבים מסויימים – כגון הכנת מקבילות);
ז. זיהוי זיקה בין עיבודים בעברית למקורות בארמית.
ח. פישוט האלגוריתם – זמני חיפוש קצרים וכדומה – לצורך ביצועו בהמשך על קורפוסים בסדר גודל רחב יותר.

Categories: General | 5 תגובות