Sinai Rusinek – THATCamp Haifa 2014 http://haifa2014.thatcamp.org Just another THATCamp site Tue, 23 Jan 2018 08:49:38 +0000 he-IL hourly 1 https://wordpress.org/?v=4.9.12 והרי הטקסטים עצמם http://haifa2014.thatcamp.org/2014/02/15/%d7%95%d7%94%d7%a8%d7%99-%d7%94%d7%98%d7%a7%d7%a1%d7%98%d7%99%d7%9d-%d7%a2%d7%a6%d7%9e%d7%9d/ http://haifa2014.thatcamp.org/2014/02/15/%d7%95%d7%94%d7%a8%d7%99-%d7%94%d7%98%d7%a7%d7%a1%d7%98%d7%99%d7%9d-%d7%a2%d7%a6%d7%9e%d7%9d/#comments Sat, 15 Feb 2014 22:25:32 +0000 http://haifa2014.thatcamp.org/?p=359 להמשיך לקרוא ]]>

תודה רבה לאסף ברטוב וליואב גולדברג שעמלו שעות כימים להכין, לנקות ולעבד את קורפוס הטקסטים לקראת ההאקתון הקרב והסדנאות שיקדמו לו. ותודה כמובן לכל צוות פרוייקט בן-יהודה ומתנדביו שהעלו את הטקסטים לרשת!

הנה הם לפניכם, עם מעט מידע על עבודת ההכנה:

קבצי הטקסט כפי שהם נמצאים כיום באתר פרויקט בן-יהודה הם בפורמט html שמחוללת תכנת Word: תערובת של קידוד חלונות-1255 עם תווים לא תקניים (ש-word 'שותל') עם תוי unicode מקודדים מספרית (escaped).

Screen Shot 2014-02-16 at 12.18.29 AM

כאן תמצאו את רשימת כל הקבצים שהכין אסף, הכוללת מס' קובץ, שם מחבר/ת ושם יציר/ה. התהליך שהריץ אסף על הטקסטים הפך אותם לקבצי טקסט (txt.) נקיים, בקידוד UTF8 התקני ובשתי גרסאות: האחת עם ניקוד, האחת בלעדיו. והרי התוצאה:

benyehuda.org/~asaf/thatcamp/

יואב הוסיף והוריד מן הקבצים נתונים תבניתיים מיותרים, חילק למשפטים וערך טוקניזציה (tokenization), תיוג, למטיזציה וניתוח עצי תלויות (על כך, ראו את הסבריה של יעל בפוסט הקודם). והרי התוצאה:
u.cs.biu.ac.il/~yogo/benyehuda/

>

]]>
http://haifa2014.thatcamp.org/2014/02/15/%d7%95%d7%94%d7%a8%d7%99-%d7%94%d7%98%d7%a7%d7%a1%d7%98%d7%99%d7%9d-%d7%a2%d7%a6%d7%9e%d7%9d/feed/ 1
כלים לעיבוד שפות טבעיות http://haifa2014.thatcamp.org/2014/02/15/%d7%9b%d7%9c%d7%99%d7%9d-%d7%9c%d7%a2%d7%99%d7%91%d7%95%d7%93-%d7%a9%d7%a4%d7%95%d7%aa-%d7%98%d7%91%d7%a2%d7%99%d7%95%d7%aa/ Sat, 15 Feb 2014 21:41:00 +0000 http://haifa2014.thatcamp.org/?p=355 להמשיך לקרוא ]]>

באדיבות יעל נצר:

בהאקתון הטקסטים של בן יהודה יהיו זמינים בשלושה פורמטים מעבר לזה של הטקסט הגולמי

–       Tokenized

–       Part of speech tagged

–       Parsed with dependencies

הקבצים נוצרו על ידי אוסף הכלים הבאים:

 

מתייג חלקי דיבר part of speech tagger

תיוג חלקי דיבר הוא התהליך המקבל טקסט בשפה טבעית ו-tag set – קבוצת תגים, ומציב לכל מילה את חלק הדיבר המתאים לה.

בעברית שיש בה חיבורים רבים בין מילים (למשל ה' הידיעה, ו' החיבור, ש הזיקה, מילות יחס באותיות בכל"מ, סיומות שייכות) – המתייג מבצע ניתוח מורפולוגי בד בבד עם התיוג.

ז"א, חלק הדיבר של 'בצלם' יכול להיות למעשה שלוש מילים (ב-צל-שלהם) או מילה אחת (שם פרטי, ארגון)

להורדה:

www.cs.bgu.ac.il/~adlerm/dat/tagger.zip

מנתח תחבירי constituency parsing

עבודה של יואב גולדברג, www.cs.bgu.ac.il/~yoavg/software/hebparsers/hebconstparser/

ניתוח מבנה של משפט יוצר עץ גזירה מבוסס צירופים וכולל גם תפקידים תחביריים

כל constituent מסומן בסוגריים.

המנתח מניח שכל שורה בטקסט היא משפט. הרצת התכנית אורכת זמן

סוג הפלט

המשפט: לאחר שצלצל ושינה ושילש באה השוערת

(TOP (S (PP (IN לאחר) (SBAR (COM ש) (S (VP (VP (VB צלצל)) (CC ו) (VP (VB שינה)) (CC ו) (VP (VB שילש)))))) (yyCM ,) (VP (VB באה)) (NPSBJ (H ה) (NN שוערת)) (yyDOT .)))

 

ניתוח עצי תלויות dependency parsing

 

כלי שפיתח יואב גולדברג

u.cs.biu.ac.il/~yogo/hebwiki/

Named Entity Recognizer של נעמה בן מרדכי

HebrewNER היא חבילת תכנה לזיהוי שמות פרטיים בטקסט עברי.  משימת זיהוי שמות פרטיים בטקסט היא אחת ממשימות הוצאת מידע (information extraction) בתחום עיבוד השפה הטבעית. במשימה זו אנו רוצים לתת לכל מילה בטקסט תיוג "שם פרטי" או "לא שם פרטי". במקרה של מתן תיוג "שם פרטי" יש לציין את סוג שם.

זיהוי השמות הפרטיים במערכת זו מתבצע ע"י שילוב מספר מודלים: מודל מרקוב חבוי (HMM), מודל אנטרופיה מקסימלית ומודל המשלב ביטויים רגולאריים עם לקסיקון הנבנה בעזרת קורפוס אימון. מודל האנטרופיה המקסימלית הוא המודל המוצלח ביותר ומצליח להתמודד עם כמות גדולה של מאפיינים. אולם המערכת אשר הציגה את התוצאות הטובות ביותר היא המערכת המשולבת.

www.cs.bgu.ac.il/~nlpproj/naama/

ה demo באתר לא פועל כרגע, אבל ההתקנה קלה, ג'אווה, קבצים בפורמט utf8

הפעלתי על טקסט מבן יהודה, זו דוגמת פלט, לפי המודל הקיים. אפשר לראות, למשל, ששנים עבריות לא מזוהות כתאריך. המודל מאומן על טקסטים בני זמננו, יש אפשרות לאמן מודל חדש (אבל זה מצריך תיוג).

חשוב להגיד ש recall נמוך (לא מזהה את רוב הצירופים) אבל precision יחסית גבוה.. (כלומר, לא טועה הרבה בזיהוי)

ערב           O

פסח           I_DATE

התרע"ח   O

בארמון     O

הבארון     I_PERS

רוטשילד  I_PERS

בפאריס    I_LOC

נחום          I_PERS

סוקולוב    I_PERS

ה state of the art  באנגלית הוא, למשל, הכלי של סטנפורד nlp.stanford.edu/software/CRF-NER.shtml

 

]]>
מנגנון חיפוש וייצוג על פי חתכים נבחרים http://haifa2014.thatcamp.org/2014/02/15/%d7%9e%d7%a0%d7%92%d7%a0%d7%95%d7%9f-%d7%97%d7%99%d7%a4%d7%95%d7%a9-%d7%95%d7%99%d7%99%d7%a6%d7%95%d7%92-%d7%a2%d7%9c-%d7%a4%d7%99-%d7%97%d7%aa%d7%9b%d7%99%d7%9d-%d7%a0%d7%91%d7%97%d7%a8%d7%99%d7%9d/ Sat, 15 Feb 2014 08:31:29 +0000 http://haifa2014.thatcamp.org/?p=344 להמשיך לקרוא ]]>

טוב, אז עכשיו אני:

The suggested group will create a search, filtering and visualization mechanism for the Ben-Yehuda website that will enable: author, title, year and word search (in either title or full text, preferably lemmatized) with map and timeline visualization. In a second phase, we will aspire to enable a text analytical platform (e.g. ANTCONC) and a graph and network visualization tool (e.g. RAW or PALLADIO).

Bialik_&_Ravnitzki
קבוצת העבודה שאני מציעה תאפשר חיפוש וסינון מתוחכם בקורפוס הטקסטים של פרוייקט בן יהודה, על פי מלים בגוף הטקסט או בכותרת (וכל המוסיף למטיזציה הרי זה משובח), מחבר, סוגה,תאריך ומקום חיבור/פרסום. את התוצאות אפשר יהיה לקבל כרשימה, כמפה, וכציר זמן.
אם תנוח עלינו הרוח, או תמיכה ומימון, נוכל להתקדם מכאן להנגשה של הקורפוס בכלי ניתוח טקסט (דוגמת ANTCONC) ובכלי של ניתוח רשתות, דוגמת הגרפים של RAW או  PALLADIO.
כשהפרוייקט שהציע עמוס – named entity recognition, יעלה פרי, אפשר יהיה לשלב בחיפוש לא רק את המטא-דאטה והטקסט אלא גם את המקומות והדמויות המסומנות בו.

במלים אחרות, אני רוצה כלי שיאפשר לכל משתמש/ת של פרוייקט בן יהודה, גם ללא כל ידע בתכנות וכריית מידע, לבדוק באתר פרוייקט בן-יהודה שאלות כמו, למשל:

מי, מתי והיכן הזכירו את המונח 'חילוני' או 'ציונות'?

אילו שירים עבריים מזכירים את הלענה, או את חודש כסלו?

כיצד מיוצג הכרמל בספרות העברית?

מכיון שסביר שאהיה עסוקה בארגון ההאקתון, חוששתני שלא אוכל להוביל את הקבוצה לבד, ואזדקק למוביל/ה במקומי. כך או כך, הקבוצה תידרש למתכנת/ת, לאיש/אשת בלשנות חישובית ולאנשי/נשות מדעי הרוח שיבחרו ויעבדו את המידע לגרסת הניסיון.

]]> מגיעים לחיפה ברכב? http://haifa2014.thatcamp.org/2014/02/15/%d7%9e%d7%92%d7%99%d7%a2%d7%99%d7%9d-%d7%9c%d7%97%d7%99%d7%a4%d7%94-%d7%91%d7%a8%d7%9b%d7%91/ Sat, 15 Feb 2014 05:45:45 +0000 http://haifa2014.thatcamp.org/?p=337

rechev

לכניסה לאוניברסיטה ברכב, אנא שלחו את פרטי הרכב, עם שמכם (והזכירו שאתם משתתפים בהאקתון), לתמר לביאל: tlavyel שטרודל univ.haifa.ac.il כבר ביום ראשון בבוקר!

]]>
האקתון בן יהודה מתקרב… http://haifa2014.thatcamp.org/2014/02/15/%d7%94%d7%90%d7%a7%d7%aa%d7%95%d7%9f-%d7%91%d7%9f-%d7%99%d7%94%d7%95%d7%93%d7%94-%d7%9e%d7%aa%d7%a7%d7%a8%d7%91/ Sat, 15 Feb 2014 05:11:47 +0000 http://haifa2014.thatcamp.org/?p=313 להמשיך לקרוא ]]>

 Screen Shot 2014-02-13 at 11.33.10 AMוהרי מספר הודעות לקראת השבוע הבא:

1.      שימו לב לעדכונים בלוח הזמנים!  
2.      נפגש בבוקר יום שני, בבניין חינוך ומדעים באוניברסיטת חיפה (בכניסה לאוניברסיטה, מימין), קומה 4, חדר 401.
3.      אלו מכם הבאים מחוץ לחיפה: אנו מקווים שמצאתם כבר מקומות לינה, והתארגנתם לנסיעהאנו נדאג לארוחות במהלך היומיים של הארוע. מומלץ לצבור גם שעות שינה, שכן רבים מכם מתכוונים להישאר ולעבוד ביום שני אל תוך הלילה, וגם אם איננו דורשים זאת מכולכם, נשמח אם תצטרפו.
 
4.      זה הזמן להציע הצעות לקבוצות העבודה!
 
5.      אנא הביאו אתכם מחשבים ניידים (לא טאבלטים!) לסדנאות ולהאקתון.
 
6.      לקראת הסדנאות שביום שני, מומלץ מאד לנסות ולהתקין מראש את התכנות הרלוונטיות. אם לא תצליחו, נוכל לעזור בהתקנה בהפסקות של יום שני, אך התקנה מראש תחסוך לכולנו זמן יקר:
 
לסדנה:  Introduction to text encoding with TEI
הורידו את העורך של אוקסיג'ן:
והירשמו לגרסת הנסיון:
 
 
לסדנה: Discovering Deep Semantic Structures in Large Corpora
הורידו את התכנות החינמיות
 
(להוראות התקנה מפורטות: programminghistorian.org/lessons/topic-modeling-and-mallet )
 

 

]]>
טרמפים לחיפה? http://haifa2014.thatcamp.org/2014/02/11/%d7%98%d7%a8%d7%9e%d7%a4%d7%99%d7%9d-%d7%9c%d7%97%d7%99%d7%a4%d7%94/ http://haifa2014.thatcamp.org/2014/02/11/%d7%98%d7%a8%d7%9e%d7%a4%d7%99%d7%9d-%d7%9c%d7%97%d7%99%d7%a4%d7%94/#comments Tue, 11 Feb 2014 13:37:16 +0000 http://haifa2014.thatcamp.org/?p=294

מגיע/ה להאקתון בן יהודה ברכב ומחפש/ת חברה, או לחלופין, הסעה?
כתבו כאן בתגובה. herzl

]]>
http://haifa2014.thatcamp.org/2014/02/11/%d7%98%d7%a8%d7%9e%d7%a4%d7%99%d7%9d-%d7%9c%d7%97%d7%99%d7%a4%d7%94/feed/ 1
הזמנה לרעיונות לקבוצות עבודה http://haifa2014.thatcamp.org/2014/01/31/propos/ Fri, 31 Jan 2014 13:00:48 +0000 http://haifa2014.thatcamp.org/?p=240 להמשיך לקרוא ]]>

שלום למשתתפי האקתון בן יהודה!

מרגע זה אתם מוזמנים להעלות רעיונות לקבוצות עבודה  – אין זו חובה, שכן תוכלו להצטרף לקבוצות עבודה שיזמו אחרים; רעיונות בוודאי לא יחסרו. אבל אם יש לכם רעיון, ותהיו מוכנים להוביל קבוצה שתוקדש למימושו במהלך ההאקתון, לחצו על ה+ בסרגל העליון והציגו אותו בפוסט קצר, אך לא קצר מדי. (haifa2014.thatcamp.org/propose/)
תוצרי העבודה יכולים להיות הצעת מחקר משותפת, מסמך עמדה תאורטי, מהדורה מועשרת של אחד או יותר מן הטקסטים, 'כלי' או אפיון ראשוני של כלי לפיתוח (לדוגמה: בניית פלטפורמה להערה על שגיאות ושינויי נוסח בטקסטים של פרויקט בן יהודה, יצירת ממשק משתמש שכולל מידע והפניות למידע ביבליוגרפי וביוגרפי, יצירת מנוע חיפוש 'חכם' לטקסטים או ניתוח טקסט של הקורפוס, תיוג ידני או יצירת מאתר אוטומטי של תאריכים עבריים הממיר אותם לתאריכים לועזיים וממקם אותם על ציר זמן, זיהוי שמות מקומות ומיפויים, זיהוי או תיוג ידני של ציטוטים וקישורם לטקסטים מקוריים, ועוד). התנאי היחיד הוא שהעבודה במהלך שני ימי ההאקתון תחול על הטקסטים של פרויקט בן יהודה (גם אם התוצר פותח אפשרויות להחלה על טקסטים ותחומים אחרים בהמשך).

את ההצעה תוכלו לכתוב בעברית, אך אנא צרפו משפט הבהרה או שנים באנגלית עבור מנחי הסדנאות, שיסייעו בניהול ההאקתון ויתרמו במידת האפשר לעבודת הקבוצות.

]]>
לינה בחיפה http://haifa2014.thatcamp.org/2014/01/23/%d7%9c%d7%99%d7%a0%d7%94-%d7%91%d7%97%d7%99%d7%a4%d7%94/ Thu, 23 Jan 2014 09:18:20 +0000 http://haifa2014.thatcamp.org/?p=271 להמשיך לקרוא ]]>

להלן אפשרויות הלינה בחיפה:

1) הזמנת חדר במלון נוף דרך הסכם האוניברסיטה איתם. להלן הפרטים:

 חדר סטנדרטי במלון נוף, כולל ארוחת בוקר, עולה 281 ₪ (לישראלים צריך להוסיף מע"מ). אנא שלחו שם מלא, תאריכי הגעה ועזיבה למשה לביא   mlavee   at   research.haifa.ac.il

2) דירות אירוח במעונות

במעונות פנויות 5 דירות אירוח זוגיות. אם יתארח זוג (זו מיטה זוגית – לא שתי מיטות נפרדות) – המחיר הוא 60 דולר.

אם יתארח בדירה רק יחיד/ה – המחיר הוא 55 דולר לאדם. החדרים אינם כוללים ארוחת בוקר, אבל יש סופר-מרקט סמוך שנפתח מוקדם, או שאפשר לאכול באחת המסעדות באוניברסיטה (שנפתחות ב-07:00).

המעוניינים – נא לשלוח במהרה כדי שנעשה עבורכם הזמנות!

למידע על אפשרויות נוספות (לא בהכרח מעודכן, אבל עדיין יכול לעזור), מארגני ויקימניה עשו עבודת מיפוי מצויינת לפני שנתיים: wikimania2011.wikimedia.org/wiki/Accommodation/he (שימו לב לטאבים השונים)

משה לביא

]]> שמחים להודיע! http://haifa2014.thatcamp.org/2013/11/20/announcement/ Wed, 20 Nov 2013 09:53:32 +0000 http://haifa2014.thatcamp.org/?p=119 להמשיך לקרוא ]]>

Scroll down for English

hackathonBYבתאריכים 17-18 בפברואר יתכנסו באוניברסיטת חיפה חוקרי מדעי הרוח – ספרות, מקרא, תלמוד והיסטוריה – עם אנשי מדעי המחשב, ניהול מידע ובלשנות חישובית, ועם מפתחי תוכנה מן האקדמיה ומחוצה לה, לעבודה משותפת על הקורפוס הטקסטואלי של פרויקט בן-יהודה (benyehuda.org/). פרויקט בן-יהודה הוא מפעל התנדבותי המעלה לרשת מזה 14 שנה ספרות עברית, שירה, מסות ומאמרים, בפורמט HTML, זמין ופתוח לציבור הרחב. עם השנים הפך למאגר הטקסטים המרכזי של הספרות העברית החדשה.

בשנים האחרונות התפתחו כלים ושיטות לעבודה עם טקסט דיגיטלי, הפותחים אפשרויות וגישות חדשות למחקר במדעי הרוח. מטרתו של 'הקאתון בן-יהודה' לפרוץ דרך לתחום מדעי הרוח הדיגיטליים בארץ ובתוך כך לקדם את הנכס התרבותי של מאגר הטקסטים ואת השימוש בו בקרב קהילת החוקרים והציבור הרחב כאחד. ברוח מדעי הרוח הדיגיטליים הארוע ייערך כ'הקאתון'/ THATcamp (על הפורמט של THATcamps אפשר לקרוא כאן: thatcamp.org/about/ ). משמע, המשתתפים עצמם יעלו יוזמות ורעיונות לפרויקטים, במושב שיוקדש לכך בסוף היום הראשון, ויתחלקו לצוותי עבודה.

מספר המשתתפים מוגבל – מהרו להירשם!

להרשמה

The Haifa THATcamp will take place at the Haifa University on February 17-18 and will bring together students, scholars and professionals from the humanities, computer science, software development and natural language processing to work together on the textual corpus of the Ben-Yehuda Project, an open access collection of Hebrew prose, poetry and non-fiction literature.  The event is meant to be a step towards the advancement of digital humanities in Israel while promoting and enriching this important cultural resource and availing to the community of scholars and the reading public alike.

sponsors


 

 

]]>