הצעת קבוצת עבודה – משה לביא

סוכן חכם לזיהוי עיבודי אגדה, מקורותיהם ומדידת עוצמת זיקתם למקורותיהם

פרוייקט בן יהודה כולל בין היתר מספר טקסטים שהם עיבודים מודרניים (ובמקרים נדירים מוקדמים יותר) של מקורות אגדה מן הספרות התלמודית והמדרשית.
חומרים רבים מעין אלו מצויים גם באוספים ספרותיים רבים מימי הביניים, ואף בקטעי גניזה רבים.
הטיפול המחקרי בחומרים אלו כולל בין היתר את האיתור של המקורות והמקבילות של העיבודים, את הניסיון להבחין בין שימוש ישיר לבין הקבלה, את מדידת מידת האקטיביות של המעבד.
מבחינת השירות לציבור תוצרי הסוכן הם בעלי ערך מובהק אף יותר מן ההבטחה הטמונה בהם לקידום המחקר –
א. עצם הוספת ההפניות למקורות והקישור האוטומטי אליהם,
ב. אפשרות הצגת סינופסיס משווה היא התקדמות חשובה.
ג. חשוב מכך – יצירת קישור אוטומטי לכלי רשת ראויים שכבר קיימים לרבים מסיפורי האגדה: (1) אתר ספר האגדה; (2) דפים באתר מדרשת; — קישורים נוספים שאני לא מודע אליהם.
בדרך כלל מתבצעות שרשרות הפעולות הבאות:
א. חיפוש מקבילות באמצעות כלי חיפושי קיימים (בעיקר פרוייקט השו"ת).
ב. העמדה סינופטית של המקבילות בצד העיבודים.
ג. במקרה של עיבוד שלא נמצא מקורו – הערכת אופיו של המקור העומד ברקע העיבוד על פי מאפייני לשון וסגנון.
הפרוייקט המוצע ימכן מרכיבים שונים (ובודאי לא את כולם בבת אחת) בשלבי העבודה הזו:
א. זיהוי אוטומטי של טקסטים החשודים כהיותם עיבודי אגדה.
ב. איתור המקבילות / המקורות של מקורות אלו.
ג. מדידת 'עוצמת הזיקה', ונסיון להגדיר מדדים להגדרתה כשימוש ישיר או עקיף.
ד. חילול אוטומטי של סינופסיס.
ה. חילול אוטומטי של קישורים והפניות.
אתגרים יחודיים:
ו. זיהוי 'קלפים מנצחים' – מה הם האלמנטים המהותיים המאפשרים בקלות לאתר מקבילות? מימוש הפרוייקט באמצעות שימוש עקיף בכלים קיימים (סוכן חכם לחיפושים במאגרים קייימים; זיהוי כלים קיימים שמאפשרים מימוש מרכיבים מסויימים – כגון הכנת מקבילות);
ז. זיהוי זיקה בין עיבודים בעברית למקורות בארמית.
ח. פישוט האלגוריתם – זמני חיפוש קצרים וכדומה – לצורך ביצועו בהמשך על קורפוסים בסדר גודל רחב יותר.

Categories: General | 5 תגובות

linked Ben Yehuda: סימון מקומות, תאריכים ואנשים וחיבור למידע

הרעיון הוא לקחת מאגר שמות מקומות (בהטיות שונות), תאריכים (בצורות כתיבה שונות) ואנשים (כנ"ל) ולייצר סימון אוטומטי של שמות מקומות ואנשים (ותאריכים).

מכיוון שהסימון יהיה אוטומטי, הייתי מציע שתהיה אופציה לערער על הזיהוי האוטומטי, ואז ייפתח יישום של חכמת המונים של הצבעה עבור הזיהויים השונים (אולי עם אפשרות לבלון עם הנמקות לזיהוי).

[ מה שיאפשר בשלב הבא פעולות נוספות (חיבור למידע על האנשים והמקומות (למשל אנשים לללקסיקון הספרות העברית ומקומות לויקיפדיה ולמפה) חיבור בין אזכורים, אתרים חיצוניים ועוד. – או לפחות להכין את התשתית לכך
ניתן גם לחשוב על ייצוג היסטורי גיאוגרפי של הפרויקט או של יוצרים וחיבוריהם על גבי מפה. ]

באותו אופן ניתן אולי לסמן שמות של יצירות ולחברם לספרות משנית על יצירות אלו?

אני נאלץ לעזוב את ההקאתון בשלישי לפנות בוקר ולכן לא אוכל להוביל את הקבוצה לאורך כל הדרך, ובכלל אני מזמין מעוניינים לקחת את ההובלה במשותף מן ההתחלה.

Categories: Crowdsourcing, Linked Data, Session: Make, Text Mining | 2 תגובות

טרמפים לחיפה?

מגיע/ה להאקתון בן יהודה ברכב ומחפש/ת חברה, או לחלופין, הסעה?
כתבו כאן בתגובה. herzl

Categories: General | תגובה אחת

הזמנה לרעיונות לקבוצות עבודה

שלום למשתתפי האקתון בן יהודה!

מרגע זה אתם מוזמנים להעלות רעיונות לקבוצות עבודה  – אין זו חובה, שכן תוכלו להצטרף לקבוצות עבודה שיזמו אחרים; רעיונות בוודאי לא יחסרו. אבל אם יש לכם רעיון, ותהיו מוכנים להוביל קבוצה שתוקדש למימושו במהלך ההאקתון, לחצו על ה+ בסרגל העליון והציגו אותו בפוסט קצר, אך לא קצר מדי. (haifa2014.thatcamp.org/propose/)
תוצרי העבודה יכולים להיות הצעת מחקר משותפת, מסמך עמדה תאורטי, מהדורה מועשרת של אחד או יותר מן הטקסטים, 'כלי' או אפיון ראשוני של כלי לפיתוח (לדוגמה: בניית פלטפורמה להערה על שגיאות ושינויי נוסח בטקסטים של פרויקט בן יהודה, יצירת ממשק משתמש שכולל מידע והפניות למידע ביבליוגרפי וביוגרפי, יצירת מנוע חיפוש 'חכם' לטקסטים או ניתוח טקסט של הקורפוס, תיוג ידני או יצירת מאתר אוטומטי של תאריכים עבריים הממיר אותם לתאריכים לועזיים וממקם אותם על ציר זמן, זיהוי שמות מקומות ומיפויים, זיהוי או תיוג ידני של ציטוטים וקישורם לטקסטים מקוריים, ועוד). התנאי היחיד הוא שהעבודה במהלך שני ימי ההאקתון תחול על הטקסטים של פרויקט בן יהודה (גם אם התוצר פותח אפשרויות להחלה על טקסטים ותחומים אחרים בהמשך).

את ההצעה תוכלו לכתוב בעברית, אך אנא צרפו משפט הבהרה או שנים באנגלית עבור מנחי הסדנאות, שיסייעו בניהול ההאקתון ויתרמו במידת האפשר לעבודת הקבוצות.

Categories: General | סגור לתגובות על הזמנה לרעיונות לקבוצות עבודה

לינה בחיפה

להלן אפשרויות הלינה בחיפה:

1) הזמנת חדר במלון נוף דרך הסכם האוניברסיטה איתם. להלן הפרטים:

 חדר סטנדרטי במלון נוף, כולל ארוחת בוקר, עולה 281 ₪ (לישראלים צריך להוסיף מע"מ). אנא שלחו שם מלא, תאריכי הגעה ועזיבה למשה לביא   mlavee   at   research.haifa.ac.il

2) דירות אירוח במעונות

במעונות פנויות 5 דירות אירוח זוגיות. אם יתארח זוג (זו מיטה זוגית – לא שתי מיטות נפרדות) – המחיר הוא 60 דולר.

אם יתארח בדירה רק יחיד/ה – המחיר הוא 55 דולר לאדם. החדרים אינם כוללים ארוחת בוקר, אבל יש סופר-מרקט סמוך שנפתח מוקדם, או שאפשר לאכול באחת המסעדות באוניברסיטה (שנפתחות ב-07:00).

המעוניינים – נא לשלוח במהרה כדי שנעשה עבורכם הזמנות!

למידע על אפשרויות נוספות (לא בהכרח מעודכן, אבל עדיין יכול לעזור), מארגני ויקימניה עשו עבודת מיפוי מצויינת לפני שנתיים: wikimania2011.wikimedia.org/wiki/Accommodation/he (שימו לב לטאבים השונים)

משה לביא

Categories: Administrative, General | סגור לתגובות על לינה בחיפה

שמחים להודיע!

Eliezer_und_Hemda_Ben_Jehuda_im_Jahre_1912Scroll down for English

hackathonBYבתאריכים 17-18 בפברואר יתכנסו באוניברסיטת חיפה חוקרי מדעי הרוח – ספרות, מקרא, תלמוד והיסטוריה – עם אנשי מדעי המחשב, ניהול מידע ובלשנות חישובית, ועם מפתחי תוכנה מן האקדמיה ומחוצה לה, לעבודה משותפת על הקורפוס הטקסטואלי של פרויקט בן-יהודה (benyehuda.org/). פרויקט בן-יהודה הוא מפעל התנדבותי המעלה לרשת מזה 14 שנה ספרות עברית, שירה, מסות ומאמרים, בפורמט HTML, זמין ופתוח לציבור הרחב. עם השנים הפך למאגר הטקסטים המרכזי של הספרות העברית החדשה.

בשנים האחרונות התפתחו כלים ושיטות לעבודה עם טקסט דיגיטלי, הפותחים אפשרויות וגישות חדשות למחקר במדעי הרוח. מטרתו של 'הקאתון בן-יהודה' לפרוץ דרך לתחום מדעי הרוח הדיגיטליים בארץ ובתוך כך לקדם את הנכס התרבותי של מאגר הטקסטים ואת השימוש בו בקרב קהילת החוקרים והציבור הרחב כאחד. ברוח מדעי הרוח הדיגיטליים הארוע ייערך כ'הקאתון'/ THATcamp (על הפורמט של THATcamps אפשר לקרוא כאן: thatcamp.org/about/ ). משמע, המשתתפים עצמם יעלו יוזמות ורעיונות לפרויקטים, במושב שיוקדש לכך בסוף היום הראשון, ויתחלקו לצוותי עבודה.

מספר המשתתפים מוגבל – מהרו להירשם!

להרשמה

The Haifa THATcamp will take place at the Haifa University on February 17-18 and will bring together students, scholars and professionals from the humanities, computer science, software development and natural language processing to work together on the textual corpus of the Ben-Yehuda Project, an open access collection of Hebrew prose, poetry and non-fiction literature.  The event is meant to be a step towards the advancement of digital humanities in Israel while promoting and enriching this important cultural resource and availing to the community of scholars and the reading public alike.

sponsors

Categories: General | סגור לתגובות על שמחים להודיע!