והרי הטקסטים עצמם

תודה רבה לאסף ברטוב וליואב גולדברג שעמלו שעות כימים להכין, לנקות ולעבד את קורפוס הטקסטים לקראת ההאקתון הקרב והסדנאות שיקדמו לו. ותודה כמובן לכל צוות פרוייקט בן-יהודה ומתנדביו שהעלו את הטקסטים לרשת!

הנה הם לפניכם, עם מעט מידע על עבודת ההכנה:

קבצי הטקסט כפי שהם נמצאים כיום באתר פרויקט בן-יהודה הם בפורמט html שמחוללת תכנת Word: תערובת של קידוד חלונות-1255 עם תווים לא תקניים (ש-word 'שותל') עם תוי unicode מקודדים מספרית (escaped).

Screen Shot 2014-02-16 at 12.18.29 AM

כאן תמצאו את רשימת כל הקבצים שהכין אסף, הכוללת מס' קובץ, שם מחבר/ת ושם יציר/ה. התהליך שהריץ אסף על הטקסטים הפך אותם לקבצי טקסט (txt.) נקיים, בקידוד UTF8 התקני ובשתי גרסאות: האחת עם ניקוד, האחת בלעדיו. והרי התוצאה:

benyehuda.org/~asaf/thatcamp/

יואב הוסיף והוריד מן הקבצים נתונים תבניתיים מיותרים, חילק למשפטים וערך טוקניזציה (tokenization), תיוג, למטיזציה וניתוח עצי תלויות (על כך, ראו את הסבריה של יעל בפוסט הקודם). והרי התוצאה:
u.cs.biu.ac.il/~yogo/benyehuda/

>

Categories: General |

אודות Sinai Rusinek

A missionary digital humanist, still aspiring to geekness. I run the DigIn Initative (www.thedigin.org). In daylights I am a post-doctoral fellow at the Polonsky academy (The Van Leer Jerusalem Institute) and editor of Contributions to the History of Concepts (www.historyofconcepts.org)

1 Response to והרי הטקסטים עצמם

  1. מאת אסף ברטוב‏:

    תודה רבה. (הקידוד הוא UTF8, כמובן.)

סגור לתגובות.