והרי הטקסטים עצמם

תודה רבה לאסף ברטוב וליואב גולדברג שעמלו שעות כימים להכין, לנקות ולעבד את קורפוס הטקסטים לקראת ההאקתון הקרב והסדנאות שיקדמו לו. ותודה כמובן לכל צוות פרוייקט בן-יהודה ומתנדביו שהעלו את הטקסטים לרשת!

הנה הם לפניכם, עם מעט מידע על עבודת ההכנה:

קבצי הטקסט כפי שהם נמצאים כיום באתר פרויקט בן-יהודה הם בפורמט html שמחוללת תכנת Word: תערובת של קידוד חלונות-1255 עם תווים לא תקניים (ש-word 'שותל') עם תוי unicode מקודדים מספרית (escaped).

Screen Shot 2014-02-16 at 12.18.29 AM

כאן תמצאו את רשימת כל הקבצים שהכין אסף, הכוללת מס' קובץ, שם מחבר/ת ושם יציר/ה. התהליך שהריץ אסף על הטקסטים הפך אותם לקבצי טקסט (txt.) נקיים, בקידוד UTF8 התקני ובשתי גרסאות: האחת עם ניקוד, האחת בלעדיו. והרי התוצאה:

benyehuda.org/~asaf/thatcamp/

יואב הוסיף והוריד מן הקבצים נתונים תבניתיים מיותרים, חילק למשפטים וערך טוקניזציה (tokenization), תיוג, למטיזציה וניתוח עצי תלויות (על כך, ראו את הסבריה של יעל בפוסט הקודם). והרי התוצאה:
u.cs.biu.ac.il/~yogo/benyehuda/

>

Categories: General |

אודות Sinai Rusinek

A missionary digital humanist, still aspiring to geekness. I run the DigIn Initative (www.thedigin.org). In daylights I am a post-doctoral fellow at the Polonsky academy (The Van Leer Jerusalem Institute) and editor of Contributions to the History of Concepts (www.historyofconcepts.org)

תגובה אחת בנושא והרי הטקסטים עצמם

  1. מאת אסף ברטוב‏:

    תודה רבה. (הקידוד הוא UTF8, כמובן.)

סגור לתגובות.