תודה רבה לאסף ברטוב וליואב גולדברג שעמלו שעות כימים להכין, לנקות ולעבד את קורפוס הטקסטים לקראת ההאקתון הקרב והסדנאות שיקדמו לו. ותודה כמובן לכל צוות פרוייקט בן-יהודה ומתנדביו שהעלו את הטקסטים לרשת!
הנה הם לפניכם, עם מעט מידע על עבודת ההכנה:
קבצי הטקסט כפי שהם נמצאים כיום באתר פרויקט בן-יהודה הם בפורמט html שמחוללת תכנת Word: תערובת של קידוד חלונות-1255 עם תווים לא תקניים (ש-word 'שותל') עם תוי unicode מקודדים מספרית (escaped).
כאן תמצאו את רשימת כל הקבצים שהכין אסף, הכוללת מס' קובץ, שם מחבר/ת ושם יציר/ה. התהליך שהריץ אסף על הטקסטים הפך אותם לקבצי טקסט (txt.) נקיים, בקידוד UTF8 התקני ובשתי גרסאות: האחת עם ניקוד, האחת בלעדיו. והרי התוצאה:
יואב הוסיף והוריד מן הקבצים נתונים תבניתיים מיותרים, חילק למשפטים וערך טוקניזציה (tokenization), תיוג, למטיזציה וניתוח עצי תלויות (על כך, ראו את הסבריה של יעל בפוסט הקודם). והרי התוצאה:
u.cs.biu.ac.il/~yogo/benyehuda/
>
תודה רבה. (הקידוד הוא UTF8, כמובן.)