תקציר מנהלים: ביום חמישי אני נוסע לברלין לפגישה של הוועדה הלשונית של ויקימדיה. בפגישה יידונו בעיות טכניות בתמיכה של תכנוֹת, אתרי אינטרנט ומערכות הפעלה בשפות שונות ולא רק בהקשר של ויקיפדיה. אם יש בעיות בתמיכה של מחשבים בעברית או בכל שפה אחרת שמציקות לכם, ספרו לי עליהן, גם אם אתם חושבים שכולם כבר מכירים אותן.
ברשומה הזאת יש תמונה של חתולה.
ב־2006 התרחשה בוויקיפדיה פרשייה משונה – "פרשיית הוויקיפדיה הסיבירית". ראוי לכתוב עליה עוד, אבל לצורך העניין אכתוב כאן בשיא הקיצור: כמה חֶבְרֶה מרוסיה ביקשו להקים ויקיפדיה בשפה ה"סיבירית", שלטענתם היא שפה סלאבית נפרדת מרוסית. הם גיבו את הטענה במאמרים מדעיים – אמתיים לגמרי – שאומרים שיש לכל הפחות להגים מיוחדים של רוסית בסיביר. מנהלי אתר ויקיפדיה קיבלו את בקשתם ויצרו את המתחם ru-sib.wikipedia.org והחברה האלה התחילו לכתוב שם ערכים. דוברי רוסית שמו לב לדבר הזה והבינו מהר מאוד שהמטרה של האתר הזה היא לא לכתוב אנציקלופדיה בלהג הסיבירי של רוסית, אלא לכתוב קללות ובדיחות קרש בשפה מצחיקה שדומה לרוסית, וביקשו את מחיקתה.
אני גיליתי את הפרויקט הזה ובתחילה לא חשבתי שמדובר בשטויות והענקתי להם תמיכה טכנית ורעיונית, אולם אחרי כמה חודשים הבנתי גם אני שהם לא רציניים והפסקתי לתמוך בהם. אחרי עוד מספר חודשים של דיונים סוערים ויקיפדיה הסיבירית נמחקה. איזה הסבר רשמי נמצא למחיקה? קוד השפה ru-sib אינו קיים בתקן ISO 639, המגדיר קודים של שפות. הכלל הזה לא היה רשמי עד אז, אבל הוגדר ככלל קשיח כדי לאפשר את סגירה מסודרת של ויקיפדיה הסיבירית שהפכה לאחד הכתמים החמורים במוניטין של ויקיפדיה.
את הכלל ניסחה "הוועדה הלשונית", שהוקמה באותה התקופה. המטרות העיקריות שהוגדרו לוועדה הן ניסוח ואכיפה של מדיניות להקמה ותחזוקה של מיזמי ויקימדיה בשפות שונות, הפחתה מרבית של שיקולים פוליטיים בהקמת מיזמים, וכן מיפוי של בעיות טכניות שמפריעות לקיום ופיתוח של מיזמים בשפות שונות וחיפוש פתרונות לבעיות האלו. ההחלטה לדרוש שוויקיפדיות חדשות ייפתחו רק עבור שפות שיש להן קוד ISO 639 אכן הצליחה להפחית את הוויכוחים הפוליטיים – קרה מאז עוד מספר פעמים שקבוצות של דוברי שפה מסוימת ביקשו הקמה של ויקיפדיה בשפה שלהם וטענו שהממשלה שלהם מקפחת אותם ולא מכירה בשפתם. אם לא היה לשפה שלהם קוד ISO 639, בקשתם נדחתה והם הופנו לארגון ISO – אם הם משכנעים את ISO שהשפה שלהם אמתית והם יקבלו קוד, הם יקבלו גם ויקיפדיה. ויקימדיה רצתה להיות בלתי פוליטית ונפטרה מתפוח האדמה הלוהט הזה.
בשנת 2010 הצטרפתי לוועדה הזאת גם אני. איך זה קרה? לא אטייח ולא אמציא: נסעתי לכנס ויקימניה בגדנסק ושתיתי שם בירה עם חבר הוועדה מִילוֹשׁ רַנְצִ׳יץ׳, ויקיפד ותיק מסרביה. הוא הכיר אותי בתור חובב לשון עוד לפני־כן מהמכתבים הרבים ששלחתי לרשימות התפוצה בנושא ויקיפדיה, אבל רק כששתינו את הבירה הזאת הוא הציע לי להיות חבר בוועדה. וכך הפכתי לחבר בוועדה שהוקמה ארבע שנים קודם כדי לסגור מיזם שהייתי אחד ממוביליו. או שמילוש לא שם לב לזה, או שלא היה אכפת לו, או שממש חשב שאותו הניסיון הרע שיפר את שיקול הדעת שלי.
מה עשיתי בתור חבר ועדה? דחיתי בקשות להקים ויקיפדיות שלא היה להן קוד ISO או שהיה להן קוד, אבל שמקימיהן לא הוכיחו שהם באמת מתכוונים לכתוב ויקיפדיה רצינית. אישרתי הקמת ויקיפדיות בכמה שפות, בהן הצ׳רקסית – זה היה כיף במיוחד, כי בשביל זה נסעתי לכפר־כמא (ועוד אספר על זה). עסקתי במיוחד בשפות שקשורות לרוסיה, והייתי בפועל השגריר של הוועדה הלשונית למיעוטים שונים שם, כי האנגלית שלהם לא משהו.
אבל הגעתי כנראה בזמן טוב: חברי הוועדה הוותיקים החליטו שהגיע הזמן להפסיק להיות מעט יותר מחותמת גומי לפתיחת ויקיפדיות חדשות ולהתחיל גם ליישם את המטרה האחרת של הוועדה: לפתור בעיות טכניות שמפריעות לוויקיפדיה בשפות השונות להתפתח. לשם כך הוחלט לכנס פגישה אישית בין־לאומית של חברי הוועדה. לאחר משא ומתן עמותת ויקימדיה גרמניה נתנה את חסותה לאירוח הפגישה. הפגישה תיערך בסוף השבוע הקרוב בברלין, באותו זמן ובאותו מקום עם כנס המפתחים של תכנת מדיה־ויקי, המנוע שמפעיל את ויקיפדיה.
הנה דוגמה לבעיה לשונית כזאת שקרובה ומובנת לדוברי עברית: תצוגת התנ״ך באתר ויקיטקסט. ר׳ למשל של שמות א: אם לא התקנתם במחשב שלכם גופן שתומך היטב בניקוד ובטעמי מקרא, כגון Ezra SIL SR או SBL Hebrew, תראו בלגן במקום טעמי מקרא. אם יש לכם חלונות 7, יש סיכוי שתראו את זה טוב יותר, אבל כנראה לא מושלם. איך אפשר לפתור את זה? דרך אחת טובה היא להתקין אחד מהגופנים האלה. הבעיה היא שרוב האנשים הרגילים לא כל־כך אוהבים להתקין גופנים – הם רואים אתר שנראה מבולגן ופשוט חושבים שהוא לא עובד וסוגרים אותו. דרך אחרת היא להשתמש בגופני רשת – הגופן נשמר בשרת, הדפדפן טוען אותו באופן אוטומטי בלי שום מאמץ מצד המשתמש ומציג את האותיות בגופן הטוב. גרסאות מודרניות של כל הדפדפנים תומכות באפשרות הזאת (במחשבים; בהתקנים אחרים כגון טלפונים ניידים המצב מסובך יותר, אבל זה נושא לרשומה נפרדת). בעיקרון זה ממש לא מסובך, אבל צריך ליישם את זה ולשכנע את מפתחי מדיה־ויקי, שברובם לא יודעים שום דבר על עברית, להפעיל את זה באתר.
עבור עברית גופני רשת נחוצים בעיקר לתצוגה יפה של תנ״ך; רוב הדברים בוויקיפדיה ובאתרים אחרים בעברית עובדים בלי בעיות. אבל יש שפות אחרות, שמדברים בהן הרבה יותר אנשים מכמה שמדברים עברית, שאי־אפשר לכתוב בהן אפילו דברים פשוטים באינטרנט בלי התקנת גופן מתאים – שפות של אתיופיה, הודו, קמבודיה, טיבט ועוד. שימוש בגופני רשת יאפשר לדוברי השפות האלה להשתמש בוויקיפדיה ולצאת בקלות מהמעגל הסגור לכאורה של חוסר יכולת להשתמש בשפה שלהם ברשת. שימוש נרחב בגופני רשת בוויקיפדיה יקדם את השימוש בטכנולוגיה הטובה הזאת גם באתרים אחרים.
יש גם שפות שבכלל אין להן גופנים מתאימים, או שיש להן גופנים, אבל הם לא תכנה חופשית, ולכן בעייתי להשתמש בהם בוויקיפדיה שמשתדלת להתבסס רק על תכנה חופשית. עבור מקרים כאלה הוועדה הלשונית יכולה לחבר המלצה לקרן ויקימדיה לממן פיתוח של גופן. אם זה ייעשה, כתיבה בשפה הזאת תתאפשר לא רק בוויקיפדיה, אלא בכל אתר אחר.
כמובן, קיימות גם בעיות אחרות, למשל באגים שונים שקשורים לכתיבה ולתצוגה של שפות שנכתבות מימין לשמאל – עברית, ערבית, פרסית, ארמית ואחרות. לבעיות האלו קיימים פתרונות טכניים, אבל לא כולם מיושמים בוויקיפדיה וצריך להסביר למפתחי התכנה איך לעשות את זה. זה אחד התפקידים שלי, פחות או יותר. עוד בעיה היא תמיכה בכתיבה של שפת סימנים – אינני מתמצא בזה, אבל מסתבר שיש לזה ביקוש.
אציין עוד שבוועדה הזאת חבר גם מייקל אוורסון – אחד המומחים הגדולים בעולם לתֶקֶן יוניקוד, האיש שמִספֵר הרבה מאוד אותיות בהרבה מאוד שיטות כתב שונות, כדי שאפשר יהיה לכתוב בהן במחשבים, וצייר את הגופנים עבור הטבלאות של יוניקוד. אני מרגיש לקראת הפגישה אתו כמו שמרגיש ילד שלמד קצת לשיר עם גיטרה והוזמן להיות נגן ליווי בהופעה של בוב דילן.
ועכשיו אני פונה אליכם וחוזר על בקשתי מתחילת הרשומה: אם יש בעיות בתמיכה של מחשבים בעברית או בכל שפה אחרת שמציקות לכם, ספרו לי עליהן. גם אם אתם חושבים שכולם כבר מכירים אותן וגם אם זה לא קשור ישירות לוויקיפדיה. זו הזדמנות פז להעלות אותן בפני אנשים בעלי השפעה בתחום התמיכה של מחשבים בשפות השונות.
(אשמח גם לשמוע המלצות לבילוי בברלין, אבל זה באמת משני.)
מעניין. הארת את עיני.
אני נתקלתי מספר פעמים בבעיה הבאה:
כאשר יש טקסט מנוקד, ואני רוצה לחפש בו מילה מסויימת, אם אני מחפש את המילה ללא הניקוד- לא אמצא אותה. עליי לחפש אותה בדיוק כפי שהיא מופיעה בטקסט, כולל הניקוד. זו בעיה מעיקה מאוד, במיוחד כאשר רוצים לחפש שורש מסוים ולא כל כך משנה אם הוא בנטייה, סמיכות וכו'.
אציין שיש אתרים בהם הבעיה לא מופיעה, כלומר- ככה"נ יש דרך טכנית לעקוף את העניין.
באג בדפדפן. אם זה פיירפוקס, חשבתי שתקנו את זה ב4, מסתבר שלא.
אני אשאל את סיימון.
זה פיצ׳ר ולא באג, כי התווים באמת כאלה. וזה מדווח במוזילה, אם כי אני לא זוכר את המספר. אני לא מתנגד לכך שזה יושם במוזילה כם חיפוש כזה, אבל זו אמורה להיות אפשרות נוספת לחיפוש, כי למיטב הבנתי החיפוש הרגיל אמור להתייחס לתווים כמו שהם.
מה שכן, אפשר אולי לשקול להציע עדכון לתקן יוניקוד כך שזה יהיה אחיד בכל התכנות שאומרות על עצמן שהן מיישמות אותו. אשאל את מייקל.
לפי מה שהבנתי, רצו ליישם את זה ע"י הוספת תיבת סימון בסגנון "התעלם מניקוד" ליד התיבה של "התאם אותיות גדולות/קטנות".
בתקן יוניקוד מוגדרים 4 רמות מיון/השוואה.
עם משמעויות בערך:
– ראשונה השוואה תוים בסיסים
– שניה השוואה תוים בסיסיים וגם diactrics
– שלישית בשווה תוים בסיסיים case ו-diactrics אבל התעלם בתווי פיסוק
– רביעית השווה הכל (הצגת יוניקוד זהה)
כדי להתעלם מניקוד צריך להשתמש ברמה ראשונה.
למעשה אם מדובר בדפדפן צריך אופציה לבחירת הרמה, אם מדובר במנוע ויקי צריך לבדוק אם יש תמיכה ב-collation במנוע בכלל ואם יש אז איזה אופציות קיימות.
התקן מגדיר את הדרוש.
בעברית הבעיה העיקרית שעדיין קיימת היא סידור התנך מה שדי חשוב בויקי אם רוצים להציג את התנך לפי המסורה.
הבעיה היא סיווג הטעמים לנורמליזציה. הבעייה היא הרחבה של בעיית שין עם דגש. מהו הסדר הקנוני שלה הניקוד והטעמים.
יוניקוד פישלו בגדול – הם לא הבינו איך לסווג את הטעמים ונתנו קוד מיוחד לכל טעם מה שגורם לכל התהליך להיות חסר משמעות.
מת"י נראים אוילים בעיני יוניקוד ודי בצדק, כך שהיום הגדרות העברית מובלות ע"י גופים שיש לי אישית בעיה תיאולוגית איתם – עצוב.
ישנו תקן "חצי רשמי" שנמצא באתר של SBL או SIL אבל אני לא מוצא אותו.
תיאור די טוב יש כאן:http://fourquestions.us/pro/editing/normalize.php
תודה גדולה על התגובה הזאת.
באמת התכוונתי לקשקש עם מייקל אוורסון על נורצליזציה של ניקוד וטעמים כי זה מציק גם לי, אבל ההתמצאות שלי בזה חלקית. כל חומר על זה שאתה יכול לשלוח לי, יתקבל בברכה וכפי שכתבתי עשויה להיות לו השפעה רחבה.
המסמך הזה די ממצה את העניין למרות שיש לו הטייה מסויימת לכיוון הBHS.
יש ללחוץ כדי לגשת אל SBLHebrewUserManual1.5x.pdf
עד כמה שאני יודע, כשמדובר בניקוד (או באופן כללי ב-Diacritical marks) ביוניקוד, יש שתי אפשרויות:
א) לבחור באות (code-point) נפרדת הכוללת את הניקוד. (זו אינה שווה לאות ללא הניקוד. אינני יודע גם אם "המרחק" בינהן שווה.);
ב) לבחור באות הרגילה ללא הניקוד ולצרף אליה code point נוספת של הניקוד בלבד ולאותת (אינני יודע איך) שהשתיים הן Super-imposed. (יש לזה מילה בעברית?)
נראה לי שאתר הבוחר באפשרות הראשונה יקשה על חיפוש כמתואר בעוד שהאפשרות השניה קלה יותר. (עדיין צריך להיות מוכן ל-code point השני ולהתעלם…)
מאיר
הצורה הנכונה היא לשמור את הטקסט בצורה normalized – צורת NFC, לפי הצורה הזו גם רוב האלגוריתם יעבדו בצורה יותר יעילה וגם במקרה של עברית השמירה תהיה decomposed קרי תוים בסיסיים בנפרד ותוי ניקוד בנפרד
מה לגבי הסרבית-קרואטית?
מעניין – האם יש ויכוחים עליה?
Serbo-Croatian Srpskohrvatski / Српскохрватски
http://sh.wikipedia.org/wiki/
הרי יש גם ויקיפדיה סרבית וגם ויקיפדיה קרואטית. טוב… זה אלף-בית שונה.
Serbian Српски / Srpski
http://sr.wikipedia.org/wiki/
Croatian Hrvatski
http://hr.wikipedia.org/wiki/
יש ויקיפדיה בוסנית.
Bosnian Bosanski
http://bs.wikipedia.org/wiki/
טוב – אני מבין שיש להם מניע ואפילו קוד ISO.
כך לפחות לפי: http://en.wikipedia.org/wiki/Bosnian_language
מילוש, החבר הסרבי בוועדה הלשונית, חושב שזה קשקוש ושבאופן עקרוני אפשר לעשות ויקיפדיה אחת, למרות ההבדל בכתיב ולמרות ההבדל בתפוצה בשימוש במילים מסוימות. אנחנו ננסה לדון בזה, אבל יהיה קשה להוציא את לפועל.
הייתי פעם בקורס קיץ שהיו בו סטודנטיות מסרביה ומקרואטיה. הייתי בטוח שהן תשחטנה אחת את השנייה, אבל הן היו חברות טובות ודיברו באותה שפה.
הייתי פעם חבר ברשימת התפוצה trans-coord-discuss של פרוייקט "גנו" – והיה שם לפני כשנתיים (יוני 2009) דיון סוער וגועש במיוחד (הרבה מעבר לאופייני) בקשר לסרבית, קרואטית ומה שבינהן.
אבל אני זוכר שבזמנו היתה ויקי "סרבו-קרואטית", שבה הערכים היו כתובים בשני האלפביתים. זה כבר לא קיים? גבי הסרבים והקרואטים, השנאה שם פחות גדולה מאשר בין הסרבים והבוסניאקים (כלומר, מוסלמים בוסנים).
http://sh.wikipedia.org/wiki/Glavna_stranica_/_%D0%93%D0%BB%D0%B0%D0%B2%D0%BD%D0%B0_%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B8%D1%86%D0%B0
ויקיפדיה הסרבית היא הגדולה מבין הארבע והמתקדמת ביותר טכנולוגית: יש בה המרה אוטומטית בין שיטות הכתב.
השאר – בדלניות בלי סיבה טובה. זה מבחינת התכלס הבלשני; מבחינת התכלס הביצועי, אין הרבה סיכוי לשכנע אותם להפסיק לבזבז זמן ולהתאחד.
בהזדמנות זו שיאחדו גם את המקדונית והבולגרית.
אם אתם כבר מטפלים בנושא הניקוד בהקשר התנכ"י, אולי כדאי שכבר תוסיפו התייחסות לטעמי המקרא:
http://he.wikipedia.org/wiki/%D7%98%D7%A2%D7%9E%D7%99_%D7%94%D7%9E%D7%A7%D7%A8%D7%90
סימני הטעמים קבועים בכל התנ"ך, אולם המנגינות משתנות (תורה, נביאים, כתובים. בערך) וגם השמות קצת שונים בין העדות.
ראיתי בערך הזה ציטוט מפסוק מוקף בגרשיים ( " ) מכל צד. בדיוק קראתי בספר דקדוק אנגלי, שבשונה מעברית שתחילת ציטוט מתחילים בגרשיים נמוכים (אין לי במקלדת…) ומסיימים בגבוהים ("), באנגלית מתחילים ומסיימים בגבוהים. אז אם הכלל הזה לא נדרס במהלך השנים (בספרים ישנים אכן ניתן למצוא כך ציטוטים), מן הראוי להכניס את התו גרשיים תחתיים לסימני העברית (כמו שבוורד יש הבדל בין קו קצר – שמשמש לחיבור מילים [אדון-עולם] לקו ארוך – שמשמש לחיבור חלקי משפט [היום – למי שלא יודע – יום/חג העצמאות].
תודה על התגובה.
איזו התייחסות אתה רוצה שנוסיף לטעמי במקרא? הם קיימים בתקן יוניקוד ועובדים טוב בגופנים מסוימים. יש משהו מסוים שחסר לך?
לגבי מירכאות וקו מפריד, זה מטופל בתקן פריסת המקלדת החדש, גם זה ביזמתי. זו עדיין טיוטה, אבל אפשר לנסות אותה כבר היום ואני מזמין אותך לעשות את זה – להוריד את פריסת המקלדת מהאתר של שחר שמש.
אוקי, על הדרך גיליתי מה ההבדל בין גרשיים למרכאות…
ובכן, המידע לגבי הגרשיים הנמוכים לא מופיע בערך גרשיים אלא בערך מרכאות:
http://he.wikipedia.org/wiki/%D7%9E%D7%A8%D7%9B%D7%90%D7%95%D7%AA
כאן זרוק קצת ידע: http://www.ranrutenberg.com/2011/02/blog-post_16.html
יש עדיין בעיית תמיכה בטקסט עברי בפלאש בלינוקס (Adobe flash under Linux)
ניתן לראות את זה ב-YouTube בסרטונים ישראליים.
זה מפריע מאוד באתרים מבוססי פלאש, כמו למשל Webkinz
אם תוכל לעשות משהו בנדון ולדבר עם מישהו על זה, זה יעזור להפצת הלינוקס לילדים בארץ.
זאת לא בעיה בעברית, אלא בעיה בפלאש, של אדובי, שהיא תוכנה קנינית, שהדרך היחידה לפתור את זה נמצאת בידיהם.
אס.
גם אם מדובר בתוכנה קניינית של אדובי,
זה לא אומר שצריך להרים ידיים ולוותר.
אפשר ללחוץ על אדובי, ולדבר על זה עם אנשים ולהציף את המודעות לזה וכו'.
אם כבר מדברים על אנשים מקושרים, אולי העלאת הנושא יכולה לעזור במשהו.
בסוף יהיה טוב.
יש על זה באג פתוח אצל אדובי. הוא לא מקבל יותר מדי יחס.
ויש גם באג פתוח באובונטו.
לא קשור לעברית ולא קשור לויקי, אבל רק רציתי להוסיף את הקופטית לרשימת השפות שאי אפשר לקרא באינטרנט בלי להתקין אצלך את הפונט המתאים לכל אתר. כבר היה נראה שזה משתפר, אבל אז זה נהיה שוב גרוע. אני חושדת שהאשם הוא בחוסר תאימות בין keft, שהיה אמור להיות פונט היוניקוד המנצח שכולם ישתמשו בו, ו-antinoou, שהחליף אותו. אני לא מניחה שהולך להיות ויקיפדיה בקופטית, אבל שאלת אז ציינתי.
ולגבי בעית החיפוש עם/בלי דיאקריטים – תמיד חשבתי על זה כבעיה של בלשנים, כלומר אנשים שקוראים יותר שפות משהם כותבים וצריכים לחפש דברים שלא בהכרח יש להם את היכולם להקליד. זה מוציא אותי מדעתי לפעמים בליטאית ופולנית.
אן ספה צ'רקסית, קוראים לה אדיגית. צ'רקסים זה כינוי גנאי.
תלוי את מי אתה שואל.
אבל זה נושא לרשומה אחרת.
אתה משהו אתה, אמיר, באמת :-)
ולעניין הנדון: אני לא יודע אף שפה עם ליגטורות, אבל נראה לי מוזר (כשהסתכלתי על כתיבה של מאלאיאלאם במחשב) שאי אפשר לשלוט על איפה הטקסט יודפס עם ליגטורה ואיפה לא. או שאני טועה ואפשר?
אפשר להשתמש ב־ZWNJ, למשל השווה בין യ്ഹുദ ל־യ്ഹ്ഉദ്.
לא רואים אצלי את מה שניסית לכתוב ואני מאמין שאני לא היחיד.
(ארץ׳ לינוקס עם הרבה גופנים מותקנים).
חתול, אתה לא צריך המון גופנים, אתה צריך אחד טוב. שלושת אלה טובים:
http://code.google.com/p/naaraayam/downloads/list
ואוו, "חבר'ה" מנוקד אבל בלי גרש. אפילו שאני קוראת עם ניקוד לקחת לי זמן להבין את זה… (נתקלת פעם במילה הזו בלי גרש?)
מילון אבן־שושן, מילון רב־מילים, מילון יידי–אנגלי של אוריאל ויינרייך. לבושתי אינני מכיר שום ספר אמתי שבו זה כתוב בלי גרש. אפשר לנסות לחפש אצל מוסנזון, שמיר או יזהר.
הגרש נוסף כנראה כדי להבדיל בין חֶבְרֶה לבין חֲבֵרָה בספרים שבהם מסיבות טכניות קשה לנקד, אבל זה שימוש מוזר למדי בסימן הזה שלא קיים כל־כך במילים אחרות בעברית. לי לא קשה לנקד, ולכן אני אתעקש לכתוב את זה מנוקד.