ניתוח (פשטני) של מאות מאמרי דעה מאת כתבים בכירים
מאת נביא שקר
לאחרונה הורדתי את כל המאמרים של ארי שביט, ובדקתי עד כמה הוא חוזר על עצמו, מילולית.
יש עוד דברים שאפשר לעשות עם כמות גדולה של מילים. לצורך ההשוואות הבאות זה לא הוגן שנסתכל רק על שביט, אז הורדתי גם את כל המאמרים שיכולתי למצוא של אמיר ״בדיחה דלוחה״ אורן, ויוסי ״רכילות שבת״ ורטר.
ענני מילים
אפשר למשל ליצור ענן המתאר את המילים ששביט השתמש בהן בעשור האחרון:
אם מורידים את ׳ישראל׳ על ההטיות השונות:
נראה…נכון.
הנה הענן של ורטר:
והנה הענן של אורן:
זה אולי לא מפתיע במיוחד, אבל זה מעניין עד כמה בעצם דפי הפרשנות מוקדשים לזוויות שונות של האדם נתניהו.
מודל נושא
ניסיתי להפעיל ׳מודל נושא׳ על כל הטקסט של כתבי הארץ במשותף, אבל לא יצא משהו מעניין במיוחד. כל הנושאים מערבים במידה כזו או אחרת פוליטיקאים וצבא. יכול להיות שפשוט אין לי מספיק מלל, יכול להיות שזה לא עובד כל-כך טוב בעברית, ויכול להיות שאין באמת הרבה נושאים להפריד ביניהם.
כתיבה אוטומטית ומחוללים
דבר נחמד אחר שאפשר לנסות זה ליצור טבלה גדולה המתארת את ההסתברות מעבר בין כל מילה ומילה בטקסט של כתב. נגיד למשל ששביט כתב ״אסור״. מה אמורה להיות המילה הבאה? אפשר לתאר את כל המילים שבאו אחרי ״אסור״ בעשור האחרון אצלו וליצור הסתברות מעבר. אפשר לעשות זאת עבור כל מילה ומילה, ולמעשה אפשר לעשות זאת לצמדי מילים. כלומר, נגיד ששביט כתב ״לישראל אסור״, אז מה אמור לבוא אחר-כך?
קל לראות שאפשר להשתמש בטבלה כזו כדי לעשות קטגוריזציה של טקסט חדש, או כדי ליצור טקסט אוטומטי חדש. דברים שכאלה נקראים מודלי ngram, והם פופולריים בעיקר בתור בסיס להשוואה למודלים יותר מתוחכמים.
אני לא באמת מצפה ממודלים שכאלה שייצרו טקסט אוטומטי מעניין במיוחד.
ובכל זאת.
הנה פסבדו-שביט:
מושג המפתח בסביבה הקרובה של ראש הממשלה. יפה. ללפיד אין הניסיון הנדרש כדי לייצר פצצה גרעינית. כאשר במרתפה חמישה טונות של אורניום המועשר ברמה בינונית, איראן נמצאת על הסף. כשאיראן מפתחת נפצים גרעיניים ומתכת כדורית גרעינית וראשי חץ גרעיניים – איראן היא איום ממשי ומיידי. לדגן יוחסו גדולות, אך הוא ימשיך לאיים. הלקח שהמזרח התיכון יבער נמוכה, אך כשפועלים באופן כוחני נגד איראן, איראן תיהפך למעצמה המובילה במזרח התיכון.
הנה פסבדו-ורטר:
חלקו של מי שמסוגל לנבא תוצאות בחירות של הגברת נתניהו, מבלי שהם יודעים דבר וחצי דבר על בבית ברחוב היא לא לשכנע מדוע בחרה לרוץ לבד, ולא לחבור ללפיד או ליחימוביץ' – את על נתפסה בחירות מביש לא. עם "הארץ" לבני בבחירות שלא להיכנס לבדה לממשלת ימין–חרדים. יודעת איזו ממשלה היתה יכולה להיות משמעות שוברת בחירות, לטובת נתניהו. אחרי הבחירות לכנסת ה-19 אמש בתום מערכה מתמודדים חדשים, לצד פוליטיקאים ותיקים, בין המפלגות על של לפיד מתלבטים אף הם בין האחרונים שלא עדיין את קהלים לא בקצב בעיקר של פרופ' בן ציון נתניהו בן נתניהו גם הכחיש כי שלח אל לבני שליחים המצב יותר מאז הבחירות, נתניהו יהיה ראש הממשלה בכבודו בדרך עד מאוד, חלחל האנשים שם. אין ספק שיחימוביץ' ניהלה קמפיין שכלל של אחדות מחד, של התקרבנות מצד אחד, לפיד יזכה להערכה כמי שלא הפנה עורף לכלכלה הישראלית, עליה מסע הבחירות שלו. אנשים שם מתארים גדול וחוסר סדר.
ולבסוף, פסבדו-אורן:
בין כל הבאים בחשבון הרמטכ״ל, שלישי של אלוף, של שניים מעשית יאיר גולן מפקד חיל הים, רם רוטברג, בבסיס חיפה. את תגובת דוברות בתי המשפט, בעד סגל ונגד גולדברג. בין גולדברג בני דורות מפריד יותר גולדברג ישב ופרש ממנו כדי לכהן כמבקר המדינה בטרם קידום גרוניס ותיק ומנוסה יותר השרים ומי נדרשה למינוי והקצונה הבכירות – בצה"ל, במשטרה, במוסד. חזקה ממנו רק של בדיחה עצמית שנהג לספר רונלד רייגן, זקן הנשיאים האמריקאים, על ג׳ורג׳ וושינגטון. באמצע סוף המאה היה ההוליוודי בדימוס ממתין שנייה ומעיד, כשהוא אמר את בצאתו מהבית הלבן היה רייגן רק בן עוד נותרו לו 15 שנות חיים. איפה רייגן הימים ואיפה בן של שמעון האחרון, לאחר תום כהונתו ביולי יותר הרצל כמו נפתלי, כך גם החבר התחיל את פה, בטלפון, מה זה של משפט הולילנד.
===
לגבי פסבדו-אורן: כפי שאולי שמתם לב, בהטקסט נעדות התפתלויות הלשון המזוויעות המאפיינות את אותנטי-אורן. לא רק שאין לי אלגוריתם שיבנה את הבדיחות התפלות שלו, אין לי אפילו אלגוריתם שיזהה את הבדיחות התפלות האלה. מאוד הייתי שמח לייצר רשימה בנוסח ״כל משחקי הלשון הגרועים של אורן״, אבל בלי אוטומטיזציה אני לא אגע בזה.
דווקא יותר מעניין להבחין כי המילה 'עתיד' תופסת אצל ורטר מקום בינוני ואצל שביט ואורן מקום זניח בלבד. סמן חשוב להבחנה באשר למערכת האמונות השלטת בכותב, לטעמי. אדם שכותב על העתיד חושב על העתיד, מנסה להבין כיצד יראה. תכונה ראויה לאדם ביקורתי.
זאת תיאוריה מעניינת, אבל מתוך 116 הפעמים שורטר השתמש במילה ׳עתיד׳, 96 פעמים היו בהקשר ״יש עתיד״, כלומר המפלגה של יאיר לפיד.
[…] הערה: אימון הרשת מתבצע בשלבים. תיאורטית, ככל שתיתן לרשת יותר זמן היא תתכנס למשהו יותר סביר. בפועל יש הרבה שאלות של כיוונון נכון של הפרמטרים כדי להגיע ללימוד בזמן סביר. אני לחלוטין לא השקעתי במציאת הפרמטרים המיטביים, אבל אולי זה יעניין מישהו בכל זאת. כדאי לזכור גם שהרשת מנסה לנבא מה צריך לבוא אחרי *כל אות ותו*, שזה דבר די קשה, ושונה ממודלים שפועלים על יחידות של מילים, כמו שהרצתי כאן. […]
אפשר קצת הרחבה על הטכניקה? באיזה שפה אתה כותב את זה (מניחה שפיית'ון)? איך מורידים את כלל הכתבים של כתב כלשהו למחשב? איזו חבילה מורידים בשביל ענן מילים?
וודאי.
אכן, רוב העסק מתבצע בפיית׳ון, בעיקר כי זה מה שאני רגיל אליו, אני בטוח שיש שפות יעילות וטובות אחרות.
את המאמרים אני מוריד באמצעות ספריית urllib2 של פיית׳ון, שמאפשרת לקחת את כל ה-html של עמוד מסויים. למזלי לכל כותב ב׳הארץ׳ יש סיומות כך שאפשר לכתוב לולאה שרצה על מספרי עמודים ואותה סיומת, ומורידה את כל המידע מכל הלינקים באותו עמוד.
אחרי שיש לך את כל הטקסטים, את יכולה להשתמש בכל מיני ספריות שונות כדי ליצור ענני מילים. אישית אני מעדיף את האתר wordle:
http://www.wordle.net
לגבי מודל ה-ngram, זה היה חלק מספריית nltk של פיית׳ון, אבל הם הורידו את האפשרות הזו לפני כמה חודשים כדי לתקן כמה באגים.
תודה!
שלום, האם אפשר להשתמש באחד מענני המילים שלך למאמר על מילים? או ליתר דיוק בענן הראשון בכתבה?
שלום שלום. בשמחה, אם רק תוכל לכתוב ב-caption מאיפה זה או משהו בסגנון.
על הכיפק, משהו כמו: מתוך הבלוג 'נביא השקר'?
אגודל למעלה
(כן, בכיף)
מעולה, תודה, אשים פה את הלינק כשיעלה,
אני לא יודע אם זה יעניין אותך, אבל זה המאמר:
http://www.barrylong.co.il/%D7%94%D7%9E%D7%99%D7%9C%D7%94%2D%D7%94%D7%9E%D7%A7%D7%95%D7%A8%D7%99%D7%AA.html