משהו על אימייל, קריאה, כרייה ואחים גדולים
הימים ימי הזיכרון המוגבל. ספקיות תיבות הדואר החינמיות לא איפשרו לקבל סירטונים ותמונות לחשבונות האימייל המוגבלים שסיפקו. הנדיבות שבהן - סיפקו 10 מגה וגם אז היה צריך המשתמש לדאוג למחיקה אינטנסיבית של דואר לפני שתיסתם לו התיבה. סחרחרת הGMAIL התחילה בראשון לאפריל. גוגל הודיעה על השקת גירסת הבטא של שירות אימייל חדש והדובדבן שבקצפת – ג'יגה שלם של זיכרון - פי אלף מתיבות המגה של הוטמייל. אחרי שהובהר שזו אינה מתיחת אחד באפריל נכנסו שאר ספקיות הדואר לסחרור של הגדלת הנפחים וכך נתבשרנו על יאהו שנותנת 100 מגה, הוטמייל שמקפיצה את נפח התיבות ואפילו וואלה הישראלית – העכבר ששאג, הודיע שאם גוגל יכולה - יכולים גם הם וגם הם יספקו ג'יגה עברי חינם לכל דורש.
GMAIL עדיין רצה בגרסת הבטא המוגבלת אבל כל הסובבים כבר מחזיקים תיבה. יש הטוענים לקונספירציה משעשעת. גוגל מציגה את היתרון הגדול של GMAIL באפשרות "לא למחוק אף מייל". אפשרות מעניינת אם רק הייתה זו אפשרות. במקרה של GMAIL אין ברירה אחרת – אי אפשר למחוק מייל. אחזקה של אין ספור ג'יגה בייטים של אימיילים ללא אפשרות מחיקה היא מצע נפלא לגידול פיטריות של כריית טקסט (text mining). על כריית טקסט מבוסס גם המודל העיסקי של GMAIL. גוגל מנתחת את תחלופת האימיילים ומצמידה פרסומות בהתאם. מודל עיסקי מנצח – פירסום ממוקד.
האימייל הראשון ששלחתי לעצמי בגוגל היה פיברוק על טיול למזרח ועל הצורך לקנות תרמיל ומצלמה דיגיטלית. שום פרסומת לא התקבלה. הנחתי שמאפשרים לי נחיתה רכה בטרם יפול מבול הפרסומות. והם אכן באו. נרגעתי. לאישרור של הזמנה של מלון בברצלונה הודבקה פרסומת של מלון מתחרה. מעניין.
הטכנולוגיה של GMAIL ובעצם של כל מערכת לכריית מידע מבוססת על מילות מפתח ועל הסמנטיקה של הקשרים בין מילות המפתח. תוכנה טובה לכריית מידע תדע להבדיל בין עיקר לטפל ותדע להבחין במשמעות הסמנטית של המשפט. תוכנה טובה תדע לזהות קונפירמיישן של הזמנה במלון ולא תציע מלונות חלופיים. למח האנושי אין פשוט מזה. המחשב, לעומת זאת, נתקל בקשיים. כאשר מילות המפתח שמזוהות הן 'מלון', 'ברצלונה' ו'חופש' אני מקבל לינקים למלונות בברצלונה וכל מני הצעות לבילוי גם כאשר כתבתי שבדיוק חזרתי מחופש בספרד.
ומה קורה כשכותבים אימייל בעברית? מערכת כריית המידע העברי של גוגל ישראל מתוחכמת עוד פחות. גוגל אמנם מזהה שבעברית עסקינן אך הפירסומות אקראיות לחלוטין. לאימייל אחד צורפו לינקים לתנ"ך און ליין ולעמותה לתמיכה בחוזרים בשאלה. יורים לכל הכיוונים – שיהיה.

המדע של כריית המידע עדיין בחיתוליו. השיטה למציאת ההקשרים בין מילות המפתח והענקת המשמעות הסמנטית עוד לא ברורה דיה אך למרות הטעויות המשעשעות, מנוע חזק לכריית מידע מצליח להפיק מידע משמעותי. מדיניות ה"לא למחוק אף מייל" לצד החוק במדינות מסויימות ומדיניות הפרטיות של גוגל מחוזקים על ידי מנוע חיפוש אימתני יוצרים את אפקט האח הגדול. אבירי זכויות הפרט יצאו למתקפה אבל יש להניח שבגוגל פשוט אומרים בקול את מה שכל ספק אינטרנט עושה בשקט. גוגל גם יעשו מזה כסף.
ואם כבר, למה לא להשתעשע בתיאוריית קונספירציה נוספת. קריאה של מדיניות הפרטיות של גוגל בצמוד למסקנות וועדת החקירה של האחד-עשר בספטמבר ולחקיקה החדשה – 'הרשאה לפעולה פטריוטית', מעלה את האפשרות שגוגל פועלת בשיתוף עם הCIA הFBI והNSA (הסוכנות לביטחון לאומי National Security Agency). חוות השרתים של גוגל ביחד עם טכנולוגיית החיפוש הייחודית לא תתקשה לזהות קשר בין אדם בעל שם ערבי (או IP ממדינה ערבית) שכותב במייל אחד על זמני טיסות, במייל אחר על מגזרי תייל ובמייל שלישי מזכיר כימיקלים שעשויים לשמש להכנת פצצות. גוגל מפתה אותנו לנהל את התכתבויות האינטרנט שלנו דרכם (ולקבל ג'יגה זיכרון). בתמורה הם ישמרו את כל הפרטים שלנו במאגר נתונים אחד. מהם הפרטים שְיִשַמְרוּ? העתקים של קוקיס, כתובות IP, כתובות אימייל, תחלופות אימייל וכתובות של אתרי אינטרנט בהם ביקרנו דרך גוגל. לא אתפלא אם אחת מסוכנויות הביון שותפה בחזון ובמימון לפרוייקט הדואר של גוגל . שירותי הביון כבר מעורבים חזק במחקר האקדמי ונציגה מטעמם, NISTP, יושבת באוניברסיטה של דרום פלורידה. NISTP היא הכיסוי האזרחי לפרוייקט ניתוח המיילים של שירותי הביון האמריקאיים ולהתקבל ל"מכון המחקר" האקדמי הזה מצריך תהליך סינון קפדני הכולל סיווג בטחוני. פרופסור אברהם קנדל העומד בראש המכון הצהיר לא מכבר שהחשש הגדול שלו אינו מפני גולם המידע שיקום על יוצרו אלא דווקא מפני "חפרפרת" שהסתננה למכון ה"אקדמי". סביר להניח שמחלקות המחקר והפיתוח של שירותי הביון מקדימים את המחקר האקדמי בכמה צעדים. אפוקליפסת האח הגדול זה כאן וכמו ששרים אר.אי.אמ: "it's the end of the world as we know it, but I feel fine".
אני מרגיש בסדר כי אני מניח שעם או בלי גוגל, מכתבי הזימה שאני שולח נסרקים מדגמית על ידי שירות ביון זה או אחר (או יכולים היו להיסרק). זכויות הפרט כבודן במקומו מונח אבל את בעל הבלוג מעניינת לא פחות היכולת של המחשב "להבין" הקשרים, "להבין" דבר מתוך דבר, "להבין" קונטקסט ולהבין בכלל.
האם מחשב בכלל יכול להבין? האם מותר האדם מהמחשב? אולי בפעם הבאה.
אוסף לינקים לטענות נגד GMAIL, לתגובת אנשי גוגל ולכתבות על כריית מידע והמלחמה בטרור אפשר למצוא כאן (תחת הקטגוריה 'מדע פופולרי').
וכאן כותבת מרטי הרסט מברקלי, אישה חביבה וחלוצה בתחום, סקירה קצרה על כריית טקסט.
פורסם ב 18 באוגוסט 2004 17:34 במדור גיק גיק גיק גיק גייייייייייייייק! | 16 תגובות
התגובות מתפרסמות על דעת ובאחריות כותביהן בלבד.
אורן [אתר] בתאריך 8/18/2004 6:03:47 PM
לא מדויק
האפשרות למחוק ("delete forever") היא תוספת מאוחרת שלא הייתה כלולה בהתחלה והוספה כנראה לאור מחאות המשתמשים.
המחיקה היא מסורבלת משהו וגוגל עושה הכל כדי לשכנע אותנו לנטוש את הקונספט של מחיקת אימיילים.
בכל אופן - גם כפתור המחיקה מוחק את האימייל מהממשק של הוובמייל אבל עד כמה שאני מבין - העתק נשמר על השרתים של גוגל לצרכי כריית מידע ואפיון משתמשים.
dh בתאריך 8/18/2004 6:17:01 PM
הו, קשה להאמין ששני החמודים הללו יכולים
להזיק.
מוזר שלא נתנו בתחילה אופציה למחוק, ולא רק מטעמי קונספירציה: הרי גם ג'יגה ייסתם מתישהו, מוקדם משחשבת. (לעניין הקונספירציה, ממילא איש אינו יכול לוודא שהמייל שמחק באמת נמחק פיזית ממקום אכסונו אי שם, הוא רק יודע שהתפנה לו מקום).
אני מאמין שבתיבת ה 6 מגה שהיתה לי ביאהו (ועליה היתה גאוותי, כי מצטרפים מאוחרים יותר קיבלו 4 מגה) עברו כמה מאות מגה בארבע שנות קיומה.(שרובן היו בחיבור איטי, ולכן בנפח תעבורה מצומצם).
למרות מדיניות רשמית של הקפדה על משמעת נתונים, זינקתי ל 25 מגה בתוך חודש ומשהו מההגדלה.
נטע בתאריך 8/18/2004 6:28:41 PM
טוב, אם כבר
"Because we keep back-up copies of data for the purposes of recovery from errors or system failure, residual copies of email may remain on our systems for some time, even after you have deleted messages from your mailbox or after the termination of your account."
http://gmail.google.com/gmail/help/privacy.html
יאמאזאקי בתאריך 8/18/2004 7:01:45 PM
וואלה אורן
אפילו אמא פולניה לא מצדיק דוקטורט בתחום כזה משעמם :-)
עזי בתאריך 8/19/2004 6:34:27 AM
נגיד שיש אח גדול
אז מה?
הוא *רק* ברשת, האח הזה? או *דווקא* ברשת? ומה כל-כל רע בו?
היתרון הענק שלנו, המשתמשים "המתוחכמים", שאנחנו יכולים לא רק להכיר ולהבין את המערכת שבה אנו מתפקים ומשתמשים, אלא אפילו לתחמן אותה, בניגוד ברור להתנהגות ספונטנית שלנו תחת כל עץ מצלמות רענן הצומח לו בכל פינה ניו-יורקית (לפחות), או בהתנהלות הרגילה והנאיבית שלנו בכל תחום שהוא, משיטוט בקניון ועד למשלוח אסמסים, מביקור בשירותים ציבוריים ועד לסוג הגלידה שבחרנו בסיציליאנית.
אני דווקא אוהב את האחח הגדול שלי. כמו שהראו לאחרונה כמה סקרים מביכים (את אדוני חופש הפרט ושאר לוחמי הדרור), אני כנראה שייך להמון שלא רק שלא ניבהל מזה שעוקבים אחרי, אלא נהנה מתשומת-הלב שאני מושך, מהממון המושקע בלימוד מנהגי ואורחותי, ומהפידבק שאני מקבל, לפעמים.
למה מה, בבנק שלי לא שולחים לי זבל (ניירי!) לפי המתרחש במעקב אחר פעולותיי בחשבונות "החשאיים והפרטיים" שלי? הספק הסלולרי שלי לא דוחף לי שפע עצים גדועים וטחונים עטופים בכרומו מבהיק כדי לשכנע אותי לבלות את ראש השנה בים המלח דווקא? וחברת כרטיסי האשרי שלי לא מנסה למכור לי איזה חנות ספרים (או מחשבים, או נעליים), כנראה במיתאם עם דפוס ההוצאות שלי?
כריית "טקסט" (או כל ביטוי התנהגותי נצפה ובר-כימות אחר) היא עניין שאנחנו חיים איתו ולא מהיום. הפאניקה שאחזה באבירי החופש לשמע השימוש "הנוראי" שעושה גוגל בתכני האימיילים שלנו משמשת יותר את מניעיהם הפוליטיים מאשר את שמירת חירות הפרט. למדנו לחיות עם השמדה מהירה של זבל ניירי שנתחב בפראות חד-צדדית לתיבות הדואר החלזוני שלנו - ועלינו רק לשמוח שההשמדה העכשווית לא רק קלה ומהירה יותר - אלא שומרת על איכות הסביבה!
המושג האורוולי המאיים על כולנו אינו דווקא המעקב (הלא סמוי!) אחרינו, אלא השימוש בהם להגבלות ולשליטה. כל זמן שמדובר על העברת מידע בלבד, ולו ממוקד, אני יכול דווקא לעלוז שלמישהו איכפת ממני ומציע לי חומר שעשוי לשמש אותי לטובה, במיוחד כשהיכולת שלי להיפטר מהחומר כרוכה בהקלקה קלילה בלבד!
לפעמים אח גדול זה דבר טוב!
עזי בתאריך 8/19/2004 9:46:35 AM
דבי
ברור!
מה הקשר? אני מוכרח רק שלא להסכים עם אורן? בחלק הסכמתי, בחלק לא. מה שמקומם אותי הוא החצים העבים הנשלחים לכרייני גוגל הפוגעים, כביכול, בחופש הפרט, גם ברשימה זו ובכלל באיספור רשימות.
ואגב - נניח שלא קראתי עד הסוף - האין זה חופש הפרט שלי?
;-)
דבי בתאריך 8/19/2004 1:21:03 PM
ללא נושא
חופשי אחי, חופשי.
שמעתי אגב גם על מבקרים שכותבים ביקורת ספרות בלי לקרוא את הספר עד הסוף. אבל צריך לדעת עם איזה סופרים לעשות את זה, לפעמים מקבלים מכות בסוף.
(-:
אורן [אתר] בתאריך 8/19/2004 1:24:05 PM
אז ככה
לעזי - הנושא של זכויות הפרט ושל ההגנה על הפרטיות חשוב ומענין אבל הוא בכלל לא היה הנושא כאן. אולי זה מצריך רשימה בפני עצמה. באופן אישי אני די אמביוולנטי ביחס לזה.
ברשימת הלינקים יש לינקים לטענות נגד גוגל ולתשובות של גוגל. יקרא הקורא וישפוט לעצמו.
מפחיד יותר או מפחיד פחות, אותי מעניין הפן המדעי שמאחורי כריית המידע ובגדול יותר - כמה רחוק מחשב יכול להגיע ביכולות ה"הבנה" שלו. מה עם יכולות בסקה? דיאגנוזה רפואית? מערכות דיאלוג? הבנת בדיחות?
סיפור בדיחות? מציאת פיתרונות לבעיות?
הדוגמאות מגוגל מראות שגם אצל הענקית גוגל המחקר רק בחיתוליו. המחקר מתקדם קצת יותר מאחורי הקלעים כאשר אירגוני מודיעין מושכים בחוטים.
ובעניין ה"זבל המסחרי" שאתה מקבל מהבנק - בבנק זה זבל כלכלי עם הצעות מעניינות על פי תחומי עניין ויכולת. על תחומי העניין הצבעת במפורש כאשר נרשמת לניוזךטרים למיניהם. בגוגל העניין מעט שונה - הם שומרים מידע על הרגלי הגלישה ועל האתרים בהם אתה מבקר. הם שומרים מידע על תחומי העניין ועל הבעיות שלך כפי שכתבת במייל לחברים והם בעצם מקשרים בין כל פיסות המידע.
זה בהחלט מאיים יותר מהבנק ששולח לך הצעה לחיסכון כי אתה ביתרת זכות.
עידו קינן [אתר] בתאריך 8/19/2004 1:51:02 PM
ההסבר של גוגל לעניין המחיקה
לארי פייג' אמר בראיון לפלייבוי: "היו הרבה דיונים על האם אנחנו הולכים למחוק דואל של אנשים אם הם רוצים אותו מחוק. מן הסתם אתה רוצה שיהיו לנו גיבויים של האימייל שלך כדי שנגן עליו, אבל זה גורם לבעיות פרטיות. [...] עורכי הדין כתבו משהו שלא היה פרטני מספיק [בתנאי השימוש]. הוא אמר משהו כמו, "אם תבקש שנמחק את האימייל שלך, הוא עשוי להישאר במערכת הגיבוי במשך זמן מה". זה גרם לאנשים להגיד, 'גוגל רוצים לשמור את האימייל המחוק שלי'. זו כלל לא היתה כוונתנו".
( http://www.nrg.co.il/online/10/ART/768/816.html )
אורן [אתר] בתאריך 8/19/2004 2:20:51 PM
עידו
באמת עוד לא קראתי את הראיון בפלייבוי, למעשה שמעתי עליו רק היום עם "כישלון" ההנפקה.
בכל אופן, אני לא משוכנע שעורך הדין של גוגל "כשל"בלשונו. הם לא מעסיקים סטזקרים שם והלשון די מדוייקת ולכאורה מרגיעה "עשוי להישאר לצורכי גיבוי".
זה כמובן משרת את התוכנית העסקית.
זה גם לא מונע ממני להשתמש בג'ימייל (בעיקר כשרת איחסון).
עזי בתאריך 8/19/2004 5:25:07 PM
אורן - לגבי המחשב החכם כאדם
קצת מוזר לי שאתה אומר שלא התייחסת לעניין הפרטיות, כשהנושא תופס בכל-זאת מוטיב לא קטן בפוסט שלך. בכל אופן, אפילו אם תפסתי טרמפ על-מנת להביע את דעתי העניה - אני מקווה שתסלח לי על פלישה שכזו...
לגבי "הזבל המסחרי" (כמעט כתבתי "הסבל המסחרי", ולא בכדי), הרי שהעיקרון הוא בדיוק אותו עיקרון, אלא שהמערכת העכשווית בנויה על מחשב כתומך החלטות (בעיקר - מאתר טקסט דיגיטלי לפי הנחיה מובנית) אך עדיין כוללת מגע אדם שמקבל החלטות, עורך אדפטציות ושינויים, וכך מצליח בצורה קולעת יות להגיע אליך... זה רק עניין של זמן עד שהמערכות האוטומטיות ישתפרו לרמה האנושית, לא? שהרי לא מדובר גם על משהו רוחני, ואפילו לא רגשי במיוחד, אלא על פעולות המבוססות על שיקולים הגיוניים בלבד...
ואם כבר הנושא עלה, אז יש תוכנות מתקדמות למדי שמסוגלות לחקות אנושיות בתחומים רבים, שרק הולכים ומתרבים... הזכרת הומור, אז החוקר האיטלקי אוליביארו סטוק
http://tcc.itc.it/people/stock.html
עוסק בנושא זה כבר כמה שנים והגיע להשגים מתקדמים ביצירת תוכנה שמייצרת הומור "אנושי". תוכל לקרוא על זה משהו כאן
http://portal.acm.org/citation.cfm?id=766143&dl=ACM&coll=portal
בכלל, האינטליגנציה המלאכותית - שמתחברת יופי עם כריית מידע - מזנקת קדימה בקצב אדיר...
צ פריר בתאריך 8/20/2004 8:22:05 AM
רעש
יש דרך פשוטה יחסית להלחם נגד כריית מידע כזו: להפוך אותה ליקרה.
לדוגמה: אם נחליט כולנו לצרף מדי פעם לחתימות שלנו כמה מילים חשודות, לדוגמה: לצטט ציטוט אקראי מדברי אמריקאים על מלחמות עיראק ואפגניסטאן, פתאום מעקב אחרי מילות מפתח הופך להיות יותר בעייתי. צריך לסנן יותר רעש.
וברעש שמסונן החוצה יש יותר הזדמנויות לכל מיני אנשים להחביא דברים.
כמובן שאף משתמש אינטרנט נבון לא מניח שלא קוראים את כל הדואר שלו. לכן אם הוא מזמין חומרים רגישים במקצת הוא ימצא להם כינויים פשוטים. הוא גם יכול ללכת לחנות ולקנות מגזרי תיל בשביל לתקן את הגדר שלו ולרכוש "כימיקלים מסוכנים" כחלק מדשן כימי לשדה שלו או לגינה שלו.
ואגב, אני מקווה שיש לגוגל מספיק שכל לא להכנס לעסקים מפוקפקים כאילו עם הממשל האמריקאי. יש לה הרי מספיק לקוחות בארוצות שאינן ארה"ב.
אורן [אתר] בתאריך 8/20/2004 2:22:00 PM
עזי וצפריר
עזי,
התייחסתי לצנעת הפרט בשביל להדגיש את הכח שבמערעות כאלו אבל ניסיתי להתחמק מהפן ה"מוסרי". הזכרתי את הקשר לאירגוני ביון פשוט משום שהם מתקדמים יותר במחקר וביכולות שהן הנושא העיקרי.
אתה צודק לעניין הבינה המלאכותית וההומור ובאמת תכננתי לכתוב על זה פוסט. סתם קוריוז - אחד הדברים שמשכו אותי לתחום היה הספר 'עריצה היא הלבנה' (http://www.makash.ac.il/h_school/hst/hstp/ayelets/shem2.htm) שקראתי בכיתה י'. בספר מנסה הגיבור ללמד את המחשב לספר/להבין בדיחות. זה אחד מספרי המדע הבדיוני היחידים שקראתי כי אני לא חובב הז'אנר.
צפריר,
אתה כמובן צודק והצפה של מידע תגרום לקריסת מערכות או לבעיות בזיהוי. כמובן שאפשר להשתמש במצפינים חזקים (לא חוקי ומעורר חשד מיידי) ואפשר גם לא לעבוד עם האינטרנט. עם כל זאת, הניסיון מראה שמערכת חכמה הייתה עולה על התארגנות ה11 בספטמבר רק על ידי הצלבות נתונים וסריקת אימיילים.
(הרווח בין הצ' לפ' מכוון?).
אפשר למצוא עוד רשימות בארכיון, או לחזור לראש העמוד.






