אַרייַנפיר דאַטן פֿון פּדף צו עקססעל דורך פּאָווער קווערי

די אַרבעט פון טראַנספערינג דאַטן פון אַ ספּרעדשיט אין אַ פּדף טעקע צו אַ Microsoft Excel בלאַט איז שטענדיק "שפּאַס". ספּעציעל אויב איר טאָן ניט האָבן טייַער דערקענונג ווייכווארג ווי FineReader אָדער עפּעס ווי דאָס. דירעקט קאַפּיינג יוזשאַוואַלי טוט נישט פירן צו עפּעס גוט, ווייַל. נאָך פּאַפּינג די קאַפּיד דאַטן אויף די בלאַט, זיי וועלן רובֿ מסתּמא "שטעקן צוזאַמען" אין איין זייַל. דעריבער, זיי מוזן זיין פּיינסטייקלי אפגעשיידט מיט אַ געצייַג טעקסט דורך שפאלטן פון די קוויטל דאַטע (דאַטן - טעקסט צו קאָלומנס).

און פון קורס, קאַפּיינג איז מעגלעך בלויז פֿאַר יענע פּדף טעקעס ווו עס איז אַ טעקסט שיכטע, ד"ה מיט אַ דאָקומענט וואָס איז פּונקט סקאַנד פון פּאַפּיר צו PDF, דאָס וועט נישט אַרבעטן אין פּרינציפּ.

אָבער עס איז נישט אַזוי טרויעריק, טאַקע 🙂

אויב איר האָבן אָפפיסע 2013 אָדער 2016, אין אַ פּאָר פון מינוט, אָן נאָך מגילה, עס איז גאַנץ מעגלעך צו אַריבערפירן דאַטן פון פּדף צו מיקראָסאָפט עקססעל. און וואָרט און מאַכט אָנפֿרעג וועט העלפֿן אונדז אין דעם.

פֿאַר בייַשפּיל, לאָזן אונדז נעמען דעם פּדף באַריכט מיט אַ בינטל פון טעקסט, פאָרמולאַס און טישן פֿון דער וועבזייטל פון דער עקאָנאָמיק קאַמישאַן פֿאַר אייראָפּע:

אַרייַנפיר דאַטן פֿון פּדף צו עקססעל דורך פּאָווער קווערי

... און פּרובירן צו ציען אויס פון עס אין עקססעל, זאָגן דער ערשטער טיש:

אַרייַנפיר דאַטן פֿון פּדף צו עקססעל דורך פּאָווער קווערי

לאמיר גיין!

שריט 1. עפֿן פּדף אין וואָרט

פֿאַר עטלעכע סיבה, ווייניק מענטשן וויסן, אָבער זינט 2013 Microsoft Word האט געלערנט צו עפענען און דערקענען פּדף טעקעס (אפילו סקאַנד אָנעס, דאָס איז, אָן אַ טעקסט שיכטע!). דאָס איז געטאן אין אַ גאָר נאָרמאַל וועג: עפענען וואָרט, גיט טעקע - עפֿן (טעקע — עפן) און ספּעציפיצירן די PDF פֿאָרמאַט אין די פאַל-אַראָפּ רשימה אין דער נידעריקער רעכט ווינקל פון די פֿענצטער.

דערנאָך סעלעקטירן דעם PDF טעקע וואָס מיר דאַרפֿן און גיט עפענען (עפֿן). וואָרט דערציילט אונדז אַז עס וועט לויפן OCR אויף דעם דאָקומענט צו טעקסט:

אַרייַנפיר דאַטן פֿון פּדף צו עקססעל דורך פּאָווער קווערי

מיר שטימען און אין אַ ביסל סעקונדעס מיר וועלן זען אונדזער PDF אָפֿן פֿאַר עדיטינג שוין אין וואָרט:

אַרייַנפיר דאַטן פֿון פּדף צו עקססעל דורך פּאָווער קווערי

פון קורס, דער פּלאַן, סטיילז, פאַנץ, כעדערז און פאָאָטערס, אאז"ו ו וועט טייל פליען אַוועק די דאָקומענט, אָבער דאָס איז נישט וויכטיק פֿאַר אונדז - מיר דאַרפֿן בלויז דאַטן פון טישן. אין פּרינציפּ, אין דעם בינע, עס איז שוין טעמפּטינג צו פשוט נאָכמאַכן די טיש פון די דערקענט דאָקומענט אין וואָרט און פשוט פּאַפּ עס אין עקססעל. מאל עס אַרבעט, אָבער מער אָפט עס פירט צו אַלע סאָרץ פון דאַטן דיסטאָרשאַנז - פֿאַר בייַשפּיל, נומערן קענען ווענדן אין דאַטעס אָדער בלייבן טעקסט, ווי אין אונדזער פאַל, ווייַל. PDF ניצט ניט-סעפּאַראַטאָרס:

אַרייַנפיר דאַטן פֿון פּדף צו עקססעל דורך פּאָווער קווערי

אַזוי לאָזן ס נישט שנייַדן עקן, אָבער מאַכן אַלץ אַ ביסל מער קאָמפּליצירט, אָבער רעכט.

שריט 2: היט דעם דאָקומענט ווי אַ וועב בלאַט

צו לאָדן די באקומען דאַטן אין עקססעל (דורך פּאָווער קווערי), אונדזער דאָקומענט אין וואָרט דאַרף זיין געראטעוועט אין די וועב בלאַט פֿאָרמאַט - דעם פֿאָרמאַט איז, אין דעם פאַל, אַ מין פון פּראָסט דענאָמינאַטאָר צווישן וואָרט און עקססעל.

צו טאָן דאָס, גיין צו די מעניו טעקע - היט ווי (טעקע — היט ווי) אָדער דריקן דעם שליסל פקסנומקס אויף די קלאַוויאַטור און אין די פֿענצטער וואָס עפענען, סעלעקטירן דעם טעקע טיפּ וועב בלאַט אין איין טעקע (וועבזײַטל — איין טעקע):

אַרייַנפיר דאַטן פֿון פּדף צו עקססעל דורך פּאָווער קווערי

נאָך שפּאָרן, איר זאָל באַקומען אַ טעקע מיט די mhtml געשפּרייט (אויב איר זען טעקע יקסטענשאַנז אין Explorer).

סטאַגע 3. ופּלאָאַדינג די טעקע צו עקססעל דורך מאַכט קווערי

איר קענען עפֿענען די באשאפן MHTML טעקע אין עקססעל גלייַך, אָבער דעמאָלט מיר באַקומען, ערשטער, אַלע די אינהאַלט פון די PDF אין אַמאָל, צוזאַמען מיט טעקסט און אַ בינטל פון ומנייטיק טישן, און, צווייטנס, מיר וועלן ווידער פאַרלירן דאַטן רעכט צו פאַלש. סעפּאַראַטאָרס. דעריבער, מיר וועלן טאָן די אַרייַנפיר אין עקססעל דורך די Power Query לייגן-אין. דאָס איז אַ גאָר פריי אַדישאַן מיט וואָס איר קענען צופֿעליקער דאַטן צו עקססעל פֿון כּמעט קיין מקור (פילעס, פאָלדערס, דאַטאַבייסיז, ERP סיסטעמען) און דערנאָך יבערמאַכן די באקומען דאַטן אויף יעדער מעגלעך וועג, און געבן עס די געבעטן פאָרעם.

אויב איר האָבן עקססעל 2010-2013, איר קענען אראפקאפיע Power Query פֿון דער באַאַמטער מיקראָסאָפט וועבזייטל - נאָך ייַנמאָנטירונג איר וועט זען אַ קוויטל מאַכט קווערי. אויב איר האָבן עקססעל 2016 אָדער נייַער, איר טאָן ניט דאַרפֿן צו אָפּלאָדירן עפּעס - אַלע די פאַנגקשאַנאַליטי איז שוין געבויט אין עקססעל דורך פעליקייַט און איז ליגן אויף די קוויטל דאַטע (דאַטע) אין גרופּע אראפקאפיע און קאָנווערט (באַקומען & יבערמאַכן).

אַזוי מיר גיין צו די קוויטל דאַטע, אָדער אויף די קוויטל מאַכט קווערי און קלייַבן אַ קאָלעקטיוו צו באַקומען דאַטן or שאַפֿן אָנפֿרעג - פֿון טעקע - פֿון קסמל. צו מאַכן קענטיק ניט בלויז XML טעקעס, טוישן די פילטערס אין די פאַל-אַראָפּ רשימה אין דער נידעריקער רעכט ווינקל פון די פֿענצטער צו אַלע טעקעס (אַלע טעקעס) און ספּעציפיצירן אונדזער MHTML טעקע:

אַרייַנפיר דאַטן פֿון פּדף צו עקססעל דורך פּאָווער קווערי

ביטע טאָן אַז דער אַרייַנפיר וועט נישט פאַרענדיקן הצלחה, ווייַל. Power Query יקספּעקץ XML פֿון אונדז, אָבער מיר האָבן אַ HTML פֿאָרמאַט. דעריבער, אין דער ווייַטער פֿענצטער וואָס איז ארויס, איר דאַרפֿן צו רעכט גיט אויף די טעקע ינגקאַמפּראַכענסיבאַל צו Power Query און ספּעציפיצירן די פֿאָרמאַט:

אַרייַנפיר דאַטן פֿון פּדף צו עקססעל דורך פּאָווער קווערי

נאָך דעם, די טעקע וועט זיין ריכטיק דערקענט און מיר וועלן זען אַ רשימה פון אַלע די טישן וואָס עס כּולל:

אַרייַנפיר דאַטן פֿון פּדף צו עקססעל דורך פּאָווער קווערי

איר קענען זען די אינהאַלט פון די טישן דורך געבן אַ קליק די לינקס מויז קנעפּל אין די ווייַס הינטערגרונט (נישט אין די וואָרט טיש!) פון די סעלז אין די דאַטאַ זייַל.

ווען דער געוואלט טיש איז דיפיינד, גיט אויף די גרין וואָרט טיש - און איר "פאַלן דורך" אין זייַן אינהאַלט:

אַרייַנפיר דאַטן פֿון פּדף צו עקססעל דורך פּאָווער קווערי

עס בלייבט צו טאָן עטלעכע פּשוט סטעפּס צו "קאַם" זייַן אינהאַלט, ניימלי:

  1. ויסמעקן ומנייטיק שפאלטן (רעכט גיט אויף די זייַל כעדער - אַראָפּנעמען)
  2. פאַרבייַטן דאַץ מיט קאָמע (סעלעקטירן שפאלטן, רעכט גיט - ריפּלייסינג וואַלועס)
  3. אַראָפּנעמען גלייַך וואונדער אין די כעדער (קלייַבן שפאלטן, רעכט גיט - ריפּלייסינג וואַלועס)
  4. אַראָפּנעמען די שפּיץ שורה (היים - ויסמעקן שורות - ויסמעקן שפּיץ שורות)
  5. אַראָפּנעמען ליידיק שורות (היים - ויסמעקן שורות - ויסמעקן ליידיק שורות)
  6. כאַפּן די ערשטער רודערן צו די טיש כעדער (היים - ניצן ערשטער שורה ווי כעדינגז)
  7. פילטער אויס ומנייטיק דאַטן ניצן אַ פילטער

ווען דער טיש איז געבראכט צו זיין נאָרמאַל פאָרעם, עס קענען זיין אַנלאָודיד אויף די בלאַט מיט די באַפֿעל נאָענט און אראפקאפיע (פאַרמאַכן & לאָדן) on די הויפּט קוויטל. און מיר וועלן באַקומען אַזאַ שיינקייט מיט וואָס מיר קענען שוין אַרבעטן:

אַרייַנפיר דאַטן פֿון פּדף צו עקססעל דורך פּאָווער קווערי

  • יבערמאַכן אַ זייַל צו אַ טיש מיט מאַכט אָנפֿרעג
  • שפּאַלטן קלעפּיק טעקסט אין שפאלטן

לאָזן אַ ענטפֿערן