Каким инструментом word-доки можно разложить на текстовое представление? кто/что юзал?

word

#1

Небольшое обсуждение из гиттера

Artur Ayukhanov @artbear 16:58
Народ, каким инструментом word-доки можно разложить на текстовое представление?
кто/что юзал?

лет 15 назад я юзал консольные утилиты, которые получали тупо текст.

есть сейчас что-то получше, в формате markdown или еще каком, чтобы хотя бы какая-то часть форматирования сохранялась в текстовом представлении ?

Alexey Sosnoviy @asosnoviy 17:12
есть word2markdown онлайн
но работает он почти никак

Infactum @Infactum 17:12
еще смотря какие ворд-доки. Doc и docx это большая разница.

Alexey Sosnoviy @asosnoviy 17:12
word-html-markdown ?
http://word-to-markdown.herokuapp.com/
@artbear попробуй, расскажешь =)

Maximov Valery @theshadowco 17:14
https://word-to-markdown.herokuapp.com/
опередил ))

Maximov Valery @theshadowco 17:14
использовал как-то, в принципе работает

Infactum @Infactum 17:14
через LibreOffice сделано. Выводы, думаю, очевидны.
Старый doc формат даже разные версии ворда могут плохо переваривать… А с docx, очевидно, все норм должно быть

Artur Ayukhanov @artbear 17:18
А в автоматическом режиме? командная строка или rest-запрос какой-нибудь?

ага, оно на руби, и в ком.строке работает.

что еще есть?

Artur Ayukhanov @artbear 17:34
но работает он почти никак

в онлайне вроде конвертанул, в онлайне картинки показывает,
но

  • перенос через кнопку “Копировать в буфер” не работает, нужно вручную копировать
  • картинки в онлайне показываются в режиме rendered, но после копирования ни в VSC, ни в Гитлабе не показываются :worried:

#2

Кто еще какие варианты знает?


#3

Сам не делал, но поступил бы так:

  • doc/docx при помощи Open/Libre Office сконвертировал бы в HTML
  • Очистил бы HTML от служебных тегов (google “clean html”)
  • HTML скорвертировал бы в маркдаун

#4

pandoc емнип умеет word 2 md


#5

Можно попробовать сохранить как *.odt и конвертировать в markdown конвертором от GitBook https://github.com/GitbookIO/gitbook-convert
При конвертации из других форматов теряются картики.


#6

Да, сохранение картинок - это боль!


#7

A pure python-based utility to extract text from docx files. https://github.com/ankushshah89/python-docx2txt It can now also extract images.

https://github.com/tunguski/docx2md Java
https://github.com/ilenhanako/docx2md Ruby
https://github.com/matb33/docx2md PHP